ВВЕДЕНИЕ 5
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ СИСТЕМ АВТОМАТИЧЕСКОГО
РАСПОЗНАВАНИЯ АКУСТИЧЕСКИХ СИГНАЛОВ 7
1.1 Области применения систем автоматического распознавания
акустических сигналов 7
1.1.1 Биометрические системы 7
1.1.2 Системы распознавания звуков окружающей среды 8
1.1.3 Системы распознавания музыки и музыкальных инструментов 8
1.1.4 Научно-прикладные задачи 8
1.2 Требования, предъявляемые к системам распознавания источников
звука 15
1.3 Анализ структуры существующих систем автоматического
распознавания источников акустических сигналов 16
1.1.1. Методы обнаружения звуковых событий в непрерывном
аудиопотоке 19
1.1.2. Признаки, используемые для распознавания 24
1.1.3. Распознавание звуковых событий с использованием методов
машинного обучения 26
1.4 Выводы к главе 1 30
ГЛАВА 2. РАЗВИТИЕ ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ
АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЗВУКОВЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ 32
2.1 Искусственные нейронные сети, используемые для распознавания источников звука 32
2.1.1 Многослойные сети прямого распространения 33
2.1.2 Самоорганизующиеся карты Кохонена 37
2.2 Выбор значимых признаков 40
2.3 Блок-схема нейросетевого алгоритма распознавания источников
акустических сигналов с учителем 42
2.4 Анализ эффективности нейросетевого алгоритма распознавания в
задачах идентификации дикторов 44
2.4.1 База данных 44
2.4.2 Обнаружение звукового события 45
2.4.3 Извлечение признаков и обучение нейронной сети 48
2.4.4 Тестирование 49
2.5 Выводы к главе 2 50
ГЛАВА 3. ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ТИПА ФЛЮИДА ПО ДАННЫМ СКВАЖИННОЙ СПЕКТРАЛЬНОЙ ШУМОМЕТРИИ 52
3.1 База данных с записями акустических шумов в скважинах и в
лабораторных условиях 53
3.2 Выделение значимых участков шумов по данным шумометрии 55
3.3 Индексирование скважинных данных 56
3.4 Обучение нейронной сети 58
3.5 Тестирование программного комплекса распознавания 60
3.6 Выводы к главе 3 64
ГЛАВА 4. ПРИМЕНЕНИЕ ПРОГРАММНОГО КОМПЛЕКСА В ЗАДАЧЕ
ДЕТЕКТИРОВАНИЯ ПЕСКА ПО ДАННЫМ ШУМОМЕТРИИ 66
4.1 Обзор существующих методов детектирования песка в скважинах 66
4.2 Детектирование песка на данных спектральной шумометрии 68
4.2.1 База данных с записями акустических шумов в скважинах и в
лабораторных условиях 69
4.2.2 Обнаружение звукового события 71
4.2.3 Извлечение значимых признаков и обучение нейронной сети 73
4.2.4 Тестирование обученной нейронной сети 74
4.3 Выводы к главе 4 76
ЗАКЛЮЧЕНИЕ 78
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 80
ПРИЛОЖЕНИЕ А 87
Многие события и объекты могут быть распознаны только на основе генерируемых ими звуковых сигналов. Распознавание означает то, что слышится сейчас, каким-то образом соответствует тому, что уже слышали в прошлом [1], например, голос по телефону, или шаги идущего по коридору человека.
Основной проблемой в распознавании источников звука являются контекстные вариации. Звуковые волны, создаваемые определенным источником, различаются при каждом событии. Если бы они были похожи, то распознавание бы происходило путем сравнения волн с шаблонами, хранящимися в памяти. В реальном мире волны, производимые в разное время, очень разные. Это связано с тем, что физический процесс, генерирующий звук, очень редко остается одинаковым в разные моменты времени. Кроме того, положение источника по отношению к слушателю и акустические характеристики окружающей среды влияют на звуковые волны.
Исследования в области распознавания источников акустических сигналов начались несколько десятилетий назад и продолжаются в настоящее время. За последние годы наблюдается значительное повышение качества распознавания, однако основная проблема автоматического распознавания источника, независимо от акустического окружения, все еще далека от решения. Именно поэтому актуальны как исследования уже существующих алгоритмов, так и поиск новых решений в данной области.
Целью данной работы является разработка программного комплекса автоматического распознавания источников акустических сигналов с использованием искусственных нейронных сетей.
Для достижения данной цели необходимо решить следующие задачи:
• обзор существующих систем автоматического распознавания источников акустических сигналов;
• сбор и анализ базы данных;
• выбор значимых признаков и проверка их эффективности в задачах идентификации дикторов;
• выбор архитектуры и алгоритма обучения искусственной нейронной сети;
• тестирование разработанного программного комплекса
автоматического распознавания типа флюида по скважинным акустическим данным;
• применение программного комплекса в задаче детектирования песка по данным шумометрии.
Данная работа состоит из введения, четырех глав основной части, заключения, приложения и списка использованной литературы.
В первой обзорной главе представлен обзор существующих систем автоматического распознавания источников акустических сигналов, их структура и области применения. Говорится о требованиях, предъявляемых к данным системам.
Во второй главе представлены краткие сведения из теории искусственных нейронных сетей. Представлена и описана блок-схема нейросетевого алгоритма распознавания источников звука. Проведен анализ эффективности нейросетевого алгоритма распознавания и значимых признаков в задачах идентификации дикторов.
В главе 3 представлен разработанный программный комплекс автоматического распознавания типа флюида по данным скважинной спектральной шумометрии.
В главе 4 приведен обзор существующих методов акустического детектирования песка в скважинах. Предложен метод детектирования песка по данным спектральной шумометрии.
Заключение содержит основные результаты проделанной работы.
1. Предложена блок-схема обучения нейросетевого алгоритма распознавания источников акустических сигналов, состоящая из следующих этапов: предварительная обработка, индексирование входных данных, извлечение значимых признаков и обучение. В качестве значимых признаков в данной работе были использованы коэффициенты отражения авторегрессионной модели. Обучение проводилось с использованием искусственных нейронных сетей.
2. Для анализа эффективности предложенного алгоритма и выбора значимых признаков создана система автоматической идентификации диктора. Для данной системы создана база данных, состоящая из дикторов, произносящих буквы английского алфавита. Для автоматического выделения букв из непрерывных записей дикторов разработан метод на основе характеристик речевых сигналов - кратковременная энергия и число нулей интенсивности. Данный метод успешно справился со своей задачей и выделил звуковые сигналы букв для каждого диктора. В качестве распознавателя была выбрана и обучена самоорганизующаяся карта Кохонена. Точность идентификации дикторов составила более 95%. В результате на примере распознавания дикторов было показано, что коэффициенты отражения являются значимыми признаками в задаче распознавания источников акустических сигналов.
3. Разработан программный комплекс автоматического распознавания типа флюида по данным скважинной спектральной шумометрии. Была создана база данных, состоящая из 60 скважин с различными типами флюидов и лабораторных экспериментов. Для автоматического выделения значимых шумов был разработан метод на основе медианной фильтрации и операций математической морфологии. Были выбраны оптимальный порядок авторегрессионной модели и архитектура искусственной нейронной сети.
В качестве распознавателя выбрана трехслойная нейронная сеть прямого распространения. В качестве обучающего алгоритма использован алгоритм Левенберга-Марквардта. Для каждого типа флюида обучена своя искусственная нейронная сеть. В результате эффективность распознавания типа флюида по данным скважинной шумометрии достигнута более 90%.
4. Разработанный программный комплекс был применен в задаче детектирования песка по данным спектральной шумометрии. Собрана база данных, состоящая из лабораторных экспериментов и скважин с песком и без. Обучена карта Кохонена для детектирования наличия всплесков на акустических данных. В качестве распознавателя удара песка на данных была выбрана трехслойная нейронная сеть прямого распространения. В ходе тестирования разработанная система показала уверенную регистрацию зон выноса песка по данным спектральной шумометрии.
1. McAdams, S. Thinking in Sound: The Cognitive Psychology of Human Audition [Текст] / S. McAdams, E. Bigand. - Oxford: Oxford University Press, 1993. - 354 p.
2. Щелкачев, В.Н. Подземная гидравлика [Текст] / В.Н. Щелкачев, Б.Б. Лапук. - М.: Государственное научно-техническое из-во нефтяной и горно-топливной литературы, 1949. - 525 с. Книга была переиздана: Москва- Ижевск, НИЦ «Регулярная и хаотическая динамика»: 2001. ISBN: 5-93972¬081-1.
3. Ипатов, А.И. Геофизический и гидродинамический контроль разработки месторождений углеводородов [Текст]: учеб. пособие / А.И. Ипатов, М.И. Кременецкий. - М.: НИЦ «Регулярная и хаотическая динамика», 2010. - 780 с.
4. McKinley, R.M. The Structure and Interpretation of Noise From Flow Behind Cemented Casing [Текст] / R.M. McKinley, F.M. Bower, R.C. Rumble // Journal of Petroleum Technology. - 1973. - Vol. 25. - P. 329-339.
5. Martin, K.D. Sound-Source Recognition: A Theory and Computational Model [Текст]: Rh.D. dissertation. - Massachusetts Institute of Technology, 1999. - 172 p.
6. Valero, X. Perceptually-Based Signal Features for Environmental Sound Classification [Текст]. Ph.D. dissertation. - Universitat Ramon Llull. Barcelona,
2012. - 211 p.
7. Dennis, J.W. Sound Event Recognition in Unstructured Environments using Spectrogram Image Processing с. Ph.D. dissertation. - Nanyang Technological University, 2014. - 204 p.
8. Temko, A. Acoustic Event Detection and Classification [Текст]. Ph.D. dissertation. - Polytechnic University of Catalonia, 2007. - 174 p.
9. Real-world acoustic event detection [Текст] / X. Zhuang et al. // Pattern Recognition Letters. - 2010. - Vol. 31. - P. 1543-1551.
10. A survey of audio-based music classification and annotation [Текст] / Z. Fu et al. // IEEE Transactions on Multimedia. - April 2011. - Vol. 13. - P. 303-319.
11. Gygi, B. Factors in the identification of environmental sounds [Текст]. Ph.D. dissertation. - Indiana University, 2001. - 188 p.
12. Bellman, R.E. Dynamic Programming [Текст] / R.E. Bellman. - Courier Dover Publications, 2003. - 392 p.
13. Using one-class SVMs and Wavelets for audio surveillance [Текст] / A. Rabaoui et al. // IEEE Trans. Information Forensics and Security. - 2008. - Vol. 3. - P. 763-775.
14. Audio-based context recognition [Текст] / A.J. Eronen et al. // IEEE Trans. Audio Speech Lang. Proc.. - 2006. - Vol. 14. - P. 321 - 329.
15. Tzanetakis, G. Multifeature Audio Segmentation For Browsing and Annotation [Текст] / G. Tzanetakis, P. Cook // Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. - 1999. - P. 103-106.
16. Pinquier, J. Jingle detection and identification in audio documents [Текст] / J. Pinquier, R Andre-Obrecht // Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). - 2004. - Vol. 4. - P. 329-332.
17. Foote, J. Automatic audio segmentation using a measure of audio novelty [Текст] / J. Foote // Proc. IEEE International Conference on Multimedia and Expo (ICME). - 2000. - P. 452-455.
18. Audio-Assisted Scene Segmentation for Story Browsing [Текст] / Y. Cao et al. // Proc. International Conference on Imaging and Video Retrieval. - 2003. - P. 446-455.
19. Pietquin, O. Applied Clustering for Automatic Speaker- Based Segmentation of Audio Material [Текст] / O. Pietquin, L. Couvreur, P. Couvreur // Belgian Journal of Operations Research, Statistics and Computer Science. - 2001. - Vol. 41. - P. 69-81.
20. Life Sounds Extraction and Classification in Noisy Environment [Текст] / M. Vacher et al. // Proc. IASTED International Conference on Signal & Image Processing. - 2003. - P. 273-291.
21. Detection and Speech/Sound Segmentation in a Smart Room Environment [Текст] / M. Vacher et al. // Proc. International Conference on Speech Technology and Human - Computer Dialogue. - 2005. - P. 37-48.
22. Tartakovsky, A. Sequential Analysis: Hypothesis Testing and Changepoint Detection [Текст] / A. Tartakovsky, I. Nikiforov, M. Basseville // Monographs on Statistics & Applied Probability. - 2014. - Vol. 136. - P. 119-122.
23. Dessein, A. An information-geometric approach to real-time audio segmentation [Текст] / A. Dessein, A. Cont // IEEE Signal Processing Letters. -
2013. - Vol. 20. - P. 331-334.
24. Cont, A. On the information geometry of audio streams with applications to similarity computing [Текст] / A. Cont, S. Dubnov, G. Assayag // IEEE Transactions on Audio, Speech, and Language Processing. - 2011. - Vol. 19. - P. 837-846.
25. Ellis, D. Detecting alarm sounds [Текст] / D. Ellis// Proc. CRAC workshop. - 2001. - P. 59-62.
26. Clavel, C. Events detection for an audio-based surveillance system [Текст] / C. Clavel, T. Ehrette, G. Richard // Proc. IEEE International Conference on Multimedia and Expo (ICME). - 2005. - P. 1306-1309.
27. HMM-based acoustic event detection with AdaBoost feature selection [Текст] / X. Zhou et al. // Proc. Classification of Events, Activities and Relationships Evaluation and Workshop. - 2007. - P. 345-353.
28. Soundscape analysis by means of a neural network-based acoustic summary [Текст] / D. Oldoni et al. // Proc. 40th International Congress and Exposition on Noise Control Engineering (Internoise). - 2011. - Vol. 5. - P. 3988-3993.
29. Mitrovic, D. Features for contentbased audio retrieval [Текст] / D. Mitrovic, M. Zeppelzauer, C. Breiteneder // Advances in computers. - 2010. - Vol. 78. - P. 71-150.
30. Downie, J.S. Music information retrieval [Текст] / J.S. Downie // Annual review of Information Science and Technology. - 2003. - Vol. 37. - P. 295-340.
31. Aggregate features and Adaboost for music classification [Текст] / J. Bergstra et al. // Mach. Learn.. - 2006. - Vol.65. - P. 473-484.
32. Li, T. Factors in automatic musical genre classification of audio signals [Текст] / T. Li, G. Tzanetakis // Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop on. - 2003. - P. 143-146.
33. Modeling timbre distance with temporal statistics from polyphonic music [Текст] / F. Morchen et al. // IEEE Trans. Audio, Speech, Lang. Process. - 2006.
- Vol.14. - P. 81-90.
34. Computational auditory scene recognition [Текст] / V. Peltonen et al. // Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. - 2002. - P. 1941-1944.
35. Benetos, E. Musical instrument classification using non-negative matrix factorization algorithms and subset feature selection [Текст] / E. Benetos, M. Kotti, C. Kotropoulos // Proc. Int. Conf. Acoustics, Speech, Signal Processing.
- 2006. - Vol. 5. - P. 221-224.
36. Muhammad, G. Environment Recognition from Audio Using MPEG-7 Features [Текст] / G. Muhammad, K. Alghathbar // International Conference on Embedded and Multimedia Computing. - 2009. - P. 10-12.
37. Mitrovic, D. Discrimination and retrieval of animal sounds [Текст] / D. Mitrovic, M. Zeppelzauer, C. Breiteneder // Multi-Media Modelling Conference Proceedings, 2006 12th International. - 2006. - P. 339-343.
38. Toward semantic indexing and retrieval using hierarchical audio models [Текст] / W.T. Chu // Journal on Multimedia Systems. - 2005. - Vol. 10. - P. 570-583.
39. Liang, S. Audio Content Classification Method Research Based on Two-step Strategy [Текст] / S. Liang, X. Fan //International Journal of Advanced Computer Science and Applications - IJACSA. - 2014. - Vol. 5.
40. Liu, Z. Audio Feature Extraction and Analysis for Scene Segmentation and Classification [Текст] / Z. Liu, Y. Wang, T. Chen // Journal of VLSI signal processing systems for signal, image and video technology. - 1998. - Vol. 20. - P. 61-79.
41. SVM-based audio scene classification [Текст] / H. Jiang et al. // Natural Language Processing and Knowledge Engineering, (IEEE NLP-KE '05). Proceedings of 2005 IEEE International Conference on. - 2005. - P. 131-136.
42. Schroeder, M.R. Code-excited linear prediction (CELP): high-quality speech at very low bit rates [Текст] / M.R. Schroeder, B.S. Atal // in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). - 1985. - Vol. 10. - P. 937-940.
43. Tsau, E. Environmental sound recognition with CELP-based features [Текст] / E. Tsau, S.-H. Kim, C.-C.J. Kuo // Signals, Circuits and Systems (ISSCS), 2011 10th International Symposium on. IEEE. - 2011. - P. 1-4.
44. Biswas, S. Speaker Identification Using Cepstral Based Features and Discrete Hidden Markov Model [Текст] / S. Biswas, S. Ahmad, K.I. Molla // International Conference on Information and Communication Technology (ICICT '07). - 2007. - P. 303-306.
45. Kumar, K. Delta-spectral cepstral coefficients for robust speech recognition [Текст] / K. Kumar, Chanwoo Kim, R.M. Stern // Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. - 2011. - P. 4784-4787.
46. Environmental sound recognition by multilayered neural networks [Текст] / Y. Toyoda et al. // Proc. International Conference on Computer and Information Technology. - 2004. - P. 123-127.
47. Beritelli, F. A pattern recognition system for environmental sound classification based on MFCCs and neural networks [Текст] / F. Beritelli, R. Grasso // Proc. 2nd International Conference on Signal Processing and Communication Systems (ICSPCS). - 2008.
48. Automatic Classification of Environmental Noise Events by Hidden Markov Models [Текст] / C. Couvreur // Applied Acoustics. - 1998. - Vol. 54. - P. 187¬206.
49. Aucouturier, J.J. The Bag-of-frames Approach to Audio Pattern Recognition: A Sufficient Model for Urban Soundscapes But Not For Polyphonic Music [Текст] / J.J. Aucouturier, B. Defreville, F. Pachet // J. Acoust. Soc. Am. - 2007. - Vol. 2. - P. 881-891.
50. Environmental Sound Classification using Hybrid SVM/KNN Classifier and MPEG-7 Audio Low-Level Descriptor [Текст] / J.C. Wang et al. // Proc. International Joint Conference on Neural Networks (IJCNN). - 2006. - P. 1731¬1735.
51. Спирина, Л. А. Нейросетевой программный комплекс для автоматического
распознавания образов [Текст] / Л.А. Спирина // VIII студенческая
конференция по математическому моделированию и информационным технологиям СМИТ 2016. Сборник тезисов, Казань. - 2016. - С. 34 - 35.
52. Спирина, Л.А. Распознавание источников акустических сигналов с использованием искусственных нейронных сетей [Текст] / Л.А. Спирина // Итоговая научно-образовательная конференция студентов Казанского федерального университета 2016 года: Сборник тезисов. Казань.: Изд-во КФУ. - 2016. - С. 240- 241.
53. Спирина, Л.А. Распознавание источников акустических сигналов с использованием искусственных нейронных сетей [Текст] / Л.А. Спирина // Сборник научных статей Казанского федерального университета 2016 года: По результатам Конкурса на лучшую научную работу студентов. Казань.: Изд-во КФУ. - 2016. - С. 72- 76.
54. Спирина, Л.А. Распознавание источников акустических сигналов с использованием искусственных нейронных сетей [Текст] / Л.А. Спирина // Сборник тезисов участников форума «Наука будущего - наука молодых». М.: Изд-во Инконсалт К. - 2016. - С.272 - 274.
55.От нейрона к мозгу [Текст] / Дж. Николлс и др. - М.: Издательство Эдиториал УРСС, 2003. - 672 с.
56. Eggermont J. Rule-Extraction and Learning in the BP-SOM Architecture [Текст]. Masters dissertation. - Leiden University, Internal, August 1998.
57. Марпл.-мл., С. Л. Цифровой спектральный анализ и его приложения: Пер. с англ. [Текст] / С. Л. Марпл.-мл. - М.: Мир, 1990. - 584 c.
58. Сергиенко, А. Б. Цифровая обработка сигналов [Текст] / А.Б. Сергиенко. - СПб.: Питер, 2003. - 604 с.
59. Кей, С.М. Современные методы спектрального анализа: Обзор [Текст] / С.М. Кей, С. Л. Марпл-мл. // ТИИЭР. - 1981. - №11 - С. 5-51.
60. Sheldon, J. Oil sand screen modelling using partial least squares regression [Текст] / J. Sheldon, R. Kube, Hong Zhang // Automation and Logistics, ICAL IEEE International Conference. - 2008. - P.2936-2940.
61. On line EM wave sand monitoring sensor for oil industry [Текст] / A.I. Shamma'a, et al. //33rd European Microwave Conference. - 2003. - Vol. 2. - P.535-538.