Введение 3
Глава 1. Теоретические и информационные основы поиска похожих отпечатков звука 5
1.1 Обзор современных программ поиска похожих отпечатков звука 5
1.2 Основные методы получения отпечатков звука 7
1.3 Чтение звукового файла 10
1.4 Спектрограммы 11
Глава 2. Описание математических моделей, методов и средств, используемых для создания СППР «Выбор похожих отпечатков звука» 16
2.1. Методы и библиотеки Python, используемые для создания СППР 16
2.2 Обзор звукового модуля pyaudio 18
2.3 Описание метода поиска похожих отпечатков звука, используемого для
создания СППР 20
2.4 Создание интерфейса СППР 22
2.5 Реализация метода поиска похожих отпечатков звука, используемого для
создания СППР 26
2.6 Модули Service и Settings 31
2.7 Тестирование работы созданной СППР 32
Результаты тестирования 33
Заключение 39
Список литературы 40
Приложение
Актуальность выбранной темы обуславливается тем, что на сегодняшнее время одним из самых востребованных направлений является отслеживание соблюдения прав собственника аудио.
Программы, способные сравнивать звуковые фрагменты, полезны рекламодателям, которые могут отслеживать реальные выходы своих рекламных роликов, ловить случаи обрезки или прерывания; радиостанции могут мониторить выход сетевой рекламы в регионах, и т.п. Та же задача распознавания возникает, если мы хотим отследить проигрывание музыкального произведения, или по небольшому фрагменту узнать песню (как делают Shazam и другие подобные сервисы).
В настоящей работе создана СППР «Выбор похожих отпечатков». Это система идентификации аудио с одной из многочисленных реализаций в виде распознавания звука с присутствием помех. СППР написана на языке программирования Python.
Был использован частотный метод поиска похожих отпечатков цифровых аудио данных [15].
Цель работы. Целью ВКР является создание СППР «Выбор похожих отпечатков», распознающую звуковой фрагмент в аудио-файлах, хранящихся в некоторой базе.
Задачи ВКР:
• Изучение возможностей модулей Python для анализа звуковых сигналов.
• Изучение алгоритмов определения отпечатков звука.
• Программирование интерфейса СППР «Выбор похожих отпечатков звуков».
• Программирование алгоритма определения отпечатков звука.
• Тестирование работы СППР «Выбор похожих отпечатков звуков».
Среда разработки. PyCharm.
Язык программирования. Python.
В первой главе рассмотрены теоретические основы поиска похожих отпечатков звука. Изучены основные принципы получения отпечатков звука и принципы чтения звукового файла. Сформулированы цель и задачи ВКР.
Во второй главе содержится описание математических моделей, методов и средств, используемых для создания СППР «Выбор похожих отпечатков звука». Более того, представлена непосредственная реализация метода поиска похожих отпечатков звука в Python.
В работе создана СППР «Выбор похожих отпечатков», с помощью которой можно найти схожие аудио фрагменты и их расположение. Интерфейс программы доступен и понятен. К тому же, реализована справка.
СППР написана на python с помощью библиотеки wxWidgets, поэтому программа занимает небольшое дисковое пространство, взаимодействует со стандартным интерфейсом операционной системы.
Произведено тестирование работы созданной СППР, исключены ошибки обработки запросов клиента.
Изучены алгоритмы сравнения звуковых дорожек. В выбран алгоритм сравнения на основе разностей “каждый с каждым” значений отпечатков звуковых дорожек .
Реализована работа с кандидатами на схожесть, клиент может загрузить огромное количество звуковых дорожек.
Реализация на python позволила создать удобный модуль обработки звуковых дорожек, перевода их в аудио отпечатки и сравнения с другими отпечатками.
Алгоритм сравнения отпечатков протестирован, по результатам его работы подобран оптимальный коэффициент схожести отпечатков.
1. L. Lu, M. Wang, and H.J. Zhang. Repeating pattern discovery and struc-ture analysis from acoustic music data. In Proceedings of the ACM SIGMM International Workshop on Multimedia Information Retrieval, pages 275282, New York, NY, 2004. ACM Press, https://dl.acm.org/citation.cfm?id=957121.
2. C. Lvy, G. Linars, and P. Nocera. Comparison of several acoustic model-ing
techniques and decoding algorithms for embedded speech recognition systems. In Proceedings of the Workshop on DSP in Mobile and Vehicular Systems, Nagoya, Japan, Apr.
2003.,https://books.google.ru/books?isbn=0123810205.
3. S. Mallat. A wavelet tour of signal processing. Academic Press, San Diego, California, 1999, links.uwaterloo.ca/amath391w13docs/Mallat3.pdf.
4. H. Malvar. A modulated complex lapped transform and its applications to audio processing. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 3, pages 1421-1424, Phoenix, AZ, Mar. 1999. IEEE, IEEE, https://www.microsoft.com/en- us/research/wp-content/uploads/2016/02/tr-99-27.pdf.
5. M.F. McKinney and J. Breebaart. Features for audio and music classification. In Proceedings of the International Conference on Music Information Retrieval, Oct. 2003, ismir2003.ismir.net/presentations/McKinney.pdf.
6. A.Meng, P. Ahrendt, and J. Larsen. Improving music genre classification by short time feature integration. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 5, pages 497-500, Philadelphia, Pennsylvania, Mar. 2005. IEEE, IEEE, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.222.8867&rep=re p1&type=pdf.
7. A.Mesaros, E. Lupu, and C. Rusu. Singing voice features by time-frequency
representations. In Proceedings of the International Symposium on Image and Signal Processing and Analysis, volume 1, pages 471-475, Rome, Italy, Sep. 2003. IEEE, IEEE,
https://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=28837&filter%3DAN D%28p_IS_Number%3A28837%29%26pageNumber%3D4&pageNumber= 5.
8. I.Mierswa and K. Morik. Automatic feature extraction for classifying audio data. Machine Learning Journal, 58(2-3):127-149, Feb. 2005, https://link. springer.com/article/10.1007/s 10994-005-5824-7.
9. MIREX. Music information retrieval evaluation exchange, http://www.musicir.org/ mirexwiki, 2007. last visited: September, 2009.
10. H. Misra, S. Ikbal, H. Bourlard, and H. Hermansky. Spectral entropy based feature for robust asr. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages 193-196, Montreal, Canada, May 2004. IEEE, IEEE, https: //info science.epfl .ch/record/83132/files/rr03-56. pdf.
11. H. Misra, S. Ikbal, S. Sivadas, and H. Bourlard. Multi-resolution spectral entropy feature for robust asr. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages 253-256, Philadelphia, Pennsylvania, Mar. 2005. IEEE, IEEE, https://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=30650&filter%3DAN
12. D. Mitrovic, M. Zeppelzauer, and C. Breiteneder. Discrimination and retrieval of animal sounds. In Proceedings of IEEE Multimedia Modelling Conference, pages 339-343, Beijing, China, Jan. 2006. IEEE, IEEE., https://www.semanticscholar.org/paper/Audio-recognition-in-the-wild%3A- Static-and-dynamic-a-Weninger- Schuller/00a7754702620b14804f611 adc0512d9442732d3.
13. Марк Лутц. Программирование на Python / Пер. с англ. — 4-е изд. — СПб.: Символ-Плюс, 2011. — Т. II. — ISBN 978-5-93286-211-7, ftp: //ftp .micronet-ro stov .ru/linux- support/books/programming/Python/[O%60Reilly]%20- %20Программирование%20на%20Python,%204-е%20изд.%20- %20[Лутц]%20(2011 yПрограммирование%20на%20Python,%204- е%20издание,%20П%20том^£
14. Марк Саммерфилд. Программирование на Python 3. Подробное
руководство. — Перевод с английского. — СПб.: Символ-Плюс, 2009. — 608 с — ISBN 978-5-93286-161-5,
https://docs.google.com/document/d/1Wc6JphfzhNGB4Ls4iSrdsKlCdcGY2 bLwrK6sDOJGlz8/edit.
15. Звуковые отпечатки: распознавание рекламы на радио, https://habr.com/post/252937/.