Введение 3
ГЛАВА I. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ И АНАЛИЗ АНГЛИЙСКИХ ЗАИМСТВОВАНИЙ В РУССКОЙ РЕЧИ 5
1.1. Основы автоматического распознавания речи 5
1.1.1. Концепт и основные компоненты автоматического распознавания речи 5
1.1.2. Эволюция автоматического распознавания речи 9
1.1.3. Проблемы распознавания многоязычной речи 16
1. 2. Жаргон и английские заимствований в русской речи сферы IT 17
1.2.1. Специфика жаргона IT 17
1.2.2. Адаптация английских заимствований и их типы 18
1.3. Выводы к главе I 19
ГЛАВА II. СОСТАВЛЕНИЕ КОРПУСА АНГЛИЙСКИХ ЗАИМСТВОВАНИЙ И РАЗРАБОТКА МЕТОДИК УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ АНГЛИЙСКИХ ЗАИМСТВОВАНИЙ 21
2.1. Методология проведения исследования 21
2.2. Корпус английских заимствований 23
2.2.1. Методология сбора и инструменты обработки данных корпуса 23
2.2.3. Структурирование и аннотация корпуса 28
2.2.4. Анализ корпуса данных 29
2.3. Анализ эффективности системы Yandex SpeechKit в распознавании англицизмов на различных уровнях их освоенности 31
2.4. Дообучение модели Whisper Open AI на корпусе английских заимствований "English Borrowings in Russian IT Speech" 37
2.4.1. Автоматическое распознание английских заимствований без дообучения модели Whisper Open AI 37
2.4.2. Описание кода дообучения модели Whisper Open AI 38
2.4.3. Процесс дообучения 41
2.4.4. Оценка и анализ результатов дообучения 42
2.5. Выводы к главе II 43
Заключение 44
Список литературы 47
Приложения 54
Актуальность автоматического распознавания речи (AutomaticSpeechRecognition – ASR) продолжает расти с развитием технологий и увеличением потребности в эффективной обработке больших объемов информации. Особое внимание следует уделить распознаванию русской речи с английскими заимствованиями, так как это актуально для международных и многоязычных сфер деятельности, таких как информационные технологии (Information Technologies – IT). Применение жаргона и английских терминов в русскоязычном общении в этой сфере является обыденным, что создает дополнительные трудности для систем ASR.
Целью данного исследования является разработка методик автоматического распознавания русской речи с английскими заимствованиями, с особым акцентом на IT-жаргон. Это особенно актуально в свете последних разработок компании Zoom, которая представила новый инструмент для автоматического резюмирования встреч и совещаний. Данный инструмент позволяет пользователям получать автоматические сводки встреч, что упрощает обработку информации и повышает производительность команды. Технология автоматического распознавания речи лежит в основе функционала автоматического создания итогов по совещаниям. Она обрабатывает аудио- и видеозаписи совещаний, преобразуя устные высказывания в текст. После этого, с применением алгоритмов искусственного интеллекта, происходит анализ текста, в ходе которого система выявляет главные моменты и важные действия, озвученные участниками. Однако, было отмечено, что качество распознавания русской речи с английскими заимствованиями может быть недостаточным, что подчеркивает важность дальнейших исследований в этом направлении для улучшения качества распознавания англицизмов и обеспечения более эффективного автоматического распознавания речи.
Задачи данного исследования:
1. Анализ существующих научных статей для определения основ автоматического распознавания речи и проведение оценки существующих подходов к распознаванию речи и обработки английских заимствований в таких системах;
2. Создание корпуса английских заимствований: сбор и систематизация примеров англицизмов, используемых в русской речи в контексте IT-сферы;
3. Дообучение модели Open AI Whisper: разработка и реализация процесса дообучения модели Open AI Whisper с использованием корпуса англицизмов для повышения точности распознавания;
4. Тестирование и оценка эффективности: Проведение серии экспериментов для оценки улучшений в точности и надежности ASR после интеграции корпуса и дообучения модели;
Исследование, основанное на анализе IT-жаргона и английских заимствований в русской речи, изучает их влияние на эффективность систем автоматического распознавания речи (ASR). Ожидается, что выводы этого исследования не только улучшат работу систем распознавания русской речи, но и расширят знания о вызовах автоматического распознавания многоязычной и профессиональной речи в более широком контексте.
В первой главе исследования были основательно изучены теоретические аспекты автоматического распознавания речи и процесс адаптации английских заимствований в русском языке. Исследование началось с обзора эволюции технологий распознавания речи, от первых механических устройств до современных систем, основанных на принципах глубокого обучения. Особое внимание было уделено сложностям, связанным с многоязычным распознаванием, включая проблемы, возникающие при переключении между языками и особенностями их структур, что имеет ключевое значение при работе с русским и английским языками. Далее тщательно рассматривалось, как англицизмы вливаются в структуру русской речи, и предлагались методы, которые могут оптимизировать их распознавание. Также детально анализировались технические аспекты систем ASR, что позволило глубже понять необходимость их дообучения и адаптации к многоязычным данным.
Во второй главе исследования фокус был сделан на создании и анализе аудиокорпуса "English Borrowingsin Russian IT Speech".Процесс включал в себя сбор и систематизацию данных, а также глубокое дообучение модели Open AI Whisper с применением разнообразных программных инструментов, улучшающих её способность к распознаванию и интерпретации заимствований. Статистический и контекстуальный анализы помогли нам лучше осмыслить употребление заимствований в различных контекстах, что послужило основой для дальнейшего усовершенствования процесса распознавания.
Итоги обеих глав подтверждают важность интегрированного подхода к обучению и адаптации систем автоматического распознавания речи. Данные результаты исследования являются критически важными для развития эффективных многоязычных систем ASR, которые могут адекватно функционировать в условиях языкового разнообразия и динамично меняющихся языковых интеракций современного мира. Исследование создаёт основу для последующих разработок в этой области, способствуя улучшению интерфейсов взаимодействия человека и машины в мировом информационном пространстве.
На основе полученных данных можно предложить рекомендации для дальнейших исследований и практического применения. Важно провести углубленное изучение случаев, когда говорящий артикулирует английские заимствования с нормативным и ненормативным произношением, что поможет улучшить адаптивность и точность систем автоматического распознавания речи.
Также необходимо разработать и тестировать новые алгоритмы и методики дообучения, особенно для обработки код-свитчинга и заимствованных фраз. Рекомендуется стратегическое сотрудничество с лингвистами и IT-специалистами для разработки более точных и универсальных ASR систем, а также проведение масштабных испытаний для оценки производительности и устойчивости систем в реальных условиях.
Перспективы применения результатов особенно значимы в корпоративной и IT-среде. Они могут значительно улучшить коммуникацию в рабочих коллективах, а также быть использованы для разработки многоязычных платформ, которые повышают эффективность взаимодействия и удобство работы в международных компаниях.
Таким образом, результаты исследования могут стать основой для дальнейших улучшений в области машинного обучения и лингвистики, способствуя созданию более естественных и интеллектуальных систем человеко-машинного взаимодействия.
1. Валуйцева И.И., Филатов И.Е. ПОДХОДЫ К ЯЗЫКОВОМУ И АКУСТИЧЕСКОМУ МОДЕЛИРОВАНИЮ В РАСПОЗНАВАНИИ РЕЧИ. Вопросы прикладной лингвистики. 2019. № 4 (36). С. 7-31. URL: https://www.elibrary.ru/item.asp?id=42799712 (дата обращения: 14.05.2023).
2. Дьяков, А.И., Золотарева, Е.А. Адаптационная модель англицизмов: сборник трудов конференции // Научные исследования: от теории к практике : материалы IX Междунар. науч.-практ. конф. (Чебоксары, 10 июля 2016 г.) / редкол.: О.Н. Широков [и др.] – Чебоксары: Центр научного сотрудничества «Интерактив плюс», 2016. – С. 245-255. – ISSN 2413-3957. – DOI 10.21661/r-112194.
3. Лингвистический энциклопедический словарь / гл. ред. В.Н. Ярцева. – 2-е изд., доп. – М. : Большая рос. энцикл., 2002. – 709 с. URL: https://tapemark.narod.ru/les/ (дата обращения: 10.05.2024).
4. Николова Д., (2015). Коммуникация в сфере информационных технологий и жаргон как одно из ее средств // Служение слову. № 3. URL: https://www.shu.bg/wp-content/uploads/file-manager-advanced/users/faculties/fhn/izdaniya/sluzhenie-slovu/Sluzhenie-2015.pdf#page=111 (дата обращения: 14.05.2023).
5. A Brief History of ASR: Automatic Speech Recognition. URL: [https://medium.com/descript/a-brief-history-of-asr-automatic-speech-recognition-b8f338d4c0e5] (дата обращения: 23.09.2023).
6. Arora, A., Chang, C.-C., Rekabdar, B., Povey, D., Etter, D., Raj, D., Hadian, H., Trmal, J., García-Perera, L.P., Watanabe, S., Manohar, V., Shao, Y., &Khudanpur, S. Using ASR Methods for OCR // ResearchGate. 2019. URL: https://www.researchgate.net/publication/339027380_Using_ASR_Methods_for_OCR (дата обращения: 30.11.23).
7. arXiv: Recent Advances in Automatic Speech Recognition. URL: [https://arxiv.org/abs/2108.00084] (дата обращения: 12.10.2023).
8. Baktash, J., &Dawodi, M. (2023). GPT-4: A Review on Advancements and Opportunities in Natural Language Processing. ArXiv. URL: https://arxiv.org/abs/2305.03195 (дата обращения: 03 .04.24).
9. Bellegarda, J. (2000). Exploiting latent semantic information in statistical language modeling. Proceedings of the IEEE, 88, 1279-1296. URL: [https://doi.org/10.1109/5.880084] (датаобращения: 15.10.2023).
10. Bhatt, S., Jain, A., & Dev, A. (2020). Acoustic Modeling in Speech Recognition: A Systematic Review. International Journal of Advanced Computer Science and Applications, 11. (датаобращения: 30.09.2023).
11. Cai, J., & Liu, Y. (2018). Research on English pronunciation training based on intelligent speech recognition. International Journal of Speech Technology, 21, 633-640. URL: https://doi.org/10.1007/s10772-018-9523-8 (датаобращения: 17.10.2023).
12. Conneau, A., Baevski, A., Collobert, R., Mohamed, A., &Auli, M. (2020). Unsupervised Cross-lingual Representation Learning for Speech Recognition. arXiv preprint arXiv:2006.13979. URL: https://arxiv.org/abs/2006.13979 (дата обращения: 14.10.2023).
13. Crowson, M., Lee, J., Hamour, A., Mahmood, R., Babier, A., Lin, V., Tucci, D., & Chan, T. (2020). AutoAudio: Deep Learning for Automatic Audiogram Interpretation. Journal of Medical Systems, 44, 1-7. URL: https://doi.org/10.1007/s10916-020-01627-1 (дата обращения: 28.09.2023).
14. Deepgram: The History of Speech Recognition Technology. URL: [https://deepgram.com/learn/the-history-of-automatic-speech-recognition] (дата обращения: 28.09.2023).
15. Dighe, P., Luyet, G., Asaei, A., &Bourlard, H. (2016). Exploiting low-dimensional structures to enhance DNN based acoustic modeling in speech recognition. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 5690-5694. URL: [https://doi.org/10.1109/ICASSP.2016.7472767] (дата обращения: 25.09.2023).
...
45 источников