Тема: Автоматическое распознавание английских заимствований в русской речи (на примере сферы IT)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА I. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ И АНАЛИЗ АНГЛИЙСКИХ ЗАИМСТВОВАНИЙ В РУССКОЙ РЕЧИ 5
1.1. Основы автоматического распознавания речи 5
1.1.1. Концепт и основные компоненты автоматического распознавания речи 5
1.1.2. Эволюция автоматического распознавания речи 9
1.1.3. Проблемы распознавания многоязычной речи 16
1. 2. Жаргон и английские заимствований в русской речи сферы IT 17
1.2.1. Специфика жаргона IT 17
1.2.2. Адаптация английских заимствований и их типы 18
1.3. Выводы к главе I 19
ГЛАВА II. СОСТАВЛЕНИЕ КОРПУСА АНГЛИЙСКИХ ЗАИМСТВОВАНИЙ И РАЗРАБОТКА МЕТОДИК УЛУЧШЕНИЯ РАСПОЗНАВАНИЯ АНГЛИЙСКИХ ЗАИМСТВОВАНИЙ 21
2.1. Методология проведения исследования 21
2.2. Корпус английских заимствований 23
2.2.1. Методология сбора и инструменты обработки данных корпуса 23
2.2.3. Структурирование и аннотация корпуса 28
2.2.4. Анализ корпуса данных 29
2.3. Анализ эффективности системы Yandex SpeechKit в распознавании англицизмов на различных уровнях их освоенности 31
2.4. Дообучение модели Whisper Open AI на корпусе английских заимствований "English Borrowings in Russian IT Speech" 37
2.4.1. Автоматическое распознание английских заимствований без дообучения модели Whisper Open AI 37
2.4.2. Описание кода дообучения модели Whisper Open AI 38
2.4.3. Процесс дообучения 41
2.4.4. Оценка и анализ результатов дообучения 42
2.5. Выводы к главе II 43
Заключение 44
Список литературы 47
Приложения 54
📖 Введение
Целью данного исследования является разработка методик автоматического распознавания русской речи с английскими заимствованиями, с особым акцентом на IT-жаргон. Это особенно актуально в свете последних разработок компании Zoom, которая представила новый инструмент для автоматического резюмирования встреч и совещаний. Данный инструмент позволяет пользователям получать автоматические сводки встреч, что упрощает обработку информации и повышает производительность команды. Технология автоматического распознавания речи лежит в основе функционала автоматического создания итогов по совещаниям. Она обрабатывает аудио- и видеозаписи совещаний, преобразуя устные высказывания в текст. После этого, с применением алгоритмов искусственного интеллекта, происходит анализ текста, в ходе которого система выявляет главные моменты и важные действия, озвученные участниками. Однако, было отмечено, что качество распознавания русской речи с английскими заимствованиями может быть недостаточным, что подчеркивает важность дальнейших исследований в этом направлении для улучшения качества распознавания англицизмов и обеспечения более эффективного автоматического распознавания речи.
Задачи данного исследования:
1. Анализ существующих научных статей для определения основ автоматического распознавания речи и проведение оценки существующих подходов к распознаванию речи и обработки английских заимствований в таких системах;
2. Создание корпуса английских заимствований: сбор и систематизация примеров англицизмов, используемых в русской речи в контексте IT-сферы;
3. Дообучение модели Open AI Whisper: разработка и реализация процесса дообучения модели Open AI Whisper с использованием корпуса англицизмов для повышения точности распознавания;
4. Тестирование и оценка эффективности: Проведение серии экспериментов для оценки улучшений в точности и надежности ASR после интеграции корпуса и дообучения модели;
Исследование, основанное на анализе IT-жаргона и английских заимствований в русской речи, изучает их влияние на эффективность систем автоматического распознавания речи (ASR). Ожидается, что выводы этого исследования не только улучшат работу систем распознавания русской речи, но и расширят знания о вызовах автоматического распознавания многоязычной и профессиональной речи в более широком контексте.
✅ Заключение
Во второй главе исследования фокус был сделан на создании и анализе аудиокорпуса "English Borrowingsin Russian IT Speech".Процесс включал в себя сбор и систематизацию данных, а также глубокое дообучение модели Open AI Whisper с применением разнообразных программных инструментов, улучшающих её способность к распознаванию и интерпретации заимствований. Статистический и контекстуальный анализы помогли нам лучше осмыслить употребление заимствований в различных контекстах, что послужило основой для дальнейшего усовершенствования процесса распознавания.
Итоги обеих глав подтверждают важность интегрированного подхода к обучению и адаптации систем автоматического распознавания речи. Данные результаты исследования являются критически важными для развития эффективных многоязычных систем ASR, которые могут адекватно функционировать в условиях языкового разнообразия и динамично меняющихся языковых интеракций современного мира. Исследование создаёт основу для последующих разработок в этой области, способствуя улучшению интерфейсов взаимодействия человека и машины в мировом информационном пространстве.
На основе полученных данных можно предложить рекомендации для дальнейших исследований и практического применения. Важно провести углубленное изучение случаев, когда говорящий артикулирует английские заимствования с нормативным и ненормативным произношением, что поможет улучшить адаптивность и точность систем автоматического распознавания речи.
Также необходимо разработать и тестировать новые алгоритмы и методики дообучения, особенно для обработки код-свитчинга и заимствованных фраз. Рекомендуется стратегическое сотрудничество с лингвистами и IT-специалистами для разработки более точных и универсальных ASR систем, а также проведение масштабных испытаний для оценки производительности и устойчивости систем в реальных условиях.
Перспективы применения результатов особенно значимы в корпоративной и IT-среде. Они могут значительно улучшить коммуникацию в рабочих коллективах, а также быть использованы для разработки многоязычных платформ, которые повышают эффективность взаимодействия и удобство работы в международных компаниях.
Таким образом, результаты исследования могут стать основой для дальнейших улучшений в области машинного обучения и лингвистики, способствуя созданию более естественных и интеллектуальных систем человеко-машинного взаимодействия.





