ВВЕДЕНИЕ 3
1. Публицистический стиль. Корпусы публицистических текстов 8
1.1 Особенности публицистического стиля и его жанров 8
1.2 Жанры РИА Новости, публицистический стиль в журналистике на примере текстов издания РИА Новости 13
1.3 Корпус публицистических текстов. Репрезентативность корпуса звучащей речи для задач машинного обучения 17
2. Модель ASR для распознавания аудио публицистического стиля 21
2.1 Трансферное обучение: особенности и разновидности подхода 21
2.2 Модель ASR Whisper. Особенности архитектуры и процесс обучения 26
2.3 Метрики оценки 30
2.4 Разработка кода. Подготовка аудиофрагментов и сборка датасета 32
2.5 Дообучение модели на подготовленном датасете. Проверка модели 37
2.5.1 Файнтюнинг модели large с адаптацией всех параметров 37
2.5.2 Файнтюнинг модели small с адаптацией всех параметров 45
2.5.3 Дообучение модели large c применением LoRA 46
2.5.4 Дообучение модели small c применением LoRA 49
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 56
В настоящее время распознавание речи является одной из самых популярных и важных задач обработки естественного языка и находит применение в различных областях современных технологий. Популярные голосовые помощники, такие как Алиса (Яндекс), Siri (Apple), Маруся (ВКонтакте), Салют (Сбер) используются как в специальных станциях, так и в поисковике на смартфоне. Они способны различать человеческую речь на большинстве известных языков, отличать голос от посторонних шумов, а также распознавать специальные слова - команды. Технология распознавания голоса, которую используют поисковые системы, например, Google, Яндекс или навигационные системы смартфона, позволяет значительно сократить время поиска необходимой информации без использования клавиатуры для ввода текста. Роботы-голосовые помощники используются и в бизнесе, и в государственных учреждениях, например, при ответе на звонок в колл- центре. Такие интерактивные голосовые системы способны распознать речь звонящего, робот по ключевым словам может подобрать нужный ответ либо перевести на оператора.
Идея распознавания речи выглядела многообещающе с самого начала развития поисковых систем и цифровых помощников. Изначально суть распознавания сводилась к построению акустической модели, когда речь представлялась как статистическая модель, которая сравнивалась с готовыми шаблонами. Если модель соответствовала шаблону, то система принимала решение о том, что команда или число распознано.
Современные алгоритмы распознавания дополнились языковыми моделями, которые описывают структуру языка, например, типичную последовательность слов. Обучение системы происходит на реальном речевом материале. К тому же новым витком в развитии технологии распознавания речи стало применение нейронных сетей. Система устроена таким образом, что каждая новая распознанная запись влияет на точность распознавания в будущем, таким образом система становится самообучаемой.
Сегодняшняя цель технологий распознавания речи: перейти от распознавания речи к “пониманию” контекста, возможность адаптировать свою выдачу в зависимости от спикера, речевой ситуации. Это сложная задача, требующая высокой точности распознавания слов языковой моделью. Для оценки эффективности таких систем существует специальная метрика - процент ошибок при распознавании речи. Этот показатель помогает оценить, насколько хорошо система справляется со своей задачей и насколько точно она понимает сказанное. Сложности в обучении системы распознавания речи “пониманию” речевого контекста обусловлены наличием в речи эмоций, неожиданной сменой темы разговора, использованием сленга и индивидуальными особенностями говорящего: темпом речи, тембром, произношением звуков.
В профессиональной среде технология распознавания также помогает упростить работу в несколько раз. Главная задача журналиста - публиковать своевременный и актуальный материал в кратчайшие сроки. Также важна точность воспроизведения комментариев и полнота предоставляемой информации. Например, в процессе работы журналисту приходится брать интервью у многих людей. На ручную расшифровку аудио для подготовки интервью к печати уходит много времени. Программы для распознавания речи автоматически расшифруют и подготовят «черновой» вариант интервью. С учетом того, что точность распознавания голоса современными системами достигает 80-90%, правка и подготовка интервью для печати существенно сокращается и займет считанные часы, а не дни.
Кроме того, использование сервисов перевода речи в текст может способствовать улучшению журналистских навыков. Алгоритмы распознавания речи устроены таким образом, что они дословно расшифруют все сказанные слова и фразы, вплоть до дискурсивных слов (“слов-паразитов”). Так, впоследствии можно проанализировать полученный текст, увидеть, как часто используются в речи те или иные обороты, и в дальнейшем изменять стиль или структуру интервью, следить за собственными речевыми оборотами. Наконец, использование систем распознавания речи позволяет журналисту не отвлекаться на пометки в ходе интервью. Это помогает уделять больше внимания предмету разговора и собеседнику. Таким образом большее внимание интервьюера уделяется содержательности репортажа.
Технологии распознавания речи прошли большой путь от примитивных акустических моделей, работавших с готовыми шаблонами, к работе с реальным речевым материалом. Современный подход к распознаванию звучащей речи предполагает применение нейронных сетей. Система становится обучаемой, а фокус внимания исследователей смещается на понимание контекста.
Сегодня системы распознавания речи непрерывно развиваются - появляются новые модели, расширяются обучающие датасеты. Однако, данной проблеме уделяется не так много внимания ввиду больших трудозатрат. Процесс сбора материала и его разметка занимают огромное количество времени, поэтому системы хорошо работают с обобщенными данными, но менее приспособлены к узким тематикам. Решение такой задачи, как создание узконаправленной модели, ориентированной на конкретный домен, открывает перспективы применения новейших технологий практически в любой сфере деятельности.
Создание системы распознавания речи публицистических жанров позволит специалистам в сфере журналистики уделять большее внимание качественной стороне создаваемого контента, повысить содержательность статей, сэкономить время, затрачиваемое на подготовку пресс-релиза.
Таким образом, актуальность данной работы подтверждается, с одной стороны, активным развитием технологий в русле распознавания речи, с другой, востребованностью подобных решений непосредственно в сфере журналистики.
Превращая видео- и аудиозаписи в текст, система распознавания речи облегчает и процесс поиска информации в архиве материалов. Нет необходимости пересматривать или заново слушать большое количество записей, чтобы найти нужную фамилию, событие или дату. Автоматизация процесса распознавания речи не только экономит время, но и позволяет в этом случае обрабатывать весь комплекс информации, даже те части, которые не вошли в подготовленную публикацию.
Искусственный интеллект позволяет журналисту оптимизировать работу по подготовке текста. Всю механическую часть работы осуществляет система распознавания речи, человек же использует освободившееся время для литературного оформления и незначительной редакционной правки текста.
Степень проработанности проблемы:
Изучению публицистического стиля и его жанров, проявления публицистики в современных СМИ посвящены работы ряда отечественных ученых: Тертычный А,А., Солганик Г.Я., Костомаров В.Г., Иовва Н.И., Аветисян Л.Н.. В работах авторов приведены примеры определений публицистического стиля, выделены его основные характеристики и специфика проявления в СМИ. Жанровому разнообразию современной публицистики посвящены работы Долгиной Е.С., Максимова В.И., Никоновой Е.А., Стоговой Е.С., Щитовой Д.А.. В этих работах подробнее рассматриваются публицистические жанры, чаще всего используемые в СМИ, раскрываются их задачи, функциональные отличия, характерные черты. Жанровой специфике агентства РИА Новости посвящены работы Стоговой Е.С и Алексеенко Д.И.. Путем сравнения жанрового разнообразия в различных изданиях, они выделяют наиболее актуальные и популярные жанры у РИА Новости.
Изучением теории дообучения и практическим дообучением моделей распознавания речи занимались следующие авторы: Christian Huber, Juan Hussain, Tuan-Nam Nguyen, Kaihang Song, Sebastian Stuker, Alexander Waibel. Так, в своей статье “Supervised Adaptation of Sequence-to-Sequence Speech Recognition Systems using Batch-Weighting” они описывают эксперимент по уменьшению показателя WER (Word Error Rate) при обучении модели seq2seq на разных типах данных. Также изучению основных метрик систем распознавания речи посвящены работы отечественных авторов: Карпова А.А, Кипяткова И.С.. Они уделяли особое внимание показателям точности распознавания (WER) и скорости распознавания речи (SF - Speed Factor или RT - Real Time).
Практическая часть нашей работы основана на дообучении модели распознавания речи Whisper. Основополагающей статьей, посвященной этой модели, является статья Alec Radford “Robust Speech Recognition via Large-Scale Weak Supervision”, написанная серией авторов: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever. В статье отражена информация о наборе и объеме данных, методе машинного обучения, на которых обучена модель, основных метриках и преимуществах модели.
Для написания кода и формирования датасета были использованы материалы платформы Hugging Face, а также библиотеки для работы с аудио - pydub, ffmpeg, библиотеки для оценивания качества работы ASR систем - evaluate, jiwer и библиотеки машинного обучения, такие как PyTorch, transformers.
Объектом исследования выступают системы распознавания устной речи.
Предмет исследования - создание системы распознавания речи публицистических жанров на основе модели Whisper.
Материалом исследования послужили 1077 записей, репрезентирующих около 852 часов интервью и пресс-конференций новостного агентства. Источник исследования - материалы агентства РИА Томск.
Цель данного исследования - дообучение модели по распознаванию речи с использованием языка программирования Python и нейронной сети Whisper.
Для достижения поставленной цели в данной работе решаются следующие задачи:
1. изучить работы по теме дообучения моделей на доменном материале;
2. ознакомиться с результативностью модели Whisper и ее обучающим набором данных;
3. выбрать алгоритм дообучения модели распознавания речи;
4. подготовить корпус обучающих данных и произвести ручную разметку;
5. дообучить модель распознавания;
6. провести оценку эффективности работы модели при помощи метрик.
Новизна - разработка собственной модели распознавания речи, дообученной на собственном домене (оригинальных текстах интервью новостного агентства), показывающей улучшенные показатели качества распознавания текстов публицистических жанров.
Методы обусловлены целью, задачами и материалом исследования. В рамках исследования используется метод трансферного обучения, заключающийся в дообучении уже готовой модели, обученной на большом объеме данных, на целевом домене, не обязательно большого размера. Основной идеей трансферного обучения является тренировка готовой модели для улучшения распознавания доменных коллокаций. Метод ручной разметки транскрибированного аудиофайла использовался для подготовки обучающих данных к дальнейшему использованию.
Структура работы. Работа состоит из введения, двух глав, заключения, списка использованной литературы.
В рамках данной дипломной работы для достижения поставленной цели — разработки системы распознавания речи публицистических жанров — был успешно решен ряд поставленных задач. На первом этапе исследования была изучена теоретическая база по теме распознавания речи. Проведен анализ уже существующих систем, рассмотрены их преимущества и недостатки. Также был размечен и предобработан корпус звучащей речи для дальнейшего дообучения. Изучен ряд алгоритмов дообучения модели, осуществлено дообучение на материале собранных аудиофайлов, произведена оценка метриками.
В работе был использован метод трансфертного обучения и доменной адаптации, который позволяет с небольшим количеством данных целевого домена — в нашем случае специфические географические названия и имена, относящиеся к информационному полю региона (Томской области) — значительно улучшить качество распознавания.
Предварительная оценка (измерение показателя WER) оригинальной модели Whisper на тестовой выборке показала следующие результаты: у версии large-v2 ~ 15.02%, у версии small ~ 29,5%. В ходе исследования была осуществлена попытка обучения модели с помощью стандартного файнтюнинга с разморозкой слоев нейросети и использованием полного количества весов и параметров обучения. Файнтюнинг версии large-v2 не удался, модель сразу начала переобучаться, а показатель WER начал расти и к концу обучения достиг ~ 56%, что намного выше, чем у предобученной модели. К тому же для обучения версии large требуется большое количество оперативной памяти. Был проведен файнтюнинг версии small, результат показал значение WER ~ 28,5%, метрика обученной модели была улучшена на 1%.
Таким образом, с помощью традиционного файнтюнинга в условиях ограниченности ресурсов не удалось достичь значимых результатов в обучении модели. Помимо неудовлетворительных показателей WER, этот способ обучения требует большого количества вычислительных ресурсов. По причине их ограниченности, трудоемкости и малой эффективности файнтюнинга было решено провести эксперимент по дообучению модели Whisper с использованием менее требовательного к вычислительным ресурсам и более быстрого способа обучения — с использованием LoRA.
Было произведено несколько экспериментов по дообучению модели с изменением гиперпараметров в поисках наиболее оптимальных значений и наименьшего показателя WER. Для версии large-v2 показатели learning rate = 1e-4 и epoch = 1 показали лучший результат метрики ~14,68%, что значительно лучше, чем при файнтюнинге и к тому же показатель улучшился, хотя и незначительно, в сравнении со значениями предобученной
модели (Таблица 2).
Таблица 2 - Эксперименты по поиску наиболее оптимальных гиперпараметров для обучения Whisper-large-v2 с помощью LoRA
lr = 1e-3 epoch = 3 lr = 1e-4 epoch = 2 lr = 1e-4 epoch = 2
WER large-v2 17% 14,94% 14.68%
Обучение версии small с помощью LoRA дало лучший, в рамках проекта, показатель WER (~25,8%) с гиперпараметрами learning rate = 1e-4 и epoch = 2, что на 4% ниже значений предобученной модели, проверенной на тестовой выборке (Таблица 3).
Таблица 3 - Эксперименты по поиску наиболее оптимальных гиперпараметров для обучения Whisper-small с помощью LoRA
lr = 1e-5 epoch = 3 lr = 1e-5 epoch = 7 lr = 1e-3 epoch = 2 lr = 1e-3 epoch = 3 lr = 1e-4 epoch = 3 lr = 1e-4 epoch = 2
WER small 27,5% 27,3% 26,3% 26,1% 25,95% 25,8%
Проведенные эксперименты по дообучению модели Whisper с использованием файнтюнинга и LoRA показали, что в условиях ограниченных ресурсов LoRA значительно превосходит традиционный файнтюнинг по эффективности и ресурсоемкости. Файнтюнинг модели large-v2 привел к переобучению и значительному ухудшению качества, а обученная версия small продемонстрировала лишь незначительное улучшение показателей. Обучение с использованием LoRA позволило добиться значительного снижения WER как для модели large-v2, так и для модели small, при этом этот способ требует меньше вычислительных ресурсов.
Таблица 4 - Показатели WER до и после обучения
WER предобученной модели WER после файнтюнинга WER после обучения с использованием LoRA
Whisper-large-v2 15% 56% 14,68%
Whisper-small 29,5% 28,5% 25,8%
Ограниченное количество ресурсов для обучения негативно сказывается на качестве модели, поскольку не позволяет провести глубокую оптимизацию параметров. Это особенно заметно при файнтюнинге, где даже небольшие изменения могут привести к переобучению. Технология LoRA, в свою очередь, благодаря своей оптимизации параметров, менее чувствительна к условиям ограниченности ресурсов и обеспечивает более стабильное обучение, способное улучшить результаты даже с небольшим количеством данных.
Таким образом, в рамках дипломного проекта были сделаны выводы о том, что создание системы распознавания речи требует привлечения огромного количества вычислительных ресурсов, а подготовка корпуса и анализ расшифровок занимают большое количество времени. В данных условиях оптимальным следует считать выбор модели и состава обучающего датасета на основе имеющихся мощностей, а также поставленной задачи.
Итогом работы стало создание версии модели Whisper, дообученной на региональном датасете публицистического домена. Наш опыт показывает, что в рассматриваемом домене каждый прирост обучающей выборки на 10 часов позволяет уменьшить показатель WER приблизительно на 2%.
Результаты дообучения модели показывают, что чрезвычайно важно уделять внимание подбору гиперпараметров модели, поскольку это значительно влияет на итоговые показания. В нашем случае, большое значения имело выбранное количество эпох обучения, поскольку в случае увеличения их количества значительно падало качество модели.
К перспективам данного исследования можно отнести дальнейшее расширение обучающего датасета, проведение валидации с использованием более специфичных метрик, а также дальнейший подбор оптимальных гиперпараметров для дообучения.
1. Аветисян Л. Н. Изучение публицистического стиля как функциональной разновидности литературного языка в вузе / Л. Н. Аветисян, М. Р. Согомонян // Евразийское Научное Объединение. - 2021. - № 3-5(73). - С. 387-392.
2. Баранов А. Н. Проблема репрезентативности корпуса данных (на примере политической метафорики) // Международный семинар «Диалог - 2001». - М.: Наука, 2001. - С. 68-89.
3. Богоявленская Ю. В. Репрезентативность лингвистического корпуса: метод верификации достоверности полученных данных // Политическая лингвистика. - 2016. - № 4. - С. 163-166.
4. Виды и жанры публицистики // Myfilology.ru: [информационный
филологический ресурс]. - [Б. м.], 2016. - URL: https://myfilology.ru//145/osobennosti- funktsionalnykh-stilei-russkogo-iazyka/vidy-i-zhanry-publitsistiki/ (дата обращения:
06.03.2023).
5. Долгина Е. С. Интервью: понятие, цель, задачи, функции / Е. С. Долгина, М. А. Веснина // Молодой ученый. - [Б. м.], 2015. - № 7(87). - С. 1109-1111. - URL: https://moluch.ru/archive/87/16897/(дата обращения: 23.03.2023).
6. Захаров В. П. Корпусная лингвистика / В. П. Захаров, С. Ю. Богданова. - Иркутск: ИГЛУ, 2011. - 161 с.
7. Иовва Н. И. Публицистика как важнейшая составляющая СМИ // Гуманизация информационного пространства в контексте диалога культур: материалы Междунар. науч.-практ. конф., посвященной 80-летию со дня рождения первого декана факультета журналистики Казанского университета Флорида Агзамова, Казань, 11 февр. 2016 г. / под ред. В. З. Гарифуллина; сост. Р. Л. Зайни. - Казань: Изд-во Казан. ун-та, 2016.
- С. 150-153.
8. Карпов А. А. Методология оценивания работы систем автоматического распознавания речи / А. А. Карпов, И. С. Кипяткова // Известия высших учебных заведений. Приборостроение. - 2012. - № 11. - С. 38-43.
9. Костомаров В. Г. Русский язык на газетной полосе / В. Г. Костомаров. - М.: «Издательство МГУ», 1971. - 268 с.
10. Максимов В. И. Точность и выразительность / В. И. Максимов. - Л.: Просвещение, 1968. - 184 с.
11. Никонова Е. А. Жанр «Аналитическая статья» (на примере текстов англоязычной качественной прессы) // Филологические науки. Вопросы теории и практики.
- [Б. м.], 2019. - № 2. - URL: https://cyberleninka.ru/article/n/zhanr-analiticheskaya-statya-na- primere-tekstov-angloyazychnoy-kachestvennoy-pressy(дата обращения: 23.03.2023).
12. Региональное информационное агентство РИА Томск // riatomsk.ru. - URL: https://www.riatomsk.ru/(дата обращения: 19.05.2024).
13. Резанова З.И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестник Томского государственного университета. Филология. - 2015. - № 1(33). - С. 38¬50.
14. Рыков В. В. Корпус текстов как реализация объектно-ориентированной парадигмы // Труды Междунар. семинара «Диалог 2002». - М.: Наука, 2002. - С. 124-129.
15. Солганик Г. Я. Публицистический стиль, или газетнопублицистический стиль, или стиль массовой коммуникации // Эффективное речевое общение (базовые компетенции). - Красноярск: Сибирский федеральный университет, 2014. - С. 499-501.
16. Стилистика и литературное редактирование: учебное пособие / сост.: О. А. Казакова, С. В. Малервейн, Л. М. Райская, Т. Б. Фрик. - Томск: Изд-во Томского политехнического университета, 2009. - 116 с.
17. Стогова Е. С. Жанровое разнообразие текстов современных
информационных агентств // Филологические науки. Вопросы теории и практики. - [Б. м.], 2022. - №3. - URL: https://cyberleninka.ru/article/n/zhanrovoe-raznoobrazie-tekstov-
sovremennyh-informatsionnyh-agentstv (дата обращения: 20.06.2023).
18. Тертычный А. А. Публицистика в современных российских СМИ: рефлексия и практика // Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика. - 2018. - Т. 23, № 1. - С. 95-102.
19. Щитова Д. А. Интервью как способ создания имиджа // Вестник Томского государственного университета. Филология. - 2012. - № 4(20). - С. 146-153.
20. Batch weight for domain adaptation with mass shift / M. Binkowski, R. D. Hjelm, A. Courville. - 2019. - 10 p. // Arxiv. - URL: https://arxiv.org/abs/1905.12760(дата обращения: 21.04.2024).
21. Ffmpeg-python // GitHub. - URL: https://github.com/kkroening/ffmpeg-python/ (дата обращения: 19.03.2023).
22. Hugging Face Tutorials - URL: https://huggingface.co/docs/datasets/tutorial(дата обращения: 19.03.2023).
23. Language Models are Few-Shot Learners / T. Brown, B. Mann, N. Ryder [et al.]
- 2020. - 75 p. // Arxiv. - URL: https://arxiv.org/abs/2005.14165(дата обращения: 21.04.2024).
24. LoRA: Low-Rank Adaptation of Large Language Models / E. Hu, Y. Shen, P. Wallis [et al.] - 2021. - 26 p. // Arxiv. - URL: https://arxiv.org/pdf/2106.09685(дата обращения: 04.05.2024).
25. Pandas Tutorial // Pandas.pydata.org. - URL:
https://pandas.pydata.org/docs/user_guide/index.html(дата обращения: 19.03.2023).
26. Pathlib documentation // Docs.python.org. - URL:
https://docs.python.org/3/library/pathlib.html(дата обращения: 19.03.2023).
27. Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment / L. Xu, H. Xie, S.-Zh. Qin [et al.] - 2023. - 20 p. // Arxiv. - URL: https://arxiv.org/abs/2312.12148(дата обращения: 30.04.2024).
28. Pydub for python // GitHub. - URL: https://github.com/jiaaro/pydub(дата обращения: 19.03.2023).
29. Robust Speech Recognition via Large-Scale Weak Supervision / A. Radford, J. W. Kim, T. Xu [et al.]. - 2022. - 28 p. // Arxiv. - URL: https://arxiv.org/abs/2212.04356 (дата обращения: 09.05.2023).
30. Sanchit Gandhi Fine-Tune Whisper For Multilingual ASR with Hugging Face
Transformers // Hugging Face: [блог-пост]. - [Б. м.], 2022. - URL:
https://huggingface.co/blog/fine-tune-whisper(дата обращения: 15.03.2023).
31. Skillfactory. За кулисами Google Colab // Habr.com. - URL: https://habr.com/ru/companies/skillfactory/articles/673572/(дата обращения: 19.03.2023).
32. Supervised Adaptation of Sequence-to-Sequence Speech Recognition Systems using Batch-Weighting / C. Huber, J. Hussain, T.-N. Nguyen [et al.] - 2020. - 9 p. // Association for Computational Linguistics. - URL: https://aclanthology.org/2020.lifelongnlp-L2(дата обращения: 21.04.2024).
33. Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning / V. Lialin, V. Deshpande, A.Rumshisky - 2023. - 21 p. // Arxiv. - URL: https://arxiv.org/abs/2303.15647(дата обращения: 30.04.2024).
34. Scaling laws for neural machine translation / B. Ghorbani, O. Firat, M. Freitag [et al.] - 2021. - 31 p. // Arxiv. - URL: https://arxiv.org/abs/2109.07740(дата обращения: 10.05.2024).
35. Sourab Mangrulkar Finetuning Whisper-large-V2 on Colab using PEFT-Lora +
BNB INT8 training // GitHub. - 2024. - URL:
https://colab.research.google.com/drive/1DOkD_5OUjFa0r5Ik3SgywJLJtEo2qLxO?usp=sharing(дата обращения: 19.04.2024).