Тема: Восстановление полных форм числительных и сокращений для задач синтеза русского текста
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ТЕОРЕТИЧЕСКАЯ ГЛАВА……………………………………………………...6
1. Общее устройство систем синтеза речи по тексту и значение числительных и сокращений в ходе текстовой предобработки….………6
1.1 Устройство систем синтеза и принципы работы……………………...6
1.2 Модуль лингвистической обработки текста и связанные с ним задачи в современных системах синтеза речи………………………………...7
1.2.1 Проблемы нормализации текста ………………………………..8
1.2.2 Роль числительных и сокращений в процессе нормализации текста
1.2.2.1 Расшифровка числовых записей………………………...10
1.2.2.2 Расшифровка аббревиатур и графических сокращений.11
2. Обзор существующих методов решения проблемы расшифровки нестандартных записей…
2.1 Системы на правилах………………………………………………….13
2.2 Подходы, основанные на статистических моделях и машинном обучении
2.3 Методы, основанные на комбинации правил и статистических моделей
2.4 Методы на основе глубокого обучения и нейронных сетей………..17
2.5 Выбор метода для русского языка……………………………………18
3. Имена числительные и сокращения в русском языке………………...…20
3.1 Имя числительное как часть речи…………………….………………20
3.1.1 Свойства числительных и маркеры определения грамматической формы
3.2 Понятие сокращений в русском языке…………………………….…24
3.2.1 Нормативный статус графических сокращений в современном русском языке
3.2.2 Способы определения полной грамматической формы сокращений
ПРАКТИЧЕСКАЯ ГЛАВА
1. Описание разработанной системы нормализации………………………27
2. Материалы исследования………………………………………………...29
3. Модуль вербализации для чисел и сокращений…………………………32
3.1 Вербализация чисел
3.1.1 Выведение лексемы из числа…………………………………...32
3.1.2 Порождение грамматической формы числительных…………33
3.2 Определение верной расшифровки неоднозначных сокращений с помощью контекстных векторов…………………………………………36
4. Модуль предсказания грамматической формы …………………………39
4.1 Описание модели условных случайных полей………………………40
4.1.1 Формальное определение CRF…………………………………40
4.2 Применение модели для предсказания формы числительных……..42
4.3 Модель CRFдля определения грамматической формы сокращений44
5. Результаты ………………………………………………………………...46
5.1 Оценка работы классификатора для предсказания формы числительного
5.2Оценка работы классификатора для предсказания формы сокращения
ЗАКЛЮЧЕНИЕ
Список литературы
📖 Введение
Актуальность работы в том, что синтез речи применяется во многих сферах, в т. ч. для озвучивания чат-ботов, голосовых помощников, информации в аэропортах и вокзалах, автомобильных навигаторов, специальных приложений для людей с ограниченными возможностями и т. д. Для синтеза очень важно, чтобы текст звучал разборчиво и максимально приближенно к той форме, в какой его произносит человек. Выходной результат синтеза зависит в том числе от того, насколько «по-человечески» система озвучит те записи, которые люди предпочитают сокращать. в формат, который нужно сначала расшифровать, прежде чем произнести в устной форме.
Нормализация входного текста является сложной задачей, т.к. существует множество сокращений, цифровых последовательностей и других нестандартных с точки зрения построения транскрипции записей, которые потенциально могут иметь различные значения и грамматические формы в зависимости от контекста. В современных системах на базе русского языка данная проблема остается не до конца решенной.
Работа состоит из введения, основной части, структурированной по двум главам – теоретической и практической, заключения и списка литературы.
Теоретическая глава включает введение в проблему нормализации нестандартных записей в контексте систем синтеза речи по тексту; анализ роли числительных и сокращений в ходе текстовой предобработки; обзор работ, посвященных решению данной проблемы различными методами, а также обоснование выбора метода для русского языка; исследование русских числительных и сокращений в качестве функционирующих языковых единиц и анализ возможных маркеров определения грамматической формы.
Практическая глава включает описание материала исследования, описание предложенного метода решения задачи; описание итоговой системы нормализации числительных и сокращений, ее преимущества и недостатки; описание полученных результатов тестирования системы и анализ ошибок.
✅ Заключение
В рамках практической главы была предложена система нормализации текста, основанная на комбинации формальных правил и статистической модели условных случайных полей. Эта система была протестирована и оценена отдельно для числительных и сокращений.
По результатам оценки предложенной системы были получены следующие выводы:
1) задача разрешения лексической неоднозначности расшифровок сокращений - пример высокоуровневой проблемы семантической классификации, нуждающейся в наборе признаков, который невозможно легко вывести из поверхностных форм. Для ее решения полезна лингвистическая предобработка на синтаксическом уровне, а также получение информации из поддерживаемых вручную семантических лексиконов.
2) нейросетевые подходы достигли высокого уровня точности, однако они имеют тенденцию к совершению критических ошибок, в частности, неверно определяют основу числительного ("3-х" как "пять тысяч" вместо "трёх"). Несмотря на крайне малый процент данных ошибок, они носят спонтанный характер, поэтому невозможно предугадать, когда система «исказит» фактические данные, которые должны быть точны.
3) глубокое обучение требует значительного количества вычислительных ресурсов, обучающих данных и временных затрат. В этой связи комбинация формальных правил и статистического классификатора CRF предлагает более надежное решение, которое не настолько трудо- и ресурсоемко. Предложенный метод показывает приемлемую точность предсказания грамматической формы (86%), более устойчив к критическим ошибкам при определении основы и более прост в условиях эксплуатации в реальной системе синтеза речи по тексту.
Таким образом, результаты исследования подтверждают, что предложенная система нормализации текста на основе комбинации формальных правил и статистической модели CRF является эффективным и надежным решением для русского языка.
Полученные результаты и выводы могут служить основой для дальнейших исследований в области нормализации текста и развития более продвинутых систем нормализации нестандартных записей в системах синтеза речи для флективных языков.



