ВВЕДЕНИЕ………………………………………………………….….…………4
ТЕОРЕТИЧЕСКАЯ ГЛАВА……………………………………………………...6
1. Общее устройство систем синтеза речи по тексту и значение числительных и сокращений в ходе текстовой предобработки….………6
1.1 Устройство систем синтеза и принципы работы……………………...6
1.2 Модуль лингвистической обработки текста и связанные с ним задачи в современных системах синтеза речи………………………………...7
1.2.1 Проблемы нормализации текста ………………………………..8
1.2.2 Роль числительных и сокращений в процессе нормализации текста
1.2.2.1 Расшифровка числовых записей………………………...10
1.2.2.2 Расшифровка аббревиатур и графических сокращений.11
2. Обзор существующих методов решения проблемы расшифровки нестандартных записей…
2.1 Системы на правилах………………………………………………….13
2.2 Подходы, основанные на статистических моделях и машинном обучении
2.3 Методы, основанные на комбинации правил и статистических моделей
2.4 Методы на основе глубокого обучения и нейронных сетей………..17
2.5 Выбор метода для русского языка……………………………………18
3. Имена числительные и сокращения в русском языке………………...…20
3.1 Имя числительное как часть речи…………………….………………20
3.1.1 Свойства числительных и маркеры определения грамматической формы
3.2 Понятие сокращений в русском языке…………………………….…24
3.2.1 Нормативный статус графических сокращений в современном русском языке
3.2.2 Способы определения полной грамматической формы сокращений
ПРАКТИЧЕСКАЯ ГЛАВА
1. Описание разработанной системы нормализации………………………27
2. Материалы исследования………………………………………………...29
3. Модуль вербализации для чисел и сокращений…………………………32
3.1 Вербализация чисел
3.1.1 Выведение лексемы из числа…………………………………...32
3.1.2 Порождение грамматической формы числительных…………33
3.2 Определение верной расшифровки неоднозначных сокращений с помощью контекстных векторов…………………………………………36
4. Модуль предсказания грамматической формы …………………………39
4.1 Описание модели условных случайных полей………………………40
4.1.1 Формальное определение CRF…………………………………40
4.2 Применение модели для предсказания формы числительных……..42
4.3 Модель CRFдля определения грамматической формы сокращений44
5. Результаты ………………………………………………………………...46
5.1 Оценка работы классификатора для предсказания формы числительного
5.2Оценка работы классификатора для предсказания формы сокращения
ЗАКЛЮЧЕНИЕ
Список литературы
Настоящая работа посвящена одному из компонентов прикладных систем синтеза речи по тексту – лингвистическому модулю. Данный модуль делит входной текст на предложения, затем на слова, ставит им соответствующие лексико-грамматические метки и делает фонетическую транскрипцию с целью дальнейшего корректного прочтения и озвучивания системой. Для построения правильной транскрипции в ходе текстовой предобработки необходимо произвести нормализацию любых возможных нестандартных записей, и, в частности, работа затрагивает преобразование цифровых последовательностей и сокращений в стандартный орфографический вид. Поскольку во флективных языках числительные и сокращения могут принимать широкий спектр различных форм, цель данной работы – разработать прикладную систему, которая решит проблему выбора верной грамматической формы для русского языка, что поспособствует общей разборчивости выходной синтезированной речи.
Актуальность работы в том, что синтез речи применяется во многих сферах, в т. ч. для озвучивания чат-ботов, голосовых помощников, информации в аэропортах и вокзалах, автомобильных навигаторов, специальных приложений для людей с ограниченными возможностями и т. д. Для синтеза очень важно, чтобы текст звучал разборчиво и максимально приближенно к той форме, в какой его произносит человек. Выходной результат синтеза зависит в том числе от того, насколько «по-человечески» система озвучит те записи, которые люди предпочитают сокращать. в формат, который нужно сначала расшифровать, прежде чем произнести в устной форме.
Нормализация входного текста является сложной задачей, т.к. существует множество сокращений, цифровых последовательностей и других нестандартных с точки зрения построения транскрипции записей, которые потенциально могут иметь различные значения и грамматические формы в зависимости от контекста. В современных системах на базе русского языка данная проблема остается не до конца решенной.
Работа состоит из введения, основной части, структурированной по двум главам – теоретической и практической, заключения и списка литературы.
Теоретическая глава включает введение в проблему нормализации нестандартных записей в контексте систем синтеза речи по тексту; анализ роли числительных и сокращений в ходе текстовой предобработки; обзор работ, посвященных решению данной проблемы различными методами, а также обоснование выбора метода для русского языка; исследование русских числительных и сокращений в качестве функционирующих языковых единиц и анализ возможных маркеров определения грамматической формы.
Практическая глава включает описание материала исследования, описание предложенного метода решения задачи; описание итоговой системы нормализации числительных и сокращений, ее преимущества и недостатки; описание полученных результатов тестирования системы и анализ ошибок.
В ходе настоящего исследования были проанализированы подходы к нормализации текста на разных языках, а затем на основе анализа выбран оптимальный подход для русского языка. Также было рассмотрено место нормализации числительных и сокращений в системах синтеза речи и исследованы числительные и сокращения как функционирующие языковые единицы.
В рамках практической главы была предложена система нормализации текста, основанная на комбинации формальных правил и статистической модели условных случайных полей. Эта система была протестирована и оценена отдельно для числительных и сокращений.
По результатам оценки предложенной системы были получены следующие выводы:
1) задача разрешения лексической неоднозначности расшифровок сокращений - пример высокоуровневой проблемы семантической классификации, нуждающейся в наборе признаков, который невозможно легко вывести из поверхностных форм. Для ее решения полезна лингвистическая предобработка на синтаксическом уровне, а также получение информации из поддерживаемых вручную семантических лексиконов.
2) нейросетевые подходы достигли высокого уровня точности, однако они имеют тенденцию к совершению критических ошибок, в частности, неверно определяют основу числительного ("3-х" как "пять тысяч" вместо "трёх"). Несмотря на крайне малый процент данных ошибок, они носят спонтанный характер, поэтому невозможно предугадать, когда система «исказит» фактические данные, которые должны быть точны.
3) глубокое обучение требует значительного количества вычислительных ресурсов, обучающих данных и временных затрат. В этой связи комбинация формальных правил и статистического классификатора CRF предлагает более надежное решение, которое не настолько трудо- и ресурсоемко. Предложенный метод показывает приемлемую точность предсказания грамматической формы (86%), более устойчив к критическим ошибкам при определении основы и более прост в условиях эксплуатации в реальной системе синтеза речи по тексту.
Таким образом, результаты исследования подтверждают, что предложенная система нормализации текста на основе комбинации формальных правил и статистической модели CRF является эффективным и надежным решением для русского языка.
Полученные результаты и выводы могут служить основой для дальнейших исследований в области нормализации текста и развития более продвинутых систем нормализации нестандартных записей в системах синтеза речи для флективных языков.
1. Аничкин И. М., Чистиков П. Г. Формализация правил автоматического снятия омонимии в системе синтеза речи по тексту // Труды XXXVIII международной филологической конференции.–2008.–C. , 2008. С. 29–45.
2. Антонова А. Ю., Соловьев А. Н. Использование метода условных случайных полей для обработки текстов на русском языке // Диалог. 2013. С. 27–44.
3. Брызгунова Е. А. и др. Русская грамматика: научные труды/Российская академия наук. Институт русского языка им. ВВ Виноградова/. Репринтное издание // 2005.
4. ГОСТ Р. 7.0. 12—2011 Библиографическая запись. Сокращение слов и словосочетаний на русском языке. Общие требования и правила // М.: Гостстандарт. 2011. Т. 201. № 1. С. 42.
5. Зализняк А. «Русское именное словоизменение» с приложением избранных работ по современному русскому языку и общему языкознанию. :Litres, 2022.
6. Зализняк А. А. Грамматический словарь русского языка. : Русские словари, 2003.
7. Иванова В. Современный русский язык: графика и орфография:[учебное пособие]. : Просвещение, 1976.
8. Лобанов Б. М. Методы семантического анализа для построения голосовых интерфейсов: синтез речи // 2011.
9. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи // Минск: Белорусская наука. 2008. Т. 316.
10. Лукашевич Н. В. Тезаурусы в задачах информационного поиска // 2010.
11. Романенко А. А. Применение условных случайных полей в задачах обработки текстов на естественном языке // Выпускная квалификационная работа магистра, М. 2014.
12. Рыбин С. В. Синтез речи: учебное пособие // СПб.: Университет ИТМО. 2014.
13. Санников В. З. О русских графических сокращениях // О современной русской орфографии/Отв. ред. ВВ Виноградов. М. 1964.
14. Хомицевич О. Г., Рыбин С. В., Аничкин И. М. Использование лингвистического анализа для нормализации текста и снятия омонимии в системе синтеза русской речи // Известия высших учебных заведений. Приборостроение. 2013. Т. 56. № 2. С. 42–46.
15. Allen J. идр. From text to speech: The MITalk system. : Cambridge University Press, 1987.
16. Arık S. Ö. идр. Deep voice: Real-time neural text-to-speech // International conference on machine learning. : PMLR, 2017. С. 195–204.
17. Beliga S., Martincic-Ipsic S. Non-standard words as features for text categorization // 2014 37th International Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO). : IEEE, 2014. С. 1165–1169.
18. Black A. W., Taylor P., Caley R. The Festival Speech Synthesis System: System Documentation Festival version 1.4 // University of Edinburgh. 1999. Т. 1.
19. Breuillard J. Terence Wade, A Comprehensive Russian Grammar, 1992 // La Revue russe. 1992. Т. 3. № 1. С. 109–115.
20. Chan W. идр. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition // 2016 IEEE international conference on acoustics, speech and signal processing (ICASSP). : IEEE, 2016. С. 4960–4964.
21. Chu M., Qian Y. Locating boundaries for prosodic constituents in unrestricted Mandarin texts // International Journal of Computational Linguistics & Chinese Language Processing, Volume 6, Number 1, February 2001: Special Issue on Natural Language Processing Researches in MSRA. , 2001. С. 61–82.
22. Corstius H. B. Grammars for number names. : Springer Science & Business Media, 2012.
23. Devlin J. идр. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // 2019.
24. Dutoit T. An introduction to text-to-speech synthesis. : Springer Science & Business Media, 1997.
25. Epstein S. James R. Hurford, The linguistic theory of numerals.(Cambridge Studies in Linguistics, 16.) Cambridge: Cambridge University Press, 1975, Pp. xii+ 293. J. Linguistics 14 (1978) 123–127 Printed in Great Britain // Journal of Linguistics. 1978. Т. 14. № 1. С. 123–124.
26. Feng F. идр. Language-agnostic BERT Sentence Embedding // 2022.
27. Gorman K., Sproat R. Minimally supervised number normalization // Transactions of the Association for Computational Linguistics. 2016. Т. 4. С. 507–519.
28. Joulin A. идр. Bag of Tricks for Efficient Text Classification // 2016.
29. Jurafsky D., Martin J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition.
30. Lemmetty S. Review of speech synthesis technology // 1999.
31. Loukachevitch N. V. идр. Creating Russian wordnet by conversion // Computational Linguistics and Intellectual Technologies: papers from the Annual conference “Dialogue. , 2016. С. 405–415.
32. Lukanin A. Normalization of non-standard words with finite state transducers for russian speech synthesis // Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9–11, 2015, Revised Selected Papers 4. : Springer, 2015. С. 39–48.
33. Mansfield C. идр. Neural text normalization with subword units // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers). , 2019. С. 190–196.
34. Mikolov T. идр. Efficient Estimation of Word Representations in Vector Space // 2013a.
35. Mikolov T. идр. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems. : Curran Associates, Inc., 2013b.
36. Mikolov T., Yih W., Zweig G. Linguistic Regularities in Continuous Space Word Representations // Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Atlanta, Georgia: Association for Computational Linguistics, 2013. С. 746–751.
37. Miller G. A. WordNet: a lexical database for English // Communications of the ACM. 1995. Т. 38. № 11. С. 39–41.
38. Muzychka S. A., Romanenko A. A., Piontkovskaja I. I. Conditional Random Field for morphological disambiguation in Russian // Компьютернаялингвистикаиинтеллектуальныетехнологии. , 2014. С. 455–465.
39. Ng A. H., Gorman K., Sproat R. Minimally supervised written-to-spoken text normalization // 2017 IEEE automatic speech recognition and understanding workshop (ASRU). : IEEE, 2017. С. 665–670.
40. Pennington J., Socher R., Manning C. Glove: Global Vectors for Word Representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics, 2014. С. 1532–1543.
41. ShahgirH. A. Z. и др. Towards Robust Bangla Complex Named Entity Recognition // arXiv preprint arXiv:2303.09306. 2023.
42. Shen Q. идр. The role of context in neural morphological disambiguation // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. , 2016. С. 181–191.
43. Sproat R. идр. Normalization of non-standard words // Computer speech & language. 2001. Т. 15. № 3. С. 287–333.
44. Sproat R. Lightly supervised learning of text normalization: Russian number names // 2010 IEEE Spoken Language Technology Workshop. : IEEE, 2010. С. 436–441.
45. Sproat R., Jaitly N. RNN approaches to text normalization: A challenge // arXiv preprint arXiv:1611.00068. 2016.
46. Sproat R. W. Multilingual text-to-speech synthesis: the Bell Labs approach. : Springer, 1998.
47. Stanton D., Wang Y., Skerry-Ryan R. J. Predicting expressive speaking style from text in end-to-end speech synthesis // 2018 IEEE Spoken Language Technology Workshop (SLT). : IEEE, 2018. С. 595–602.
48. Sutton C., McCallum A. An introduction to conditional random fields for relational learning. Introduction to statistical relational learning // Graphical Models,(x). 2006.
49. Taha A. A., Hanbury A. Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool // BMC Med Imaging. 2015. Т. 15. С. 29.
50. Tan X. идр. A survey on neural speech synthesis // arXiv preprint arXiv:2106.15561. 2021.
51. Taylor P. Text-to-speech synthesis. : Cambridge university press, 2009.
52. Yao K., Zweig G. Sequence-to-sequence neural net models for grapheme-to-phoneme conversion // arXiv preprint arXiv:1506.00196. 2015.
53. Yolchuyeva S., Németh G., Gyires-Tóth B. Text normalization with convolutional neural networks // International Journal of Speech Technology. 2018. Т. 21. С. 589–600.
54. Żelasko P. Expanding Abbreviations in a Strongly Inflected Language: Are Morphosyntactic Tags Sufficient? // arXiv preprint arXiv:1708.05992. 2017.
55. Zelinka J., Romportl J., Müller L. Statistical-based abbreviation expansion // Text, Speech and Dialogue: 14th International Conference, TSD 2011, Pilsen, Czech Republic, September 1-5, 2011. Proceedings 14. : Springer, 2011. С. 307–314.
56. Zhang H. идр. Neural models of text normalization for speech applications // Computational Linguistics. 2019. Т. 45. № 2. С. 293–337.
57. Zhang J. идр. A hybrid text normalization system using multi-head self-attention for mandarin // ICASSP 2020-2020 IEEE international conference on acoustics, speech and signal processing (ICASSP). : IEEE, 2020. С. 6694–6698.
58. Открытый корпус русских текстов [Электронный ресурс]. URL: http://www.opencorpora.org/ (дата обращения: 30.04.2023).
59. Национальный корпус русского языка. 2003-2023. [Электронный ресурс]. URL: https://ruscorpora.ru/ (дата обращения: 20.05.2023).
60. RUSOKR. самый большой в мире словарь сокращений русского языка [Электронный ресурс]. URL: http://www. sokr. ru/card/233514s38737f58 (дата обращения: 01.04.2023).