СОДЕРЖАНИЕ 2
ВВЕДЕНИЕ 3
ГЛАВА 1. Проблемы снятия омонимии 6
1.1. Омонимия и омография в русском языке 6
1.2. Омонимия и омография в английском языке 14
1.3. Источники омонимии 17
1.4. Акцентологические нормы современного русского языка 19
1.5. Исследования по снятию омонимии в русском языке 25
1.6. Исследования по снятию омонимии в английском языке 34
ГЛАВА 2. Алгоритм автоматической расстановки ударений в рядах графических омонимов 39
2.3. Программа для формирования словарей 46
2.4 Программа для расстановки ударений в омографах 48
2.5 Программа для автоматического тестирования алгоритма 51
Заключение 54
Список использованной литературы 55
Приложение 1. Код программы 59
Приложение 2. Пример сохраненного слова из «Викисловаря» 67
Приложение 3. Примеры созданных словарей 68
Приложение 4. Примеры текстов из Корпуса русского литературного языка 69
В современном мире все большее внимание уделяется одной из наиболее важных и сложных задач компьютерной лингвистики, а именно — снятию графической омонимии. Данная проблема актуальна для таких направлений, как корпусная лингвистика, морфологический и семантический анализ, автоматический перевод текстов, распознавание речи и её синтез. В настоящее время синтез речи — это одно из наиболее активно развивающихся направлений компьютерной лингвистики. Синтезаторы речи становятся частью повседневной жизни, ведь они задействованы в таких актуальных отраслях и направлениях, как звуковые оповещения, информационные службы и т.д. В связи с этим усовершенствование данной технологии становится крайне необходимым.
В лингвистике принято различать грамматические (полные) омонимы и лексико-грамматические (неполные) омонимы. Помимо лексико-грамматических омонимов также выделяют еще четыре типа неполных омонимов:
1) омоформы — слова, совпадающие лишь в отдельных словоформах, например, «техника» ‘совокупность средств труда’ — «техника», род. падеж ед. числа от слова техник ‘специалист со средним техническим образованием’ (морфологические омонимы);
2) омофоны — слова, совпадающие в произношении, но различающиеся орфографически: «плот» ‘скреплённые в несколько рядов брёвна для сплава’ — «плод» ‘часть растения’ (фонетические омонимы);
3) омографы — слова, совпадающие в написании, но различающиеся в произношении: «виски́», мн. число от «висок» ‘часть черепа от уха до лба’ — «ви́ски» ‘крепкий алкогольный напиток’ (графические омонимы);
4) синтаксические омонимы — слова, различающиеся синтаксической ролью, но омонимичные по морфологической форме: редакции, мн. число от «редакция» ‘группа работников, редактирующих издание’ — редакции, дат. падеж, ед. число от «редакция» [Колесникова, 2016].
Автоматизация обработки омографов является одной из наиболее важных и сложных задач для автоматического синтеза речи, особенно для русского языка, поскольку количество омонимов в нем очень велико. Тем не менее, к настоящему времени были разработаны несколько методов разрешения неоднозначности в омографах. Один из первых методов заключался в использовании словарей, содержащих устойчивые выражения с омографами, и качество работы такого метода полностью зависело от размера словаря [Рыбин, 2014].
Еще один способ снятия омографии был разработан научными сотрудниками Санкт-Петербургского национального исследовательского университета информационных технологий. В основе метода лежит анализ контекста предложения [Хомицевич, 2013]. Последний метод довольно успешно разрешает омографическую неопределенность, анализ данных в нем (как и в остальных методах) проводится только в пределах одного предложения. Однако в некоторых случаях, когда в предложении отсутствовали ключевые слова или выражения, алгоритм не справлялся с задачей [Чемерилов, Фадеев, 2018].
Целью выпускной квалификационной работы является разработка алгоритма автоматического расставления ударений, опираясь на контекст.
Для достижения цели исследования были поставлены следующие задачи:
— рассмотреть акцентологические нормы русского языка;
— изучить омонимию и омографию в русском языке;
— проанализировать предыдущие исследования на эту тему;
— создать алгоритм, способный распознавать и снимать омографию;
— протестировать алгоритм на текстах из Корпуса русского литературного языка.
Объектом выпускной квалификационной работы является омография и основные правил словесного ударения в русском языке.
Предметом выпускной квалификационной работы являются контекстные употребления омографов в русском языке.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованной литературы, приложения.
Во введении сформулированы цели, задачи, актуальность, изученность темы, содержание работы.
В первой главе раскрываются теоретические вопросы, которые касаются изучения омографов и ударений в русском языке.
Во второй главе приводятся описание разработанного алгоритма и результаты экспериментов по оценке его работы.
В заключении представлены основные выводы по выпускной квалификационной работе.
Список использованной литературы состоит из 45 библиографических описаний источников.
В приложении представлены примеры образованных словарей, примеры моделей в базе данных, примеры из текстов Корпуса русского литературного языка, использовавшейся при определении точности программы и снимки функций программы.
Таким образом, в результате проведенной работы задачи, поставленные в начале выпускной квалификационной работы, были успешно выполнены:
• были рассмотрены акцентологические нормы русского языка;
• была изучена омонимия и омография в русском языке;
• были проанализированы предыдущие исследования на тему снятия омографии;
• был разработан алгоритм позволяющего частично справиться с одной из самых важных и сложных задач в компьютерной лингвистике — снятием омонимии в рядах графических омонимов.
По результатам тестирования алгоритма средняя точность составила 76,4% при работе с базой данных с омографамии 89,8%при работе с базами данных со словоформами, средние отклонения составили 2,52% и 2,08% соответственно.
Дальнейшие исследования могут быть направлены на расширение программы, а именно на совмещение снятия омографии по правилам с контекстным снятием омографии.Кроме того, по причине синхронного выполнения кода модульобработки «Викисловаря» выполняется очень большое количество времени: за 8 часов было обработано всего 7 тысяч слов (от А до И), однако если перевести модуль в асинхронный режим, то можно добиться гораздо большей производительности.
1. Абаев В.И. О подаче омонимов в словаре // Вопросы языкознания. 1957. № 3
2. Арнольд И.В. Лексикология современного английского языка. Учебное пособие / И.В. Арнольд. - Москва : Флинта, 2017. - 376 с.
3. Ахманова О. С. Словарь омонимов русского языка: свыше 2000 словарных статей — 3-е изд., стереотип. — М.: Рус.яз., 1986. — 448 с.
4. Бондарко Л.В. Основы общей фонетики. - СПб.: СПбГУ, 2004. -152 с.
5. Булаховский Л.А. Из жизни омонимов / Л.А. Булаховский // Русская речь. – Вып. 3. – М., 1928. – С. 47-60.
6. В.В. Виноградов. Об омонимии и смежных явлениях / – Москва // Введение в языковедение – Москва : Аспект Пресс, 2001. – С. 244-248.
7. Вапник В. Н., Червоненкис А.Я. Теория распознавания образов. Москва: Наука, 1974. — 416 с.
8. Венцов А.В., Грудева Е.В. О корпусе русского литературного языка (narusco.ru) // RussianLinguistics.– 2009.– Vol. 33, № 2.– С. 195–209.
9. Ветров Д. П. – Скрытые марковские модели / http://www.machinelearning.ru/wiki/images/3/34/GM13_em_hmm_unsupervised.pdf
10. Гасанова Г. А – К вопросу о классификации омонимов в английском языке / Мир науки, культуры, образования № 5 (90) - 2021. 364-366с.
11. Голев Н.Д. Омофонический и омографический фонды современного русского языка. Часть 1. Общие вопросы. Лексические омофоны и омографы // Известия Алтайского государственного университета. — Сер. История. Педагогика. Филология. Философия. — Вып. 4. — 1999. — С. 94-100.
12. Головня А. И. — Омонимия как системная категория языка: монография. –. Мн.: БГУ, 2007. – 132 с.
13. Головня, А.И. Словарь лексико-грамматических омонимов / А.И. Головня. — Минск: БГУ, 2007. — 83 с.
14. Гребенева Ю.Н. Словарь омографов русского языка / Ю.Н Гребенева. — Ливны: Издатель Мухаметов Г.В., 2012. — 278 с.
15. Гребенева Ю.Н. Словарь омонимов, омоформ и омографов русского языка / Ю.Н Гребенева. — М.: Мир и Образование, 2016. — 656 с.
...
45 источников