Введение 4
Актуальность темы 4
Цель работы 5
Научная новизна и практический вклад 5
Практическая значимость 6
Глава 1. Разрешение лексической многозначности 7
Лексическая многозначность 7
Задача WSD 7
Пример многозначного слова 8
Задачи, в которых требуется разрешение лексической многозначности 11
Традиционные подходы к решению задачи WSD 11
Заключение по первой главе 12
Глава 2. Лексическая связность и лексические цепочки 14
Лексическая связность 14
Лексические цепочки 16
Метод построения лексических цепочек 17
Заключение по второй главе 21
Глава 3. Применение метода построения лексических цепочек к решению задачи WSD на основе Русского Викисловаря 23
Выбор словаря 23
Русский Викисловарь 24
Алгоритм построения лексических цепочек на основе Русского
Викисловаря 27
Заключение по третьей главе 33
Глава 4. Разработка системы “Nerpa”, реализующей алгоритм
построения лексических цепочек 35
Назначение системы 35
Архитектура системы 35
Описание взаимодействия классов системы 37
Класс Splitter 38
Класс Meaning 38
Класс Word 39
Класс Chains 39
Интеграции между классами 39
Пользовательский интерфейс системы 40
Тестирование системы 41
Блочное тестирование 42
Интеграционное тестирование 42
Аттестационное тестирование 42
Нагрузочное тестирование 43
Покрытие кода тестами 44
Заключение по четвертой главе 44
Глава 5. Эксперименты 45
Человеческие суждения 45
Работа системы “Nerpa” 50
Пример 1 50
Пример 2 50
Пример 3 50
Пример 4 51
Пример 5 51
Пример 6 52
Заключение по пятой главе 56
Заключение 57
Литература 59
Актуальность темы
Одной из основных задач обработки текстов является разрешение лексической многозначности. Целью данной задачи является установление значений слов, основанных на контексте, в котором они употребляются. Разрешение лексической многозначности требуется практически во всех языковых областях, в том числе таких как: информационный поиск, машинный перевод, извлечение информации и контент-анализ и др. [7].
Для того, чтобы решить данную задачу, нужно определить все толкования слов и отношения между этими толкованиями и контекстом употребления слов. Основной источник толкований - это различные толковые словари и энциклопедии. Для того, чтобы установить связи между толкованиями, создаются такие структуры, как семантические сети и тезаурусы, но так как создание таких ресурсов является трудоемким процессом, исследователи в области обработки языка заинтересовались возможностью использования для решения данной задачи таких ресурсов, как Веб, онлайн-словари и энциклопедии, которые создаются и постоянно обновляются огромным числом различных пользователей.
Викисловарь - это уникальный, значимый и богатый ресурс для автоматической обработки текста. Данный ресурс популярен в связи с тем, что он постоянно пополняется новыми данными и в нем содержатся толкования слов, описание их фонетических и морфологических свойств, семантические отношения, ко многим словам подобраны иллюстрации [15].
Структура статьи Викисловаря, содержащая значения слова, синонимы, гипонимы, гиперонимы и примеры употребления, позволяет использовать ее с целю применения метода построения лексических цепочек для разрешения лексической многозначности, который заключается в назначении и использовании семантических связей между различными словами контекста.
Цель работы
Целью работы является разработка алгоритма для разрешения лексической многозначности, использующего метод построения лексических цепочек и Русский Викисловарь в качестве машиночитаемого словаря, также разработка приложения “Nerpa”, реализующего данный алгоритм.
Для достижения цели работы были поставлены следующие задачи:
1. Изучение научной литературы и уже проведенных исследований в данной области;
2. Изучение метода построения лексических цепочек;
3. Разработка алгоритма построения лексических цепочек на основе Русского Викисловаря;
4. Разработка системы “Nerpa”, использующей алгоритм построения лексических цепочек для разрешения лексической многозначности;
Научная новизна и практический вклад
1. Разработан алгоритм построения лексических цепочек на основе данных, полученных из Викисловаря;
2. Разработана система “Nerpa” реализующая следующие функции:
2.1. Строит лексические цепочки для введенного пользователем фрагмента текста, используя разработанный ранее алгоритм;
2.2. Из построенных лексических цепей выбирает наиболее сильную цепочку;
2.3. Извлекает из полученной сильной цепочки толкование слова, введенного пользователем и выводит его на экран;
Практическая значимость
Разработанный алгоритм может использоваться для создания или повышения точности существующих систем, предназначенных для обработки или анализа текстов на естественном языке.
Система “Nerpa” может применяться как самостоятельно для разрешения лексической многозначности, так и стать основой для других систем, предназначенных для обработки и анализа текстовых данных.
В ходе данной работы были изучены такие понятия, как:
Лексическая многозначность (полисемия) — это наличие у слова нескольких взаимосвязанных значений, характеризуемых общностью одного или более семантических компонентов [17].
Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте [7].
Лексическое единство в тексте - это результат цепей связанных слов, которые способствуют непрерывности общей темы повествования [3].
Были приведены основные подходы к разрешению лексической многозначности:
• WSD-методы, основанные на знаниях (knowledge);
• WSD-методы с учителем (supervised);
• Полуобучаемые или минимально-контролируемые методы
(Semi-supervised);
• WSD-методы без учителя (unsupervised, кластеризация и
графы);
Подробно рассмотрен алгоритм построения лексической цепочки для решения задачи WSD.
Основная цель работы достигнута: был разработан алгоритм построения лексической цепочки с помощью Русского Викисловаря. Было показано как словарные статьи Викисловаря могут использоваться в процессе построения лексических цепей. Данный алгоритм может использоваться для создания или повышения точности существующих систем, предназначенных для обработки или анализа текстов на естественном языке.
Также была разработана система “Nerpa”, реализующая алгоритм построения лексических цепочек для разрешения лексической многозначности на основе Русского Викисловаря.
Эксперименты проведенные с системой показали, что не во всех примерах программа работает верно. Было определено, что для более точного нахождения значения слова требуется улучшение алгоритма путем добавления в него таких видов семантических связей, как синонимы, гипонимы, гиперонимы и часто употребляемые вместе слова. На данный момент система для установления лексической связности учитывает только повторы слов. При увеличении видов связности в алгоритме произойдет увеличение количества и длин получаемых лексических цепочек, а следовательно и точности результатов.
Для улучшения системы в дальнейшем планируется:
1. Реализация в системе таких видов лексической связности, как синонимы, гипонимы, гиперонимы и часто употребляемые вместе слова;
2. Вычисление сильной цепочки с помощью расчета сил связей (повтор слов - 3, синоним, гипоним, гипероним - 2, часто употребляемые вместе слова - 1) и расстояния между словами в контексте (чем дальше слова друг от друга, тем сила связи меньше). На данный момент сильная цепочка вычисляется путем подсчета количества входящих в нее слов;
В ходе данной работы были изучены такие понятия, как:
Лексическая многозначность (полисемия) — это наличие у слова нескольких взаимосвязанных значений, характеризуемых общностью одного или более семантических компонентов [17].
Разрешение лексической многозначности (англ. word sense disambiguation или WSD) — задача определения смысла (значения) слова, которое принимается в определенном контексте [7].
Лексическое единство в тексте - это результат цепей связанных слов, которые способствуют непрерывности общей темы повествования [3].
Были приведены основные подходы к разрешению лексической многозначности:
• WSD-методы, основанные на знаниях (knowledge);
• WSD-методы с учителем (supervised);
• Полуобучаемые или минимально-контролируемые методы
(Semi-supervised);
• WSD-методы без учителя (unsupervised, кластеризация и
графы);
Подробно рассмотрен алгоритм построения лексической цепочки для решения задачи WSD.
Основная цель работы достигнута: был разработан алгоритм построения лексической цепочки с помощью Русского Викисловаря. Было показано как словарные статьи Викисловаря могут использоваться в процессе построения лексических цепей. Данный алгоритм может использоваться для создания или повышения точности существующих систем, предназначенных для обработки или анализа текстов на естественном языке.
Также была разработана система “Nerpa”, реализующая алгоритм построения лексических цепочек для разрешения лексической многозначности на основе Русского Викисловаря.
Эксперименты проведенные с системой показали, что не во всех примерах программа работает верно. Было определено, что для более точного нахождения значения слова требуется улучшение алгоритма путем добавления в него таких видов семантических связей, как синонимы, гипонимы, гиперонимы и часто употребляемые вместе слова. На данный момент система для установления лексической связности учитывает только повторы слов. При увеличении видов связности в алгоритме произойдет увеличение количества и длин получаемых лексических цепочек, а следовательно и точности результатов.
Для улучшения системы в дальнейшем планируется:
1. Реализация в системе таких видов лексической связности, как синонимы, гипонимы, гиперонимы и часто употребляемые вместе слова;
2. Вычисление сильной цепочки с помощью расчета сил связей (повтор слов - 3, синоним, гипоним, гипероним - 2, часто употребляемые вместе слова - 1) и расстояния между словами в контексте (чем дальше слова друг от друга, тем сила связи меньше). На данный момент сильная цепочка вычисляется путем подсчета количества входящих в нее слов;
Литература
1. D. Duong. Automated text summarization. Graduation Thesis. Hanoi University. 2011. 117 p.
2. G. Salton. Automatic Information Organization and Retrieval. — McGraw Hill Text, 1968.
3. J. Morris, G. Hirst. Lexical cohesion computed by thesaural relations as an indicator of the structure of text. Computational Linguistics, 1991. Vol. 17, N 1. P. 21-43.
4. K. Litowski. Desiderata for tagging with WordNet sysnsets or MCAA categories // In Proceedings of the ACL-SIGLEX Workshop "Tagging Text with Lexical Semantics: Why, What, and How?"pages 12-17. — Washington, DC, 1997. — April.
5. M. Galley, K. McKeown. Improving word sense disambiguation in lexical chaining. 2003.
6. M. Halliday, R. Hasan. Cohesion in English. 1976. 374 p.
7. P. Edmonds, E. Agirre. Word sense disambiguation. Scholarpedia, 3(7):4358. (2008).
8. R. Barzilay, M. Elhadad. Using lexical chains for text summarization. In Proceedings of the ACL Workshop on Intelligent Scalable Text Summarization (Madrid, Spain). 1997. P. 10-17
9. R. Mihalcea. Using Wikipedia for Automatic Word Sense Disambiguation. (2007).
10. R. Navigli. Experiments on the validation of sense annotations assisted by lexical chains. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL, Trento, Italy). 2006. 129-136
11. R. Navigli. Word sense disambiguation: A survey. (2009).
12. W. Weaver. Translation. In Machine translation of languages (1949), pp. 15-23
13. Y. Kiselev, A. Krizhanovsky, P. Braslavski, I. Menshikov, M. Mukhin, N. Krizhanovskaya. Russian Lexicographic Landscape: a Tale of 12 Dictionaries. 2015.
14. А. А. Крижановский, С. С. Ткач. Применение лексических цепочек
для разрешения лексической многозначности на основе Русского Викисловаря // Authorea. URL:
https://www.authorea.com/users/86022/articles/104927/_show_article
15. А. В. Смирнов, В. М. Круглов, А. А. Крижановский, Н. Б. Луговая, А. А. Карпов, И. С. Кипяткова. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. — СПб., 2012. — Т. 23. — С. 231-253.
16. Новогоднее обращение Владимира Путина к гражданам России. RT. 01.01.2015.
17. С. А. Песина. Полисемия в когнитивном аспекте: Монография. — СПб.: Изд-во РГПУ им. А. И. Герцена, 2005. — 325 с.
18. Т. В. Каушинис и др. Обзор методов и алгоритмов разрешения лексической многозначности: Введение. // Труды КарНЦ РАН. No
10. Сер. Математическое моделирование и информационные технологии. 2015. C. 69-98