Введение 3
Глава 1. Общие сведения разрешения морфологической многозначности 9
Глава 2. Теоретические сведения о разрешении морфологической многозначности 20
2.1 Морфологические признаки частей речи 20
2.2 Предварительная обработка данных 20
2.3 Анализ и обзор статистических методов снятия омонимии в текстах
на русском языке 21
2.4 Анализ и обзор статистических методов снятия омонимии в текстах
на татарском языке 24
Глава 3. Реализация алгоритмов разрешения морфологической многозначности 36
3.1 Python 36
3.2 Библиотеки 38
3.3 Классы и их реализация 40
Глава 4. Вычислительные эксперименты 46
4.1 Описание экспериментов 46
4.2 Результаты эксперимента 47
Заключение 53
Список литературы
В наше время прогрессирует интерес людей к различным видам распознавания текстов и языков. Автоматический анализ информации становится все более актуальным, потому что идет рост объема информации и данных. Ресурсы сети Интернет безграничны, и с каждым годом мировое сообщество выпускает более полутора-миллионов статей, рецензий. Все эти данные имеют потенциал, который можно реализовать только с использованием text-mining и data-mining.
Извлечением зависимостей необходимых для принятия решений в различных сферах человеческой деятельности занимаются специалисты области data-mining. Появилась данная область в 1989 году на одном из семинаров Григория Пятецкого-Шапиро. Данные идеи появились при анализе проблемы ускорения запросов к большим базам данных. Тогда же и появились Data Mining (“добыча данных”) и Knowledge Discovery in Data (“открытие знаний в базах данных”). Алгоритмы в Data Mining требуют большого количества вычислений. В прошлом это было главным фактором, который сдерживал практическое применение данной области. Теперь, с ростом производительности современных процессоров, можно провести анализ сотен тысяч и более записей. Морфологическая многозначность - неотъемлемая часть естественного языка. А разрешение морфологической многозначности (снятия омонимии) - является одной из центральных задач обработки текстов. Существует большое количество текстов, слов и словосочетаний, которые могут иметь разный смысл в зависимости от контекста, в котором они присутствуют. В процессе чтения текста на естественном языке человек способен неосознанно определять нужные значения слов, в то время как для вычислительной техники данная задача является нетривиальной. В компьютерной лингвистике задача определения значений (смысла) слов на основе морфологических признаков называется задачей разрешения морфологической многозначности. Данная задача в настоящее время является одной из центральных и сложнейших проблем обработки текстов.
Проблему разрешения морфологической многозначности можно сформулировать как выбор в заданном контексте правильного варианта морфологического разбора слова в тексте, при наличии нескольких вариантов разбора. Варианты морфологического разбора могут быть получены с использованием морфологического анализатора. Варианты возникают из-за многозначности в корнях и морфемах, сложной грамматической связи между ними, упорядоченной морфологическими правилами. Агглютинативные языки, такие как татарский, казахский, турецкий, арабский, финский, венгерский имеют определенные трудности в обработке из-за более сложной морфологии, относительно свободного порядка слов в предложениях по сравнению с такими языками, как английский. Морфемы несут синтаксическую и семантическую информацию, которая называется морфосемантической и морфосинтаксической характеристиками. Морфологическая неоднозначность должна быть снята для дальнейших задач обработки текстов, таких, как машинный перевод, категоризация текстов, извлечение информации, информационный поиск и другие. Во всех этих задачах качество итоговых результатов зависит от правильного определения лексического и грамматического значения слов. Например, в категоризация документов главной задачей является отнесение документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В машинном переводе главной задачей является правильно найти соответствие между словами и их значениями на другом языке (слово “граница” имеет перевод “limit”, если мы используем его для вычисления математических задач, но также известно, что его можно перевести, как “border”), в информационном поиске на основе коротких текстовых запросов нужно понимать смысл того, что подразумевал пользователь.
Многозначность языковых форм - это форма естественного языка, которая увеличивает словарный запас и “экономит” словесный материал. Современные методы разрешения многозначности основаны на базах знаний. Исследователи выделяют несколько типов многозначности естественного языка: морфологическую, синтаксическую и лексико-семантическую. Все из них имеют свои проблемы, к примеру неполнота баз знаний. Она актуальна для систем автоматического перевода и информационного поиска, потому что на вход таких систем обычно подаются произвольные тексты, задаваемые пользователями. Дефицит значений слов отрицательно сказывается на качестве результатов систем, использующих механизм разрешения многозначности. Как правило неполнота рассматривается в “терминах”.
Задача разрешения синтаксической многозначности (многозначность синтаксических структур) заключается в правильном определении функций синтаксических единиц предложения. Примером такой неоднозначности является предложение «мужу изменять нельзя» (словоформа мужу - субъект или объект предложения?).Полисемия - относится к лексической многозначности. Сюда же следует относить и лексическую омонимию (слова совпадают в звучании и написании, но имеют разные значения). Такими омонимами являются слова брань («ругань») и брань («война») или башлык(«глава») и башлык(«шапка»). Задача разрешения такой неоднозначности состоит в установлении значений слов или составных терминов в соответствии с контекстом, в котором они использовались.
Морфологическая многозначность, в основном, представлена грамматической омонимией, т. е. совпадением слов в отдельных грамматических формах. Например, существительные - хлеб («хлебный злак») и хлеб («пища, выпекаемая из муки»), образуют прилагательное с помощью суффикса («н») и получается («хлебные всходы» и «хлебный запах») соответственно.
Для русского языка морфологическая многозначность не столь характерна, как для английского и татарского, но, тем не менее, присуща. Дополнительную сложность добавляет свободный порядок слов в русском языке.
В задачах обработки ЕЯ(естественного языка) данных очень большое значение имеет способ представления данных. Для работы многих алгоритмов требуется представить элементы языка (морфемы, словоформы, контекст, целиком текст и т.д.) в виде векторов с численными значениями. Самый простой способ - это использование autoencoder - бинарный вектор, полученный только на основе морфологических данных (лексическая составляющая игнорировалась). Пример, у нас есть словоформа "китапларга" с разбором "китап+К+РЕ(ЛАр)+В1К(ГА);", где китап-основа слова, PL-аффикс множественности, DIR-направительный падеж. Т.к. в нашей модели морфологии у нас всего 106 аффиксов (в том числе POS-теги), получается, что каждая словоформа может быть выражена бинарным вектором с 106 значениями, где для каждой морфемы определена своя позиция. В итоге, словоформа китапларга будет состоять из вектора с 103 нулей и 3 единичек, в соответствующих каждой морфеме местах.
Таким образом, были поставлены следующие цели исследований:
1. Проанализировать существующие методы для снятия омонимии в текстах русского и татарского языков.
2. Проанализировать методы и алгоритмы разрешения морфологической многозначности и оценить их возможности.
В ходе выполнения работы необходимо сделать выводи о применимости методов и выделения лучшего из них, а также сделать эксперимент на основе текстов без снятой морфологической омонимии и сравнить результаты.
Актуальность данной работы заключается в установлении значений слов или составных терминов в соответствии с контекстом, в котором он используется. Приложение должно использоваться для повышения точности методов классификации и кластеризации текстов, увеличивая качества машинного перевода, информационного поиска, работы над приложениями. Для решения данной задачи требуется определить морфологические параметры слов и отношения между этими значениями и контекстом. На данный момент значения берутся из электронного корпуса русского языка “ruscorpora” и созданный “Институтом прикладной семиотики Академии наук РТ”(1идап1е1Та1аг) На базе данных словарей должны произвестись исследования для получения наилучшего результата.
Целью данной работы является разработка методов и программных средств разрешения морфологической многозначности русского и татарского языков на основе методов машинного обучения. Разрабатываемые методы должны быть полностью автоматическими, иметь точность и полноту результатов, а также иметь оптимальное время обработки.
Для достижения этой цели в выпускной работе были поставлены следующие задачи:
1. Построение бинарных векторов русского и татарского текста.
2. Кластеризация и классификация контекстов многозначных слов на основе морфологических и лексических данных.
3. Анализ форматов выходных векторов.
4. Дополнительные исследования параметров оптимальности контекстов и способов представления данных (морфемы, словоформы, контексты).
5. Поиск аномалий (ошибок в ручной разметке текстов).
6. Выявление оптимальных методов классификации и кластеризации.
Новизна работы основывается на том, чтобы с использованием разрешенного морфологического корпуса для русского и татарского языка, 7
сделать эксперименты по снятию морфологической многозначности для татарского языка, найти оптимальные методы, а также для русского языка выявить оптимальные методы, и сравнить полученные результаты. Используемые методы разрешения морфологической многозначности, основанные на подкорпусах русского и татарского языка, могут применяться для повышения точности практических программ, предназначенных для обработки и анализа текстовых данных.
В выпускной работе ставится задача сравнительного анализа методов разрешения многозначности для разноструктурных языков на основе методов машинного обучения. По данным нужно определить наилучшие результаты.
В данной работе получены следующие основные результаты:
Изучены методы и алгоритмы машинного обучения для использования в задаче разрешения морфологической многозначности в русских и татарских текстах.
Выполнен сравнительный анализ методов машинного обучения в задаче разрешения морфологической многозначности в текстах.
Анализ полученных результатов, выполненный с помощью различных анализаторов для русского языка, показал, что имеется точность 89% для анализатора mystem и 92% для анализатора pymorphy. Эти оценки коррелируют с результатами, приведенными в работе Сокирко и Толдовой [31], где отмечается результат в 95%.
Для татарского текста в экспериментальной части получены результаты кластеризации данных по разному количеству кластеров для нескольких многозначных словоформ, т.е исследовано влияние количества кластеров на точность результатов кластеризации. Таким образом, в работе сформулирован подход и построены базовые решения для последующих исследований в области разрешения многозначности в текстах на разных языках. По результатам исследований опубликована статья [32].
1. Kemal Oflazer “ Statistical morphological Disambiguation for agglutinative Languages.” COLLING(2000);Режим доступа: https://link.springer.eom/article/10.1023/A: 1020271707826
2. Morphological Disambiguation of Turkish Text with Perceptron Algorithm. [Электронный ресурс]: Hasim Sak, Tunga Gungor, Murat Saraclar. Режим доступа:
https://pdfs.semanticscholar. org/c942/1 b6f8ba64d1270fb9780e9438f06cf08e 1e5.pdf
3. The Impact of automatic Morphological Analysis & Disambiguation on Dependency of Turkish. [Электронный ресурс]: Gulsen Egyigit. Режим доступа: https://web.itu.edu.tr/gulsenc/papers/morphdisamb.pdf
4. A 3-step algorithm for morphological disambiguation using untagged corpora. [Электронный ресурс]: Anna PAPPA. Group C.S.A.R(2006yРежим доступа:
http://www.ai.univ-paris8.fr/~ap/articles/3step algorithm.pdf
5. Dan Shacham “Morphological Disambiguation of Hebrew” EMNLP-CoNLL (2007); Режим доступа:
http://cs.haifa.ac.il/~shuly/publications/danny-thesis.pdf
6. Statistical Models for Deep-Structure Disambiguation [Электронный ресурс]: TungHui Chiang, Keh-Yih Su. Режим доступа: http://www.aclweb.org/anthology/W96-0110
7. Klyshinsky, Kochetkova, Litvinov, Maximov “Method of POS-disambiguation Using Information about Words Co-occurrence (For Russian).AINL(2017) Режим доступа:
https://www.researchgate.net/profile/Edward_Klyshinsky/publication/261181623_ Method_of_POS-disambiguation_Using_Information_about_Words_Co¬occurrence_F or_Russian/links/0deec53390695aa816000000/Method-of-POS- disambiguation-Using-Information-about-Words-Co-occurrence-For-Russian.pdf
8. Andrey Kutuzov and Maria Kunilovskaya “Size vs. structure in training corpora for word embedding models: Araneum Russicum Maximum and Russian National Corpus”;CL,[2018] Режим доступа:
https://arxiv.org/abs/1801.06407
9. Olzhas Makhambetov, Aibek Makazhanov, Islam Sabyrgaliyev, Zhandos Yessenbayev ” Data-driven Morphological Analysis and Disambiguation for Kazakh”,LNCS,[2015]. Режим доступа:
https: //link. springer. com/chapter/10.1007/978-3-319-18111 -0 12
10. Anne N.DE Roeck, Waleed AL-FARES “A morphologically Sensitive Clustering Algorithm for Identifying Arabic Roots”[2000] Режим доступа: http://www.anthology.aclweb.org/P/P00/P00-1026.pdf
11. Helmut Schmid “Disambiguation of Morphological Structure using a PCFG”[2014] Режим доступа:
http://dl. acm. org/citation. cfm?id= 1220640
12. Pavel Kveton “Rule-based Morpholical Disambiguation” [2008] Режим доступа: https: //www.mff. cuni.cz/to. en/fakulta/tiskoviny/zpravy/vz2006. pdf
13.Onur Gorgun and Olcay Taner Yildiz “A Novel Approach To Morphological Disambiguation for Turkish”[2011] Режим доступа: https://www.researchgate.net/publication/221579549_A_Novel_Approach_to_Mo rphological_Disambiguation_for_Turkish
14. Extracting and Composing Robust Features with denoising
autoencoders,proceedings of the twenty-fifth international Conference on Machine Learning(ICML’08) страница 1096-1103. P.Vincent, H.Larochelle, Y.Benigo и P.A.Manzagol [2008]. Режим доступа:
http://www. iro. umontreal. ca/~lisa/publications2/index. php/publications/show/217
15. Распределение Гиббса. Wiki [Электронный ресурс]: Режим доступа: https://en.wikipedia.org/wiki/Gibbs measure
16. Competitive Distrubution Estimation: Why is Good-Turing Good [Электронный ресурс]: Alon Orlitsky, Ananda Theertha Suresh. Режим доступа: https://papers.nips.cc/paper/5762-competitive-distribution-estimation-why-is-good-turing-good.pdf
17.Introduction to Arabic Natural Language Processing. [Электронный ресурс]: Nizar Habash, 2005. Режим доступа:
http: //www.nizarhabash.com/teaching.html
18. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging. [Электронный ресурс]: Brill [1995]. Режим доступа:
http://www.aclweb.org/anthology/J95-4004
19. Method of POS-disambiguation Using Information about Words Co-occurrence (For Russian). [Электронный ресурс]: Klyshinsky, Kochetkova, Litvinov, Maximov. Режим доступа:
http://www.keldysh.ru/pages/cgraph/articles/dep20/publ2011/11 -24.pdf
20. Morphological Analysis and Disambiguation for Dialectal Arabic. [Электронный ресурс]: Nizar Habash,Owen Rambow. Режим доступа:
http: //www. aclweb. org/anthology/N 13-1044
21. Deep learning, NLP and representations.[Электронный ресурс]: Режим доступа: https://habrahabr.ru/post/253227/
22. Word2Vec в примерах.[Электронный ресурс]: Режим доступа: https://habrahabr.ru/post/249215/
23. Автоэнкодер.Wiki [Электронный ресурс]: Режим доступа:
https: //en.wikipedia. org/wiki/Autoencoder
24. K-Means. Wiki [Электронный ресурс]: Режим доступа:
https: //en.wikipedia. org/wiki/K-means clustering
25. Морфология(лингвистика) [Электронный ресурс]: 2016. Режим доступа: https://en.wikipedia.org/wiki/Morphology(linguistics)
26. Скрытая марковская модель. [Электронный ресурс].Wikipedia Режим доступа:
http: //www.machinelearning.ru/wiki/images/8/83/GM12 3 .pdf
27. Использование Mystem[1]. [Электронный ресурс]: 2014-2016 Яндекс. Режим доступа:
https://tech.yandex.ru/mystem/doc/index-docpage/
https://tech.yandex.ru/mystem/doc/usage-examples-docpage/https://tech.yandex.ru/mystem/doc/grammemes-values-docpage/
28. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов. [Электронный ресурс]: Зеленков.Ю.Г, Сегалович И.В. Режим доступа: http://www.dialog-21.ru/media/2444/zelenkov segalovich.pdf
29. Анализ статистических методов снятия омонимии в текстах на русском языке.[Электронный ресурс]: А.А.Порохин. Режим доступа: http://vestnik.astu.org/Content/UserImages/file/inform 2013 2/21 .pdf
30. РАЗРЕШЕНИЕ МОРФОЛОГИЧЕСКОЙ МНОГОЗНАЧНОСТИ ТЕКСТОВ НА ТАТАРСКОМ ЯЗЫКЕ НА ОСНОВЕ ИНСТРУМЕНТАРИЯ PUREPOS. Р.А. Гильмуллин, Р.Р. Гатауллин Turklang[2017] Режим доступа: http://www.turklang.tatar/wp-content/uploads/2017/05/%D0%A2.1.pdf
31. Алексей Сокирко и Светлана Толдова. 2005 Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) Режим доступа:
http://aot.ru/docs/RusCorporaHMM.htm
32. Салихянов.Р.И РАЗРЕШЕНИЕ МОРФОЛОГИЧЕСКОЙ
МНОГОЗНАЧНОСТИ В КОРПУСЕ ТАТАРСКОГО ЯЗЫКА European Scientific Conference: сборник статей X Международной научнопрактической конференции. В 2 ч. Ч. 1. - Пенза: МЦНС «Наука и Просвещение». - 2018. - 62-69 с. Режим доступа:
http://naukaip.ru/wp-content/uploads/2018/06/%D0%9C%D0%9A-358-
%D0%A7%D0%B0%D 1 %81 %D 1 %82%D 1%8C-1.pdf