Тема: Задача разрешения многозадачности текстов с использованием методов классификации и алгоритмов машинного обучения
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Общие сведения разрешения морфологической многозначности 9
Глава 2. Теоретические сведения о разрешении морфологической многозначности 20
2.1 Морфологические признаки частей речи 20
2.2 Предварительная обработка данных 20
2.3 Анализ и обзор статистических методов снятия омонимии в текстах
на русском языке 21
2.4 Анализ и обзор статистических методов снятия омонимии в текстах
на татарском языке 24
Глава 3. Реализация алгоритмов разрешения морфологической многозначности 36
3.1 Python 36
3.2 Библиотеки 38
3.3 Классы и их реализация 40
Глава 4. Вычислительные эксперименты 46
4.1 Описание экспериментов 46
4.2 Результаты эксперимента 47
Заключение 53
Список литературы
📖 Введение
Извлечением зависимостей необходимых для принятия решений в различных сферах человеческой деятельности занимаются специалисты области data-mining. Появилась данная область в 1989 году на одном из семинаров Григория Пятецкого-Шапиро. Данные идеи появились при анализе проблемы ускорения запросов к большим базам данных. Тогда же и появились Data Mining (“добыча данных”) и Knowledge Discovery in Data (“открытие знаний в базах данных”). Алгоритмы в Data Mining требуют большого количества вычислений. В прошлом это было главным фактором, который сдерживал практическое применение данной области. Теперь, с ростом производительности современных процессоров, можно провести анализ сотен тысяч и более записей. Морфологическая многозначность - неотъемлемая часть естественного языка. А разрешение морфологической многозначности (снятия омонимии) - является одной из центральных задач обработки текстов. Существует большое количество текстов, слов и словосочетаний, которые могут иметь разный смысл в зависимости от контекста, в котором они присутствуют. В процессе чтения текста на естественном языке человек способен неосознанно определять нужные значения слов, в то время как для вычислительной техники данная задача является нетривиальной. В компьютерной лингвистике задача определения значений (смысла) слов на основе морфологических признаков называется задачей разрешения морфологической многозначности. Данная задача в настоящее время является одной из центральных и сложнейших проблем обработки текстов.
Проблему разрешения морфологической многозначности можно сформулировать как выбор в заданном контексте правильного варианта морфологического разбора слова в тексте, при наличии нескольких вариантов разбора. Варианты морфологического разбора могут быть получены с использованием морфологического анализатора. Варианты возникают из-за многозначности в корнях и морфемах, сложной грамматической связи между ними, упорядоченной морфологическими правилами. Агглютинативные языки, такие как татарский, казахский, турецкий, арабский, финский, венгерский имеют определенные трудности в обработке из-за более сложной морфологии, относительно свободного порядка слов в предложениях по сравнению с такими языками, как английский. Морфемы несут синтаксическую и семантическую информацию, которая называется морфосемантической и морфосинтаксической характеристиками. Морфологическая неоднозначность должна быть снята для дальнейших задач обработки текстов, таких, как машинный перевод, категоризация текстов, извлечение информации, информационный поиск и другие. Во всех этих задачах качество итоговых результатов зависит от правильного определения лексического и грамматического значения слов. Например, в категоризация документов главной задачей является отнесение документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В машинном переводе главной задачей является правильно найти соответствие между словами и их значениями на другом языке (слово “граница” имеет перевод “limit”, если мы используем его для вычисления математических задач, но также известно, что его можно перевести, как “border”), в информационном поиске на основе коротких текстовых запросов нужно понимать смысл того, что подразумевал пользователь.
Многозначность языковых форм - это форма естественного языка, которая увеличивает словарный запас и “экономит” словесный материал. Современные методы разрешения многозначности основаны на базах знаний. Исследователи выделяют несколько типов многозначности естественного языка: морфологическую, синтаксическую и лексико-семантическую. Все из них имеют свои проблемы, к примеру неполнота баз знаний. Она актуальна для систем автоматического перевода и информационного поиска, потому что на вход таких систем обычно подаются произвольные тексты, задаваемые пользователями. Дефицит значений слов отрицательно сказывается на качестве результатов систем, использующих механизм разрешения многозначности. Как правило неполнота рассматривается в “терминах”.
Задача разрешения синтаксической многозначности (многозначность синтаксических структур) заключается в правильном определении функций синтаксических единиц предложения. Примером такой неоднозначности является предложение «мужу изменять нельзя» (словоформа мужу - субъект или объект предложения?).Полисемия - относится к лексической многозначности. Сюда же следует относить и лексическую омонимию (слова совпадают в звучании и написании, но имеют разные значения). Такими омонимами являются слова брань («ругань») и брань («война») или башлык(«глава») и башлык(«шапка»). Задача разрешения такой неоднозначности состоит в установлении значений слов или составных терминов в соответствии с контекстом, в котором они использовались.
Морфологическая многозначность, в основном, представлена грамматической омонимией, т. е. совпадением слов в отдельных грамматических формах. Например, существительные - хлеб («хлебный злак») и хлеб («пища, выпекаемая из муки»), образуют прилагательное с помощью суффикса («н») и получается («хлебные всходы» и «хлебный запах») соответственно.
Для русского языка морфологическая многозначность не столь характерна, как для английского и татарского, но, тем не менее, присуща. Дополнительную сложность добавляет свободный порядок слов в русском языке.
В задачах обработки ЕЯ(естественного языка) данных очень большое значение имеет способ представления данных. Для работы многих алгоритмов требуется представить элементы языка (морфемы, словоформы, контекст, целиком текст и т.д.) в виде векторов с численными значениями. Самый простой способ - это использование autoencoder - бинарный вектор, полученный только на основе морфологических данных (лексическая составляющая игнорировалась). Пример, у нас есть словоформа "китапларга" с разбором "китап+К+РЕ(ЛАр)+В1К(ГА);", где китап-основа слова, PL-аффикс множественности, DIR-направительный падеж. Т.к. в нашей модели морфологии у нас всего 106 аффиксов (в том числе POS-теги), получается, что каждая словоформа может быть выражена бинарным вектором с 106 значениями, где для каждой морфемы определена своя позиция. В итоге, словоформа китапларга будет состоять из вектора с 103 нулей и 3 единичек, в соответствующих каждой морфеме местах.
Таким образом, были поставлены следующие цели исследований:
1. Проанализировать существующие методы для снятия омонимии в текстах русского и татарского языков.
2. Проанализировать методы и алгоритмы разрешения морфологической многозначности и оценить их возможности.
В ходе выполнения работы необходимо сделать выводи о применимости методов и выделения лучшего из них, а также сделать эксперимент на основе текстов без снятой морфологической омонимии и сравнить результаты.
Актуальность данной работы заключается в установлении значений слов или составных терминов в соответствии с контекстом, в котором он используется. Приложение должно использоваться для повышения точности методов классификации и кластеризации текстов, увеличивая качества машинного перевода, информационного поиска, работы над приложениями. Для решения данной задачи требуется определить морфологические параметры слов и отношения между этими значениями и контекстом. На данный момент значения берутся из электронного корпуса русского языка “ruscorpora” и созданный “Институтом прикладной семиотики Академии наук РТ”(1идап1е1Та1аг) На базе данных словарей должны произвестись исследования для получения наилучшего результата.
Целью данной работы является разработка методов и программных средств разрешения морфологической многозначности русского и татарского языков на основе методов машинного обучения. Разрабатываемые методы должны быть полностью автоматическими, иметь точность и полноту результатов, а также иметь оптимальное время обработки.
Для достижения этой цели в выпускной работе были поставлены следующие задачи:
1. Построение бинарных векторов русского и татарского текста.
2. Кластеризация и классификация контекстов многозначных слов на основе морфологических и лексических данных.
3. Анализ форматов выходных векторов.
4. Дополнительные исследования параметров оптимальности контекстов и способов представления данных (морфемы, словоформы, контексты).
5. Поиск аномалий (ошибок в ручной разметке текстов).
6. Выявление оптимальных методов классификации и кластеризации.
Новизна работы основывается на том, чтобы с использованием разрешенного морфологического корпуса для русского и татарского языка, 7
сделать эксперименты по снятию морфологической многозначности для татарского языка, найти оптимальные методы, а также для русского языка выявить оптимальные методы, и сравнить полученные результаты. Используемые методы разрешения морфологической многозначности, основанные на подкорпусах русского и татарского языка, могут применяться для повышения точности практических программ, предназначенных для обработки и анализа текстовых данных.
В выпускной работе ставится задача сравнительного анализа методов разрешения многозначности для разноструктурных языков на основе методов машинного обучения. По данным нужно определить наилучшие результаты.
✅ Заключение
Изучены методы и алгоритмы машинного обучения для использования в задаче разрешения морфологической многозначности в русских и татарских текстах.
Выполнен сравнительный анализ методов машинного обучения в задаче разрешения морфологической многозначности в текстах.
Анализ полученных результатов, выполненный с помощью различных анализаторов для русского языка, показал, что имеется точность 89% для анализатора mystem и 92% для анализатора pymorphy. Эти оценки коррелируют с результатами, приведенными в работе Сокирко и Толдовой [31], где отмечается результат в 95%.
Для татарского текста в экспериментальной части получены результаты кластеризации данных по разному количеству кластеров для нескольких многозначных словоформ, т.е исследовано влияние количества кластеров на точность результатов кластеризации. Таким образом, в работе сформулирован подход и построены базовые решения для последующих исследований в области разрешения многозначности в текстах на разных языках. По результатам исследований опубликована статья [32].



