Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА ПРОГРАММНОГО МОДУЛЯ ДЛЯ АВТОМАТИЧЕСКОЙ НОРМАЛИЗАЦИИ ИМЕННЫХ ГРУПП В РУССКОМ ЯЗЫКЕ

Работа №60761

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы39
Год сдачи2017
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
42
Не подходит работа?

Узнай цену на написание


Введение 4
1. Обзор существующих алгоритмов и программ для решения задачи
нормализации именных групп 6
2. Сбор данных для машинного обучения 9
2.1 Получение данных русскоязычной «Википедии» 10
2.2Выбор библиотеки для осуществления структурированного доступа к
данным «Википедии» 11
2.3 Создание структурного доступа к офлайн базе русскоязычной «Википедии»
с помощью библиотеки JWPL 12
2.4Извлечение именных групп из текстов русскоязычных статей «Википедии», используя JWPLAPI 13
2.5Решение проблемы лемматизации не словарных слов 14
2.6Результат работы по сбору именных групп для тренировочного и тестового множеств 27
3. Реализация алгоритмов нормализации именных групп 28
3.1 Алгоритм нормализации каждого слова именной группы в отдельности .... 28
3.2Алгоритм, при котором обрабатываемая именная группа считается уже нормализованной 29
3.3 Составление вероятностной модели преобразований цепочек окончаний
слов именной группы на основе тренировочного множества 30
3.4 Алгоритм нахождения наиболее вероятного преобразования цепочки
окончаний именных групп в вероятностной модели при условии полного совпадения цепочек окончаний слов 31
3.5 Алгоритм нахождения очередного преобразования окончания в цепочке,
основываясь на предыдущем 32
4. Результаты экспериментов 35
Заключение 36
Список используемых источников 38

Обоснование научной актуальности, практической значимости, новизны темы
В настоящее время объём текстовой информации, которая нас окружает, постоянно растёт, поэтому возникает целый ряд задач автоматизированного анализа, обработки больших объёмов текстовых массивов данных, таких как автоматическое создание текста, извлечение фактов, анализ тональности и множество других. Для того, чтобы отображать обработанную текстовую информацию в интерфейсе пользователя в понятном для него виде, алгоритмы анализа текстов используют нормализированные формы слов, называемые леммами.Большинство слов русского языка с указанными леммами содержатся в машиночитаемых русскоязычных словарях, таких как Opencorpora[2] или ЛОТ.ш[3].Для того, чтобы получить лемму слова, алгоритму требуется только машиночитаемый словарь, в котором содержатся леммы и словоформы. В процессе анализа текста, алгоритм находит нужную словоформу и далее определяет связанную с ней лемму. Так как большинство нормализованных форм слов русского языка уже содержатся в машиночитаемых словарях [2], [3], то задачу лемматизации отдельного слова в русском языке в настоящее время можно считать решённой. Более глобальной задачей нормализации является нормализация именной группы. Именные группы являются словосочетаниями,согласованными в роде, числе и падеже, в которых имя существительное является вершиной, то есть главным словом, определяющим характеристику всего словосочетания[1].Задача нормализации именных групп является актуальной и практически значимой, так как она применяется в таких задачах, как информационный поиск, автоматическое создание текста, а также извлечение фактов, в основном в целях нормализации поисковых запросов, найденных фактов, а также нормализации структуры предложений при отображении текстовой информации в интерфейс пользователя. Автоматическая нормализация именных групп позволяет отображать текстовую информацию в интерфейсе пользователя в более понятном для него виде, так как обеспечивает нормализацию более обобщенных смысловых элементов текста - именных групп.
Объект и предмет исследования
В качестве объекта исследования выступают именные группы русского языка, а предмет исследования -метод нормализации именных групп.
Цели проводимого исследования
Целью дипломной работы является создание программного модуля для нормализации именных групп русского языка.
Задачи проводимого исследования
Задача формулируется следующим образом:на вход в программный модуль подаётся текст на русском языке с размеченными именными группами. На выходе программа должна вернуть тот же текст на русском языке с нормализованными именными группами.
Подзадачи
Сформировать тестовое и тренировочное множества, которые содержат в себе нормализованные и не нормализованные именные группы русского языка. Разработать модель нормализации именных групп русского языка на основе тренировочного множества. Разработать и реализовать алгоритмы нахождения наиболее вероятного преобразования в модели, приводящего именную группу к нормальной форме. Измерить точность нормализации именных групп с применением модели и разработанных алгоритмов на тестовом множестве.Оформить модель преобразований и разработанный алгоритм в виде программного модуля.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Текстовая информация является важным элементом пользовательского интерфейса, так как позволяет пользователю понимать структуру и функционал информационной системы, взаимодействовать с ней. Количество текстовой информации в настоящее время растёт в геометрической прогрессии, поэтому не всегда удаётся обработать её с использованием всех правил русского языка перед выводом в интерфейс пользователя. Вследствие этого, текстовая информация может быть искажена и отобразиться пользователю в не понятном ему виде.
Целью дипломной работы была разработка программного модуля для автоматической нормализации именных групп русского языка, который мог бы нормализовывать именные группы русского языка перед выводом в интерфейс пользователя в автоматическом режиме.
Для достижения указанной цели перед работой был поставлен ряд задач. Сформировать тренировочное и тестовое множества именных групп русского языка. Сформировать модель нормализации именных групп русского языка на основе тренировочного множества. Разработать и реализовать алгоритмы нахождения наиболее вероятного преобразования в модели, приводящего именную группу к нормальной форме. Измерить точность нормализации именных групп с применением модели и разработанных алгоритмов на тестовом множестве. Оформить модель преобразований и разработанные алгоритмы в виде программного модуля.
При решении задачи формирования тестового и тренировочного множеств именных групп русского языка были использованы русскоязычные статьи «Википедии», структурированный доступ к которым осуществлялся посредством программно реализованной библиотеки JWPL. Именные группы извлекались из текста статьи с помощью регулярного выражения. Полученные множества были структурированы и сериализованы в виде Java-объектов.
При решении задачи разработки модели нормализации именных групп русского языка было использовано сериализованное тренировочное множество именных групп русского языка. Сформированная модель была структурирована и сериализована в виде Java-объекта.
При решении задачи разработки и реализации алгоритмов нахождения наиболее вероятного преобразования в модели, приводящего именную группу к нормальной форме, было разработано и программно реализовано два алгоритма нахождения наиболее вероятного преобразования. Также были реализованы два алгоритма без применения модели.
При решении задачи измерения точности нормализации именных групп с применением модели и разработанных алгоритмов на тестовом множестве, была измерена точность нормализации именных групп русского языка среди четырёх разработанных алгоритмов. Максимальная точность нормализации именных групп, которой удалось достичь в рамках дипломной работы, составляет 73%.
Разработанные алгоритмы и сформированная модель преобразований именных групп русского языка были оформлены в виде программного модуля.
Таким образом, все поставленные задачи были решены в полном объеме, а цель достигнута - разработан программный модуль для автоматической нормализации именных групп русского языка.



1. Определение именной группыдля русского языка [Электронный ресурс].
- Режим доступа: https://ru■wikipedia■org/wiki/Именная группа,
свободный.
2. Структура открытого корпуса русского языка ОрепСогрога[Электронный ресурс]. - Режим доступа: http://opencorpora.org/?page=export свободный.
3. Структура открытого корпуса русского языка в проекте
АОТ.ги[Электронный ресурс]. - Режим доступа:
http://aot.ru/technology.html, свободный.
4. Описание программы «Томита-Парсер» [Электронный ресурс]. - Режим доступа: https://tech.vandex.ru/tomita/. свободный.
5. API по работе с сервисом «Викидата» [Электронный ресурс]. - Режим доступа: https://www.mediawiki.org/wiki/API:Main page/ru. свободный.
6. API по работе с библиотекой структурированного доступа к данным «Википедии» JWPL [Электронный ресурс]. - Режим доступа: https://dkpro.github.io. свободный.
7. Описание возможностей программы склонения слов русского языка «Morpher» [Электронный ресурс]. - Режим доступа: http://morpher.ru/Description.aspx. свободный.
8. ApacheLuceneTM 6.5.1 Documentation [Электронныйресурс]. -Режим доступа: http://lucene.apache.org/core//6 5 1/index.html, свободный.
9. Apache OpenNLP Tools 1.8.0 API [Электронный ресурс]. - Режим доступа: https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp- tools/index.html, свободный.
10. Jurafsky D. Speech and Language Processing, 2nd Edition/ James H. Martin, Jurafsky D.- Upper Saddle River, New Jersy: «Pearson»,2008. - 174с.
38
ll.Schwartz B. -High Performance MySQL: Optimization, Backups, and Replication / Schwartz B., Zaitsev P., Tkachenko V. -Gravenstein Highway North, Sebastopol: «O'Reilly Media, Inc.», 2012.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ