🔍 Поиск работ

Морфологический анализ инстаграма Губернатора Челябинской области и классифицирование его результатов

Работа №206989

Тип работы

Дипломные работы, ВКР

Предмет

прикладная информатика

Объем работы69
Год сдачи2020
Стоимость4690 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
10
Не подходит работа?

Узнай цену на написание


Аннотация 2
ВВЕДЕНИЕ 7
1 МЕТОДЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ НА
ЕСТЕСТВЕННОМ ЯЗЫКЕ 8
1.1 Компьютерная лингвистика 8
1.1.1 Определение компьютерной лингвистики 8
1.1.2 Приложения компьютерной лингвистики 9
1.1.3 Инструментарий компьютерной лингвистики 12
1.2 Обработка естественного языка 13
1.2.1 Статистические подходы 13
1.2.2 Лингвистические подходы 14
1.3 Методы классификации 17
1.3.1 Метод ближайших соседей 17
1.3.2 Наивный байесовский метод 18
1.3.3 Дерево принятия решений 19
1.3.4 Случайный лес 20
1.4 Метрики оценки качества классификации 21
1.5 Обзор существующих морфологических анализаторов 22
1.5.1 TreeTagger 23
1.5.2 FreeLing 23
1.5.3 Mystem 23
1.5.4 pymorphy2 23
1.6 Выбор среды разработки, языка программирования и других
инструментов 24
1.7 Выводы по разделу 26
2 РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ ДЛЯ РЕШЕНИЯ
ЗАДАЧИ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ 28
2.1 Предобработка входного текста 28
2.2 Построение словаря и поиск словоформ с помощью
детерминированного ациклического конечного автомата 28
2.3 Разрешение морфологической омонимии 32
2.4 Выводы по разделу 32
3 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РЕШЕНИЯ ЗАДАЧИ ОБРАБОТКИ
ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 33
3.1 Архитектура программы 33
3.2 Алгоритмы работы программы 34
3.3 Модель хранения данных 35
3.4 Описание модулей программы 37
3.4.1 Структура модулей скрипта 37
3.4.2 Структура веб-приложения 39
3.5 Проверка работы программы на экспериментальных данных 40
3.6 Анализ полученных результатов 47
3.7 Выводы по разделу 47
ЗАКЛЮЧЕНИЕ 49
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 50
ПРИЛОЖЕНИЕ 1 Исходный код программы 53


Современное общество за последние несколько десятилетий совершило огромный рывок в технологическом прогрессе, развитии различных сфер жизни людей и научных направлений. Это повлекло за собой значительное увеличение информации как в печатном (книги, научные труды, газеты и журналы и др.), так и в электронном (блоги, форумы, электронные документы и др.) виде. В связи с этим в значительной степени ускорилось развитие научных областей, известных как компьютерная лингвистика и обработка естественного языка, частью которой является морфологический анализ. Вместе с их развитием возникает потребность в создании систем, автоматизирующих процесс обработки больших объемов текстовых данных. Такие автоматизированные системы используются для таких задач, как поиск данных по запросу, классификация и кластеризация текстовой информации, распознавание текста и синтез речи, аннотирование и реферирование, а так же другие задачи компьютерной лингвистики.
В обработке естественного языка в основном заинтересованы различные компании, которым необходимо оперировать большим потоком входящих запросов документов и обращений, распределять обращения по темам и отделам, выделять наиболее важные и негативные, ускорять перевод на другие языки, улучшать поиск по базе данных, внедрять диалоговые и рекомендательные системы и т. п.
Одной из таких является задача морфологического анализа инстаграма Губернатора Челябинской области.
Таким образом, уточним цель: необходимо разработать программный продукт классификации текстов на естественном языке с использованием морфологического анализа.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Благодаря разработанному программному продукту с использованием компьютерной лингвистики, удалось многократно ускорить работу операторов посредством автоматизации процесса загрузки и анализа комментариев постов Губернатора Челябинской Области в социальной сети Instagram. В результате удалось достичь следующих результатов:
- значительно упрощена работа оператора;
- время подготовки документов для совещаний и поездок Губернатора и его заместителей сократилось более чем в 5 раз.
В дальнейшем развитии программного продукта планируется реализация следующего функционала:
- многопользовательская работа;
- работа с комментариями (возможность изменять тему, к которой был отнесен комментарий);
- ведение истории изменений (любые изменения базы данных фиксируются);
- возможность ручного запуска анализатора оператором из веб-приложения.



1 Васильев, В.Г. Методы автоматизированной обработки текстов / В.Г. Васильев, М.П. Кривенко - М.: ИПИ РАН, 2008. - 305 с.
2 Большакова, Е.И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова - М.: МИЭМ, 2011. - C. 99-103.
3 Смирнов, И.В. Семантико-синтаксический анализ естественных языков. Часть I. Обзор методов синтаксического и семантического анализа текстов / И.В. Смирнов, А.О. Шелманов // Искусственный интеллект и принятие решений - 2013. - №1. - С. 41-54.
4 Боярский, К.К. Введение в компьютерную лингвистику: учеб. пособие / К.К. Боярский - Спб: НИУ ИТМО, 2013. - C. 17-27.
5 Большакова, Е.И. Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин - М.: Изд-во НИУ ВШЭ, 2017. - C. 17-21.
6 Леонтьева, Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие / Н.Н. Леонтьева - М.: Издательский центр «Академия», 2006. - 304 с.
7 Касевич, В.Б. Элементы общей лингвистики / В.Б. Касевич - М., Наука, 1977. - 183 с.
8 Захаров, В.П. Корпусная лингвистика: Учебно-метод. пособие / В.П. Захаров - СПб., 2005. - 48 с.
9 Николаева, И.С. Прикладная и компьютерная лингвистика / И.С. Николаева, О.В. Митренина, Т.М. Ландо - М.: ЛЕНАНД, 2016. - 320 с.
10 Маннинг К. Введение в информационный поиск / К. Маннинг, П. Рагхаван, Ч. Шютце - М.: Вильямс, 2011. - 512 с.
11 Тузов, В.А. Компьютерная семантика русского языка / В.А. Тузов - СПб: Изд-во СПбГУ, 2004. - 400 с.
12 Интерсолл, Г.С. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Г.С. Интерсолл, Т.С. Мортон, Э.Л. Феррис - М.: ДМК Пресс, 2015. - 416 с.
13 Барсегян, А.А. Технологии анализа данных: Data Mining, Visual
Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов,
B. В. Степаненко, И.И. Холод. - 2-е изд., перераб. и доп. - СПб.: БХВ- Петербург, 2007. - 384 с.
14 Рысаков, С.В. Статистические методы снятия омонимии /
C. В. Рысаков, Э.С. Клышинский // Новые информационные технологии в
автоматизированных системах: материалы восемнадцатого научно¬
практического семинара - М: МИЭМ НИУ ВШЭ, 2015. - №. 18. - 9 c.
15 Люгер Дж.Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем / Дж.Ф. Люгер - М.: Вильямс, 2003. - 864 с...25


Работу высылаем на протяжении 30 минут после оплаты.




©2026 Cервис помощи студентам в выполнении работ