ВВЕДЕНИЕ 3
1. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ТОНАЛЬНОСТИ 5
1.1 Анализ понятия тональности 5
1.2 Обратная связь как инструмент повышения лояльности 6
1.3 Подходы к оценке эмоциональной тональности текста 8
1.4 Обоснование выбора инструментов анализа тональности 10
1.5 Обоснование выбора серверного программного обеспечения 19
2. АНАЛИЗ ДЕЯТЕЛЬНОСТИ ADN AGENCY 22
2.1 Общая характеристика ADN agency 22
2.2 Анализ деятельности функциональных подразделений и организационной
структуры 23
2.3 Деятельность отдела разработки 25
2.4 Программно-аппаратное обеспечение деятельности компании 28
3. РАЗРАБОТКА МОДУЛЯ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ 30
3.1 Разработка серверного приложения на основе yii framework 30
3.2 Компиляция и настройка Томита парсера 34
3.3 Практическое использование Томита парсера 35
3.4 Проектирование и разработка базы данных 38
3.5 Генерации класса Active Record 44
3.6 Разработка метода регистрации площадок 46
3.7 Разработка алгоритма обработки отзывов 48
3.8 Разработка интерфейса 51
ЗАКЛЮЧЕНИЕ 56
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 58
ПРИЛОЖЕНИЕ 61
В настоящее время, глобальная сеть интернет используется человеком каждый день. Быстрая и скоростная связь со всем миром позволяет решать ряд задач, связанных с производством, управлением, торговлей, отдых, бизнес- процессами, развлечением и т.д. Пользователь на различных условиях может иметь доступ к огромному количеству неструктурированной информации. Отсюда возникает проблема в структуризации и анализе информации, а также ориентирования среди огромного количества альтернатив.
Многие платформы борются за эффективное общение онлайн, однако это часто приводит к тому, что многие сообщества просто закрывают комментарии пользователей. Владельцы различных сервисов сети интернет также заинтересованы в саморекламе и предложению рекомендаций по своим товарам или услугам персонально для каждого пользователя.
С развитием интернет сервисов по предоставлению услуг и продаже товаров, где каждый пользователь может свободно выражать свое мнение относительно любого товара или услуге, возникает необходимость обработки больших объемов информации, для определения отношения пользователя.
Для автоматизации процесса обработки текстов на естественном языке и извлечение выраженных авторами мнений, используют методы, основанные на использовании тональных словарей, а также методы машинного обучения.
Целью данной работы является разработка модуля анализа тональности текстов.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Изучить основные понятия технологий извлечение структурированных данных из текста.
2. Проанализировать инструменты для извлечения структурированных данных из текста.
3. Ознакомиться со спецификой функционирования и структурой AND Agency.
4. Спроектировать и разработать модуль анализа тональности текстов на естественном языке.
Объектом выпускной квалификационной работы является ADN Agency.
Предметом является - модуль анализа тональности текстов на естественном языке.
Выпускная квалификационная работа состоит из введения, трех глав, списка использованных источников и литературы и приложений.
В первой главе проанализированы технологии для создания системы анализа тональности текста на русском языке, рассмотрены способы анализа тональности, выявлены их достоинства и недостатки. В рамках настоящей главы был проведен анализ и выбор программного обеспечения.
Во второй главе работы представлена общая характеристика деятельности, организационная и функциональная структуры ADN и отдела разработки. Также описан бизнес-процесс работы модуля публикации отзывов.
В третьей главе спроектирована и разработана база данных для хранения и последующей обработки необходимой информации. Спроектированы макеты интерфейса пользователя информационной системы. Разработан грамматический алгоритм извлечения структурированных данных из текста и алгоритм для анализа эмоциональной тональности текстов.
Заключение содержит результаты проведенной работы.
В настоящее время отзывы пользователей сети являются популярным средством продвижения услуг компаний. В них люди высказывают свои мнения о продуктах, услугах, политике и т.д., что делает отзывы в сети интересными для социологических и маркетинговых исследований. Поэтому тема классификации текстов является актуальной.
В ходе дипломного проектирования и разработки модуля анализа тональности текстов, проходившей в ООО «Актив Дизайн Плюс», был проведён анализ предприятия, а также была поставлена и согласована задача на разработку модуля информационной системы алгоритма извлечения фактов на естественном языке с использованием Томита-парсера. Для получения фактов были написаны правила извлечения цепочек из текста. Был составлен словарь эмоциональной тональности текста, разработано приложением с интерфейсом пользователя.
Данный модуль является экспериментальной и в дальнейшем может быть улучшен за счет более точного составления словаря тональных слов, а также написания более расширенных правил для извлечения цепочек слов.
В первой главе проанализированы технологии для создания системы анализа тональности текста на русском языке, рассмотрены способы анализа тональности, выявлены их достоинства и недостатки. Произведен анализ и выбор программного обеспечения.
Во второй главе работы представлена общая характеристика деятельности, организационная и функциональная структуры AND Agency и отдела разработки. Также описан бизнес-процесс работы модуля публикации отзывов.
В третьем разделе дипломной работы были решены следующие задачи.
- Спроектирована и разработана база данных для хранения и последующей обработки необходимой информации;
- Спроектированы макеты интерфейса пользователя информационной системы;
- Разработан грамматический алгоритм извлечения структурированных данных из текста;
- Разработан алгоритм для анализа эмоциональной тональности текстов.
После завершения основных этапов разработки модуля системы было проведено тестирование на предмет наличия ошибок в работе системы. Все выявленные ошибки были устранены в процессе отладки.
Таким образом, все задачи выпускной квалификационной работы решены, а заявленная цель достигнута.
1. И. С. Николаев, О. В. Митренина Прикладная и компьютерная лингвистика под ред. Т. М. Ландо - 2-е изд. - М. : Ленанд, 2016. - 316 с.
2. Филиппова О.А. Языковые средства создания эмоциональности - М.: Флинта: Наука, 2012.- С.17-24.
3. Статья - разработка приложения для анализа тональности текстов на естественном языке Д.Ю. Козлов, А. И. Мусатов.
4. Батура, T.B. Основы обработки текстовой информации [Текст] / М.В. Чаринцева. - Новосибирск: Институт систем информатики им. А.П. Ершова СО РАН, - 45 с., 2016.
5. О персональных данных: Федеральный закон РФ от 27.07.2006 № 152-фз.
6. Документация Яндекс Томита Парсер [Электронный ресурс] - Режим доступа: https://yandex.ru/dev/tomita/doc/dg/concept/about-docpage/
7. Автоматическая обработка текстов на естественном языке и анализ данных / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова и др. - Изд-во НИУВШЭ Москва, 2017. - 269 с.
8. Сарбасова, А. Исследование методов сентимент-анализа русскоязычных текстов [Текст]. -Молодой ученый, стр. 143-146, 2015.
9. Официальный сайт инструмента для аналитики социальных медия Youscan [Электронный ресурс] - Режим доступа: https://youscan.io/product/
10. Официальный сайт инструмента для аналитики социальных медия Brand Analytics [Электронный ресурс] - Режим доступа: https://br- analytics.ru/
11. Сценарии командной оболочки. Linux, OS X и Unix - Перри Б, Тейлор Д. Издательство Питер 2017. - 416 с.
12. Документация Yii framework [Электронный ресурс] - Режим доступа: https://www.yiiframework.Com/doc/guide/2.0/ru
13. Джош Локхарт. Современный PHP. Новые возможности и передовой опыт. ДМК Пресс. Москва, 2016. - 304 с.
14. Мэт Зандстра - PHP. Объекты, шаблоны и методики программирования Вильямс. Москва, 2016 - 576 с.
15. LINIS CROWD Общедоступный тональный словарь и краудсорсинговая платформа для его создания [Электронный ресурс] - Режим доступа: http://linis-crowd.org/10.
16. Статья - Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики - М. В. Клековкина & Е. В. Котельников
17. Статья - Автоматический анализ тональности текстов на основе методов машинного обучения - Котельников Е. В., Клековкина М.В. //
18. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции «Диалог» (2018), том 2018, С. 27-36.
19. Репозиторий вспомогательных библиотек libmystem [Электронный ресурс] - Режим доступа: https://github.com/yandex/tomita- parser/releases/tag/v1.0
20. Осокин В. В, Анализ тональности русскоязычного текста Осокин В. В., Шегай М. В.
21. Интеллектуальные системы. Теория и приложения, Том 18, Вып. No3, 2014. - С. 163-174.
22. Документация http-сервера nginx [Электронный ресурс] - Режим доступа: https://nginx.org/ru/docs/
23. Sanjiv D., Yahoo! for Amazon: Extracting market sentiment from stock message boards (APFA), 2001.
24. Тутубалина Е. В., Тестирование методов анализа тональности текста, основанных на словарях. 18. No 3-4, 2015. - С. 138-162.
25. Документация phpmorphy // Морфологический анализатор phpmorphy. - [Электронный ресурс] - Режим доступа: https://phpmorphy.readthedocs.io/en/latest/;35. Korobov M. Morphological Analyzer
26. Обработка текста // NLPub. [Электронный ресурс] - Режим доступа: https://nlpub.ru/Анализ_тональности/
27. Документации Gii [Электронный ресурс] - Режим доступа: https://www.yiiframework.eom/doc/guide/2.0/ru/start-gii
28. Сайт проекта SentiStrenght. - http://sentistrength.wlv.ac.uk/55. Netowl Extraction // Netowl. - https://www.netowl.com/entity- extraction/
29. Система интернет-бронирования отелей . [Электронный ресурс] - Режим доступа:_https://www.booking.com/
30. Eureka Engine - Модуль определения тональности // Eureka Engine. - http: / / eurekaengine .ru/ru/price/
31. Официальный сайт ADN Agency. [Электронный ресурс] - Режим доступа: http://adn.agency/.