ВВЕДЕНИЕ
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
1.1. Анализ тональности текста
1.2. Обзор существующих методов извлечения аспектов
1.3. Обзор существующих методов определения полярности текста ...
1.4. Аналитический обзор существующих систем
1.5. Вывод
2. ТРЕБОВАНИЯ К СИСТЕМЕ
2.1. Функциональные требования
2.2. Нефункциональные требования
2.3. Варианты использования системы
2.4. Вывод
3. ПРОЕКТИРОВАНИЕ СИСТЕМЫ
3.1. Компоненты системы
3.2. Схема базы данных
3.3. Вывод
4. ПОСТРОЕНИЕ МОДЕЛИ КЛАССИФИКАЦИИ ТОНАЛЬНОСТИ
4.1. Выбор меры эффективности алгоритмов
4.2. Выбор признаков
4.3. Выбор алгоритма классификации
4.4. Выбор обучающей выборки
4.5. Тестирование эффективности
4.6. Вывод
5. РЕАЛИЗАЦИЯ СИСТЕМЫ
5.1. Средства реализации
5.2. Реализация доступа к данным в системе
5.3. Реализация сборщика информации
5.4. Реализация анализатора
5.5. Реализация интерфейса пользователя
5.6. Вывод
6. ТЕСТИРОВАНИЕ
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
ПРИЛОЖЕНИЕ
На сегодняшний день в сети Интернет имеется большое количество ресурсов, предназначенных для выражения мнения людей о различных товарах и услугах. Эти мнения важны как для самих пользователей при принятии решений по поводу товара, так и для производителей при отслеживании потребительского качества своей продукции. В 2014 году команда маркетинга и анализа рынка компании по предоставлению услуг SaaS - BrightLocall провела опрос, в результате которого было выяснено, что 88 % респондентов считают, что чтение положительных или отрицательных отзывов в интернете влияет на их решение при приобретении товаров или услуг. Отсюда следует, что почти 9 из 10 потребителей делают вывод о качестве сервиса/товара на основе клиентских отзывов [21].
В связи с этим, возникает потребность обрабатывать большие объемы информации для определения отношения пользователей к тому или иному объекту торговли. Ежедневно в сети Интернет публикуется огромное количество отзывов, что делает «ручной» сбор и анализ информации в данном случае неприменимым. По этой причине широкое распространение получила область компьютерной лингвистики, направленная на автоматическую обработку текстов на естественном языке.
Задачи обработки текстов можно разбить на две условные категории. К первой относятся задачи, с которыми ежедневно сталкивается любой пользователь: проверка орфографии, фильтрация спама. С точки зрения исследователей в области автоматической обработки текстов (АОТ), все эти задачи почти решены, и сегодня более актуальны задачи из второй категории, требующие обработки больших текстовых массивов: анализ мнений и отзывов, нахождение релевантных ответов на вопросы (задачи «вопрос-от-
1https://www.brightlocal.com/вет»), конструирование рекомендательных систем, работающих с большими массивами неструктурированных данных. Отличительная особенность таких задач - их сложность и отсутствие формализации, приводящие к тому, что для них пока еще нет полноценного набора решений, а применяются вспомогательные методы классификации текстов и выделения ключевых слов и словосочетаний [16].
Таким образом, разработка системы анализа мнений потребителей в социальных сетях является актуальной задачей на сегодняшний день. Система будет полезна как покупателям, предоставляя дополнительную ин-формацию о характеристиках товаров, так и компаниям, осуществляя оперативный сбор и анализ мнений для своевременного реагирования компаний на отзыв потребителя, корректирования стратегии и оптимизации собственного бизнеса.
Цель и задачи работы
Целью работы является разработка системы, позволяющей в режиме реального времени производить автоматический сбор и анализ мнения потребителей в социальных сетях.
Для достижения поставленной цели необходимо решить следующие задачи:
- провести анализ предметной области;
- изучить существующие методы выделения аспектов и анализа тональности текста;
- изучить существующие системы анализа тональности мнений потребителей в социальных сетях;
- спроектировать систему;
- реализовать систему;
- провести тестирование системы.
Структура и объем работы
Работа состоит из введения, шесть глав, заключения, библиографии и приложения. Объем работы составляет 61 страницу, объем библиографии - 27 источников.
Содержание работы
Первая глава, «Анализ предметной области», описывает предметную область, в рамках которой выполняется данная работа.
Вторая глава, «Требования к системе», описывает функциональные и нефункциональные требования к системе.
Третья глава, «Проектирование системы», описывает этап проектирования разрабатываемой системы.
Четвертая глава, «Построение модели классификации тональности», описывает построение модели классификации тональности для системы.
Пятая глава, «Реализация системы», описывает реализацию системы с технической точки зрения.
Шестая глава, «Тестирование системы», описывает тестирование системы.
В заключении описываются основные результаты, полученные при выполнении дипломной работы.
В приложении представлен отчет о юзабилити-тестировании системы анализа мнений потребителей в социальных сетях.
В ходе выполнения выпускной квалификационной работы бакалавра мною была реализована система анализа мнений потребителей в социальных сетях с использованием технологии ASP.NETи решены следующие задачи:
1) изучены существующие методы выделения аспектов и анализа тональности текста;
2) проведен анализ эффективности методов;
3) проведен обзор аналогов систем;
4) спроектирована система анализа мнений потребителей;
5) построена модель классификации тональности;
6) выбраны средства разработки;
7) реализован компонент «сборщик информации», обеспечивающий постоянный мониторинг отзывов в социальной сети «ВКонтакте» и сервиса «Яндекс.Маркет»;
8) разработаны менеджеры доступа к базам данных;
9) разработана грамматика для Томита-парсер извлекающая структурированные данных из текста на естественном языке;
10) реализован компонент «Анализатор», выделяющий аспекты с использованием статического метода и определяющий тональность аспектов с использованием наивного байесовского классификатора;
11) изучены методы взаимодействия с VK.API и Яндекс.Маркет API;
12) реализован интерфейс системы анализа мнений с использованием ASP.NET MVC;
13) проведена отладка и тестирование системы.
1. Domingos P., Pazzani, M. On the optimality of the simple Bayesian classifier under zero-one loss. // Machine Learning, 1997. - No. 29. - Р.
103- 137.
2. Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms. International Journal of Digital Libraries 3(2), 2000. - Р. 117-132.
3. Larose D.T. Discovering knowledge in data: an introduction to data mining. - New Jersey: John Wiley & Sons, Inc., 2005. - 240 p.
4. Lerman J. Programming Entity Framework. - CA: O'Reilly Media, 2010. - 920 p.
5. Liu B. Sentiment Analysis and Subjectivity. [Электронный ресурс] URL: https://www.cs.uic.edu/~liub/FBS/NLP-handbook-sentiment-analysis.pdf(дата обращения: 15.03.2016).
6. Mining and summarizing customer reviews. [Электронный ресурс] URL: https://www.cs.uic.edu/~liub/publications/kdd04-revSummary.pdf(дата обращения: 27.03.2016).
7. Pang B. Opinion Mining and Sentiment Analysis / B. Pang, L. Lee Foundations and Trends in Information Retrieval, January, 2008 - Vol. 2. - No. 1-2. Р. 1-135.
8. Pang B., Lee L., Vaithyanathan S. Thumbs up? Sentiment Classification Using Machine Learning Techniques. [Электронный ресурс] URL: http://www.cs.cornell.edu/people/pabo/papers/sentiment.pdf(дата обращения: 11.04.2016).
9. Prabowo R., Thelwall M. Sentiment analysis: A combined approach. Journal of Informetrics, 2009. - Vol. 3. - No. 2. - Р. 143-157.
10. Sentiment140. [Электронный ресурс] URL: http://www.sentiment140.com(дата обращения: 16.02.2016).
11. Socialmention. [Электронный ресурс] URL: http://www.socialmention.com(дата обращения: 16.02.2016).
12. Thelen M., Riloff E. A bootstrapping method for learning semantic lexicons using extraction pattern contexts. // Proceedings of the ACL-02 conference on Empirical methods in natural language processing (EMNLP), 2002. - Р. 214-221.
13. Thelwall M., Buckley K., Paltoglou G.. Sentiment in Twitter Events. [Электронный ресурс] URL: http://www.uvm.edu/~pdodds/files/papers/others/ 20Wthelwall2011a.pdf (дата обращения: 11.04.2016).
14. Tomita M. Efficient parsing for natural language. Boston:Kluwer Academic Publishers, 1986. - 9 p.
15. Барсегян А.А. Технологии анализа gaHHbix:Data Mining, Visual Mining, Text Mining, OLAP. / Барсегян А.А., Куприянов M.C., Степаненко B.B., Холод И.И. - СПб.: БХВ-Петербург, 2007. - 382 с.
16. Велихов П.И. Машинное обучение для понимания машинного языка. // Открытые Системы СУБД, 2016. - Вып. 1. - С. 18-21.
17. Воронцов К.В. Лекции по методу опорных векторов. Курс лекций. - М.: МГУ, 2007. - 18 с.
18. Воронцов К.В. Лекции по метрическим алгоритмам классификации. Курс лекций. - М.: МГУ, 2007. - 15 с.
19. Гамма Э. Приемы объектно-ориентированного проектирования. Паттерны проектирования. / Э. Гамма, Р. Хелм, Р. Джонсон, Д. Влиссидес.
- СПб.: Питер, 2016. - 366 с.
20. Канер С., Фолк Дж., Кек Нгуен Е. Тестирование программного обеспечения. - Киев: ДиаСофт, 2001. - 538 c.
21. Компания по предоставлению услуг SaaS - BrightLocal.
[Электронный ресурс] URL: https://www.brightlocal.com/2014/07/01/local- consumer-review-survey-2014/#personal(дата обращения: 15.02.2016).
22. Официальные метрики РОМИП-2010. [Электронный ресурс]
URL: http://romip.ru/romip2010/20_appendix_a_metrics.pdf (дата обращения: 11.04.2016).
23. Словарь стоп-слов. [Электронный ресурс]
URL: http://wiki.miralab.ru/stop-slova.html (дата обращения: 11.04.2016).
24. Сокирко А.В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ): дисс. на соиск. уч. степ. канд. техн. наук. - М.: МГПИИЯ, 2001. - 108 с.
25. Тестовые коллекции РОМИП-2011. [Электронный ресурс]
URL: http://romip.ru/ru/collections/index.html (дата обращения: 10.04.2016).
26. Томита-парсер. [Электронный ресурс]
URL: https://tech.yandex.ru/tomita/ (дата обращения: 10.04.2016).
27. Юсупова Н.И, Богданова Д.Р., Бойко М.В. Алгоритмическое и программное обеспечение для анализа тональности текстовых сообщений с использованием машинного обучения. // Вестник Уфимского государственного авиационного технического университета, 2012. - 99 с.