ВВЕДЕНИЕ
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
1.1. Анализ тональности текста
1.2. Обзор существующих методов извлечения аспектов
1.3. Обзор существующих методов определения полярности текста ...
1.4. Аналитический обзор существующих систем
1.5. Вывод
2. ТРЕБОВАНИЯ К СИСТЕМЕ
2.1. Функциональные требования
2.2. Нефункциональные требования
2.3. Варианты использования системы
2.4. Вывод
3. ПРОЕКТИРОВАНИЕ СИСТЕМЫ
3.1. Компоненты системы
3.2. Схема базы данных
3.3. Вывод
4. ПОСТРОЕНИЕ МОДЕЛИ КЛАССИФИКАЦИИ ТОНАЛЬНОСТИ
4.1. Выбор меры эффективности алгоритмов
4.2. Выбор признаков
4.3. Выбор алгоритма классификации
4.4. Выбор обучающей выборки
4.5. Тестирование эффективности
4.6. Вывод
5. РЕАЛИЗАЦИЯ СИСТЕМЫ
5.1. Средства реализации
5.2. Реализация доступа к данным в системе
5.3. Реализация сборщика информации
5.4. Реализация анализатора
5.5. Реализация интерфейса пользователя
5.6. Вывод
6. ТЕСТИРОВАНИЕ
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
ПРИЛОЖЕНИЕ
На сегодняшний день в сети Интернет имеется большое количество ресурсов, предназначенных для выражения мнения людей о различных товарах и услугах. Эти мнения важны как для самих пользователей при принятии решений по поводу товара, так и для производителей при отслеживании потребительского качества своей продукции. В 2014 году команда маркетинга и анализа рынка компании по предоставлению услуг SaaS - BrightLocall провела опрос, в результате которого было выяснено, что 88 % респондентов считают, что чтение положительных или отрицательных отзывов в интернете влияет на их решение при приобретении товаров или услуг. Отсюда следует, что почти 9 из 10 потребителей делают вывод о качестве сервиса/товара на основе клиентских отзывов [21].
В связи с этим, возникает потребность обрабатывать большие объемы информации для определения отношения пользователей к тому или иному объекту торговли. Ежедневно в сети Интернет публикуется огромное количество отзывов, что делает «ручной» сбор и анализ информации в данном случае неприменимым. По этой причине широкое распространение получила область компьютерной лингвистики, направленная на автоматическую обработку текстов на естественном языке.
Задачи обработки текстов можно разбить на две условные категории. К первой относятся задачи, с которыми ежедневно сталкивается любой пользователь: проверка орфографии, фильтрация спама. С точки зрения исследователей в области автоматической обработки текстов (АОТ), все эти задачи почти решены, и сегодня более актуальны задачи из второй категории, требующие обработки больших текстовых массивов: анализ мнений и отзывов, нахождение релевантных ответов на вопросы (задачи «вопрос-от-
1https://www.brightlocal.com/вет»), конструирование рекомендательных систем, работающих с большими массивами неструктурированных данных. Отличительная особенность таких задач - их сложность и отсутствие формализации, приводящие к тому, что для них пока еще нет полноценного набора решений, а применяются вспомогательные методы классификации текстов и выделения ключевых слов и словосочетаний [16].
Таким образом, разработка системы анализа мнений потребителей в социальных сетях является актуальной задачей на сегодняшний день. Система будет полезна как покупателям, предоставляя дополнительную ин-формацию о характеристиках товаров, так и компаниям, осуществляя оперативный сбор и анализ мнений для своевременного реагирования компаний на отзыв потребителя, корректирования стратегии и оптимизации собственного бизнеса.
Цель и задачи работы
Целью работы является разработка системы, позволяющей в режиме реального времени производить автоматический сбор и анализ мнения потребителей в социальных сетях.
Для достижения поставленной цели необходимо решить следующие задачи:
- провести анализ предметной области;
- изучить существующие методы выделения аспектов и анализа тональности текста;
- изучить существующие системы анализа тональности мнений потребителей в социальных сетях;
- спроектировать систему;
- реализовать систему;
- провести тестирование системы.
Структура и объем работы
Работа состоит из введения, шесть глав, заключения, библиографии и приложения. Объем работы составляет 61 страницу, объем библиографии - 27 источников.
Содержание работы
Первая глава, «Анализ предметной области», описывает предметную область, в рамках которой выполняется данная работа.
Вторая глава, «Требования к системе», описывает функциональные и нефункциональные требования к системе.
Третья глава, «Проектирование системы», описывает этап проектирования разрабатываемой системы.
Четвертая глава, «Построение модели классификации тональности», описывает построение модели классификации тональности для системы.
Пятая глава, «Реализация системы», описывает реализацию системы с технической точки зрения.
Шестая глава, «Тестирование системы», описывает тестирование системы.
В заключении описываются основные результаты, полученные при выполнении дипломной работы.
В приложении представлен отчет о юзабилити-тестировании системы анализа мнений потребителей в социальных сетях.
В ходе выполнения выпускной квалификационной работы бакалавра мною была реализована система анализа мнений потребителей в социальных сетях с использованием технологии ASP.NETи решены следующие задачи:
1) изучены существующие методы выделения аспектов и анализа тональности текста;
2) проведен анализ эффективности методов;
3) проведен обзор аналогов систем;
4) спроектирована система анализа мнений потребителей;
5) построена модель классификации тональности;
6) выбраны средства разработки;
7) реализован компонент «сборщик информации», обеспечивающий постоянный мониторинг отзывов в социальной сети «ВКонтакте» и сервиса «Яндекс.Маркет»;
8) разработаны менеджеры доступа к базам данных;
9) разработана грамматика для Томита-парсер извлекающая структурированные данных из текста на естественном языке;
10) реализован компонент «Анализатор», выделяющий аспекты с использованием статического метода и определяющий тональность аспектов с использованием наивного байесовского классификатора;
11) изучены методы взаимодействия с VK.API и Яндекс.Маркет API;
12) реализован интерфейс системы анализа мнений с использованием ASP.NET MVC;
13) проведена отладка и тестирование системы.