Введение 5
Постановка задачи 7
Обзор литературы 8
Глава 1. Предметная область 10
1.1 Практическое применение анализа тональности текста 11
1.3 Методы и подходы для задачи анализа тональности текста 13
Глава 2. Задача автоматической классификации текста, существующие алгоритмы 15
2.1 Задача классификации 15
2.2 Представление и обработка данных 16
2.3 Наивный Байесовский классификатор 18
2.4 Метод опорных векторов 19
Глава 3. Существующие системы 22
3.1 Система I-Teco 22
3.1.1 Стадии работы системы I-Teco 22
3.1.2 Тональные словари 23
3.1.3 Глагольные и неглагольные лексемы и коллокации 24
3.1.4 Коллокаций и лексемы 25
3.1.5 Объектно-ориентированный подход 26
3.1.6 Оценка результата 28
3.2 Система определения тональности SentiScan 29
3.2.1 Главные элементы системы 29
3.2.2 Оценка качества работы системы SentiScan 31
3.3 Система Sentiment Analysis Service 33
3.4 Выбор инструмента тональности 35
Глава 4. Практическая реализация 36
4.1 Архитектура приложения для сбора и анализа данных 36
4.2 Используемые системы и инструменты 39
4.3 Пользовательский интерфейс для сбора и анализа данных 43
4.4 Тестирования для приложения «ВКонтакте» 43
4.5 Определения тональности для приложения «Сезам» 45
4.6 Тестирование системы и выводы 47
Вывод 49
Заключение 51
Список цитируемой литературы 52
Приложение
При принятии какого-либо решения человек стремится узнать мнение окружающих людей. До того, как интернет стал всеобще доступным и популярным, люди собирали рекомендации, относящиеся к различным отраслями обыденной жизни, среди друзей и знакомых. Но с развитием всемирной паутины появилась возможность с помощью интернета находить всю необходимую информацию, касательно различных товаров, услуг, политики и многих других сфер деятельности.
С каждым днем увеличивается количество пользователей интернета, глобальный прирост аудитории сильно заметен в социальных сетях (см. приложение 1). Недавнее исследование, проведенное аналитической компанией «We Are Social» совместно с «Hootsuite», опубликовали следующие результаты :
• В 2018 году количество пользователей всемирной паутины достигло более четырех миллиарда человек, что на 7% больше по сравнению с прошлым годом;
• Социальными сетями пользуются 3.196 миллиардов человек, данный показатель превышает оценку 2017 года на 13%;
• Мобильными устройствами в 2018 году пользуются свыше пяти миллиардов людей, что на 4% больше показателей прошлого года.
В России количество активных интернет-пользователей составляет 87 миллионов человек. Приблизительно 47% населения зарегистрировано в различных социальных сетях, большая часть которых отдает свое предпочтение социальной сети «ВКонтакте».
С увеличением пользователей стали активно развиваться и разрабатываться различные интернет-сообщества, социальные сети, интернет-магазины, а также мобильные приложения.
Необходимо выделить мобильные приложения и социальные сети, которые стали неотъемлемой частью нашего современного общества. При помощи этих ресурсов люди обмениваются новостями, сообщениями высказывают свою точку зрения о различных аспектах жизни.
Всемирно известные организации, компании, университеты разрабатывают свои личные веб-страницы, сообщества, блоги. Они размещают свои товары, услуги, предложения, и решения различных задач, затем, при помощи мониторинга определяется мнение общества о предложенной ими информации.
Учитывая вышеперечисленное, есть потребность в разработке программного обеспечения, для выполнения автоматического анализа предложенной обществом информации для выявления отношения людей к данным товарам и услугам. Чтобы распознать мнение, изложенное пользователем в своем тексте, т.е выявить отрицательную или положительную окраску текста, требуется выполнить анализ тональности текста.
Сентимент анализ (англ. sentiment analysis, анализ тональности текста, эмоциональная окраска текста) — обработка естественного языка (англ. NLP, natural language processing,), цель которого является извлечение эмоционального содержания из текста .
В рамках текущей работы была рассмотрена задача автоматического определения тональности текста, исследована предметная область, существующие инструменты и методы для решения поставленной задачи. Реализованы программные обеспечения для автоматизированного сбора данных и проведения анализа тональности текста
В ходе данной работы были решены следующие задачи:
1. Исследование предметной области: существующие методы и подходы для реализации сентимент анализа;
2. Рассмотрены часто используемые алгоритмы и инструменты для классификации данных;
3. Протестировано несколько инструментов для автоматического определения эмоциональной окраски русскоязычного текста;
4. Реализован инструмент для автоматического сбора данных с публичных сообществ социальной сети «ВКонтакте»;
5. Для выявления взаимосвязей между сообществами строится визуальный граф;
6. Полученные данные, по средствам существующих инструментов классифицируются на классы: негативные, позитивные и нейтральные;
7. Разработан пользовательский интерфейс для работы с программным обеспечением;
8. На тестовой выборке из системы обмена сообщениями «Сезам» —
приложение для людей с нарушениями письма или речи, был реализован наивный байесовский классификатор. Полученное программное обеспечение определяет сентимент анализ. Для
использования программы создан простой пользовательский интерфейс.
Учитывая полученные результаты, можно прийти к выводу, что поставленные задачи в текущей работе полностью выполнены.