Тема: Система определения тональности текста
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 7
Обзор литературы 8
Глава 1. Предметная область 10
1.1 Практическое применение анализа тональности текста 11
1.3 Методы и подходы для задачи анализа тональности текста 13
Глава 2. Задача автоматической классификации текста, существующие алгоритмы 15
2.1 Задача классификации 15
2.2 Представление и обработка данных 16
2.3 Наивный Байесовский классификатор 18
2.4 Метод опорных векторов 19
Глава 3. Существующие системы 22
3.1 Система I-Teco 22
3.1.1 Стадии работы системы I-Teco 22
3.1.2 Тональные словари 23
3.1.3 Глагольные и неглагольные лексемы и коллокации 24
3.1.4 Коллокаций и лексемы 25
3.1.5 Объектно-ориентированный подход 26
3.1.6 Оценка результата 28
3.2 Система определения тональности SentiScan 29
3.2.1 Главные элементы системы 29
3.2.2 Оценка качества работы системы SentiScan 31
3.3 Система Sentiment Analysis Service 33
3.4 Выбор инструмента тональности 35
Глава 4. Практическая реализация 36
4.1 Архитектура приложения для сбора и анализа данных 36
4.2 Используемые системы и инструменты 39
4.3 Пользовательский интерфейс для сбора и анализа данных 43
4.4 Тестирования для приложения «ВКонтакте» 43
4.5 Определения тональности для приложения «Сезам» 45
4.6 Тестирование системы и выводы 47
Вывод 49
Заключение 51
Список цитируемой литературы 52
Приложение
📖 Введение
С каждым днем увеличивается количество пользователей интернета, глобальный прирост аудитории сильно заметен в социальных сетях (см. приложение 1). Недавнее исследование, проведенное аналитической компанией «We Are Social» совместно с «Hootsuite», опубликовали следующие результаты :
• В 2018 году количество пользователей всемирной паутины достигло более четырех миллиарда человек, что на 7% больше по сравнению с прошлым годом;
• Социальными сетями пользуются 3.196 миллиардов человек, данный показатель превышает оценку 2017 года на 13%;
• Мобильными устройствами в 2018 году пользуются свыше пяти миллиардов людей, что на 4% больше показателей прошлого года.
В России количество активных интернет-пользователей составляет 87 миллионов человек. Приблизительно 47% населения зарегистрировано в различных социальных сетях, большая часть которых отдает свое предпочтение социальной сети «ВКонтакте».
С увеличением пользователей стали активно развиваться и разрабатываться различные интернет-сообщества, социальные сети, интернет-магазины, а также мобильные приложения.
Необходимо выделить мобильные приложения и социальные сети, которые стали неотъемлемой частью нашего современного общества. При помощи этих ресурсов люди обмениваются новостями, сообщениями высказывают свою точку зрения о различных аспектах жизни.
Всемирно известные организации, компании, университеты разрабатывают свои личные веб-страницы, сообщества, блоги. Они размещают свои товары, услуги, предложения, и решения различных задач, затем, при помощи мониторинга определяется мнение общества о предложенной ими информации.
Учитывая вышеперечисленное, есть потребность в разработке программного обеспечения, для выполнения автоматического анализа предложенной обществом информации для выявления отношения людей к данным товарам и услугам. Чтобы распознать мнение, изложенное пользователем в своем тексте, т.е выявить отрицательную или положительную окраску текста, требуется выполнить анализ тональности текста.
Сентимент анализ (англ. sentiment analysis, анализ тональности текста, эмоциональная окраска текста) — обработка естественного языка (англ. NLP, natural language processing,), цель которого является извлечение эмоционального содержания из текста .
✅ Заключение
В ходе данной работы были решены следующие задачи:
1. Исследование предметной области: существующие методы и подходы для реализации сентимент анализа;
2. Рассмотрены часто используемые алгоритмы и инструменты для классификации данных;
3. Протестировано несколько инструментов для автоматического определения эмоциональной окраски русскоязычного текста;
4. Реализован инструмент для автоматического сбора данных с публичных сообществ социальной сети «ВКонтакте»;
5. Для выявления взаимосвязей между сообществами строится визуальный граф;
6. Полученные данные, по средствам существующих инструментов классифицируются на классы: негативные, позитивные и нейтральные;
7. Разработан пользовательский интерфейс для работы с программным обеспечением;
8. На тестовой выборке из системы обмена сообщениями «Сезам» —
приложение для людей с нарушениями письма или речи, был реализован наивный байесовский классификатор. Полученное программное обеспечение определяет сентимент анализ. Для
использования программы создан простой пользовательский интерфейс.
Учитывая полученные результаты, можно прийти к выводу, что поставленные задачи в текущей работе полностью выполнены.



