Введение 3
1. Постановка цели и задач 5
2. Описание предметной области 6
2.1. Анализ тональности 7
2.1.1. Классы 7
2.1.2. Методы определения тональности текста 9
2.2. Web-mining 10
2.2.1. Категории Web-mining 11
2.3. REST API 12
2.3.1. APITwitter 13
2.4. Формат JSON 13
2.5. Twitter 15
2.4. Статистический пакет R 15
2.5. Vusial Studio 17
3. Описание программных модулей программы 19
3.1. Подключение библиотек 19
3.2. Получение данных из социальной сети Twitter 20
3.3. Получения ключевого слова и поиск твитов 20
3.4. Загрузка словарей 21
3.5. Получения текстов твитов 22
3.6. Функция очищения текста 22
3.7. Анализ твитов 23
3.8. Удаление общих слов и построения облака точек 26
3.8.1. Стемминг 27
3.9. Анализ и построение графика часто встречающихся слов 29
3.10. Запись результатов в Excel-файл 31
3.11. Создание оконного приложения 33
4. Заключение 34
5. Список использованной литературы 35
6. Приложение 36
С каждым днём мнение общественности становится наиболее эффективным индикатором экономического социального и политического состояния, как в мире, так и обыденной жизни людей. Контроль этого индикатора помогает планировать стратегии развития той или иной сферы или оценить отношения общества по той или иной теме. В связи с этим, мониторинг общественного мнения является важнейшим и актуальным инструментом управления, который применяют различные государственные и коммерческие структуры.
Все больше и больше информационные технология и интернет проникают в различные сферы жизни общества. Глобальная сеть представляет собой социальное пространство, где люди объединяются в группы, получают информацию и высказывают свои мнения то различным поводам и событиям, происходящих в мире.
Тексты и комментария становятся проводником социального воздействия и коммуникации. Анализ и изучения комментариев и текстов открывают возможность узнать,о чём пишут в виртуальном пространстве, что вызывает особый интерес и какой окрас имеет отношения общества в настоящий момент по происходящему.
Специфика работы с данными из сети Интернет несёт в себе целый ряд плюсов и минусов. К плюсам относится скорость доступа к информации, охват аудитории, различный спектр мнений и их объём.
Миллиарды постов, твитови комментариев не представляют возможность проведения полного анализа общественного мнения. Этот факт указывает на необходимость автоматизированного интеллектуального анализа, позволяющий за короткий срок обработать большой поток информации и проанализировать результаты.
Актуальность работы обусловлена важностью разработки программы, которая позволила бы автоматизировать мониторинг общественного мнения.
В данной работе был проведен разбор тональности высказываний в социальной сети Twitter по ключевому слову. Для анализа использовался метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики. Метод был реализован в виде скрипта на языке R
Для достижения данной цели были выполнены задачи:
• Изучение материалов по Web-mining.
• Зарегистрировали аккаунт разработчика Twitter и получили необходимые ключи.
• Установлен пакет twitteR, предоставивший набор функций для работы с Twitter API из статистического пакета R.
• Реализовали скрипт на языке R, который позволил собрать твиты.
• Произвели стемминг
• Провели подсчет позитивных и негативных слов в полученной выборке.
• Создали облако слов и график.
• Сохранили результаты в базе данных.
• Создать оконного приложения для конечного пользователя.
Приложение выполняет поиск по заданному слову, которое вводится в окне и результатов выдаёт три картинки.
1. Pang B., Lee L. Opinion Mining and Sentiment Analysis.// N.Y.:Now Publishers Inc., 2008-148 с.
2. Котельников Е. В. Распознавание эмоциональной составляющей в текстах: проблемы и подходы / Е. В. Котельников, М. В. Клековкина,
Т. А. Пескишева, О. А. Пестов; под.ред. С. М. Окулова. - Киров: Изд-во ВятГГУ, 2012. - 103 с.
3. Интересные публикации /_Хабрахабр: [Электронный ресурс] URL: https: //habrahabr.ru
4. Интересные публикации /_Хабрахабр: [Электронный ресурс] URL: https: //habrahabr.ru