Введение 3
Глава 1. Постановка задачи 5
Глава 2. Создание скрипта на R 6
Глава 3. Соединение R и Visual Studio 10
Глава 4. Интерфейс 11
Глава 5. Анализ результатов 15
Заключение 25
Литература 27
Приложение 28
Тональность — это эмоциональное отношение автора высказывания к некоторому объекту, выраженное в тексте. Анализ тональности текста - класс методов контент-анализа в компьютерной лингвистике, предназначенный для автоматизированного обнаружения в текстах эмоционально окрашенной лексики, а также для эмоциональной оценки отношения авторов к объектам, о которых идет речь в тексте.
В современном мире наш выбор часто зависит от мнения других людей. Заказывая товар в интернет-магазине, собираясь посетить кафе или ресторан, мы советуемся с друзьями, читаем отзывы на различных сайтах. Решая за кого голосовать и выбирая ВУЗ, интересуемся мнением других людей. Эта информация представляет интерес для социологов, маркетологов и других специалистов. Кроме того, для владельцев интернет-ресурсов жизненно важно знать мнение пользователей - будь это мнение относительно сделанного на вашем портале нововведения, свежей новости на вашем сайте или оценка пользователями товара в вашем интернет-магазине.
Все вышесказанное говорит об актуальности задачи анализа тональности текста. Однако встает проблема выбора сервиса, на основе которого будет производиться анализ.
Социальная сеть — платформа, онлайн сервис или веб-сайт, предназначенные для построения, отражения и организации социальных взаимоотношений. В настоящее время социальные сети, такие как Twitter, Facebook, ВКонтакте, являются самой популярной, доступной широкой общественности, бесплатной площадкой для высказывания мыслей на различные темы. В миллионах постов ежедневно кроется огромное количество различной информации.
Twitter - социальная сеть для публичного обмена сообщениями при помощи веб-интерфейса, средств мгновенного обмена сообщениями или сторонних программ-клиентов для пользователей интернета любого возраста. Он так же является отличным источником данных для проведения интеллектуального анализа текстов: начиная с логики поведения людей, заканчивая предсказанием трендов на рынке ценных бумаг. Здесь кроется огромный массив информации для контекстуального и интеллектуального анализа текстов.
Цель данной данный работы - создание программы, предназначенной для представления наглядного результата анализа тональности высказываний в Twitter.
Для реализации программы были использованы следующие средства разработки:
• Языки программирования R и C#
• Среда разработки Visual Studio
• Twitter API
• Различные библиотеки для работы с R и Twitter API.
В итоге работы была создана интуитивно понятная программа для анализа тональности высказываний в Twitter на любую тему. С помощью данного приложения был произведен анализ двух различных тем, с обработкой трех различных выборок для каждой из тем, а также трех негативно окрашенных запросов.
Однако не все изначальные цели были достигнуты. Из-за изменения политики Twitter, пришлось отказаться от анализа тем в различные периоды времени. Данная проблема не позволяет увидеть полную картину и не дает возможность полностью проанализировать мнение общественности.
Так же поставлена цель поиска или создания словарей эмоционально окрашенных слов, в первую очередь, для русского языка. Это необходимо по той причине, что по многим вопросам важно знать мнение граждан нашей страны, создающих контент на русском языке.
Говоря о результатах анализа различных тем в данной работе, необходимо отметить, что они оказались весьма интересными и полезными для дальнейшей работы с ними.
Кроме того, стало ясно, что подобный метод анализа, рассмотренный при создании программы, не всегда может быть эффективен и давать точное представление о текущей ситуации в мире. Он может дать неверное представление об эмоциональной окраске текста в условиях, когда многие слова могут быть и негативными, и позитивными в зависимости от контекста. Следовательно, необходимо найти другие способы анализа.
Во-первых, нужны более актуальные и большие словари эмоционально окрашенных слов, так как использованные нами словари были написаны в 2004 году, а с тех пор прошло достаточно много времени.
Во-вторых, важно использовать различные методы анализа. Машинное обучение с учителем и без учителя, метод, основанный на теоретико-графовых моделях, очень полезны при анализе тональности текста. Оба этих метода станут основой для дальнейшего изучения и работы в области анализа тональности текста.
Так как подобный анализ мнения общественности с помощью социальных сетей является весьма актуальным в современном мире, то невозможно остановится на достигнутом и важно продолжить работу.
Таким образом, были явлены перспективы и поставлены цели для дальнейшего развития в данной области.