Тип работы:
Предмет:
Язык работы:


АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА В TWITTER

Работа №34561

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы52
Год сдачи2019
Стоимость6500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
621
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Анализ тональности 3
1.1. Подходы к определению тональности текста 5
1.2. Социальная сеть Twitter как площадка мнений 5
1.3. Постановка задачи 6
Глава 2. Алгоритмы и модели 9
2.1. Последовательность действий, необходимая для написания программы
для анализа тональности твитов 9
2.2. Препроцессинг твитов 9
2.3. Методы классификации текста 11
2.3.1. Наивный байесовский классификатор 11
2.3.2. Модель логистической регрессии 14
2.3.3. Метод опорных векторов 15
2.4. Инструменты, используемые при разработке алгоритмов определения тональности текста 17
Глава 3. Процесс и результаты практического использования разработки 19
3.1. Точность и сравнение разработанных алгоритмов при разных типах
тренировочной выборки 19
3.2. Построение облака слов 22
3.3. Анализ тональности мирового события 23
3.4. Пользовательский интерфейс 36
Заключение 39
Список литературы 40
Приложение


С момента своего появления, социальные сети стали стремительно набирать популярность. Сегодня миллионы людей делятся впечатлениями об окружающем мире со своими знакомыми и друзьями. Благодаря повсеместному распространению беспроводных сетей и мобильного интернета, пользователи могут отправлять сообщения почти в любой удобный для них момент. Так, например, журналисты ведут текстовые репортажи с мест событий в реальном времени, туристы пишут о своих путешествиях из любой точки планеты.
По данным Twitter, на конец 2018 года среднее количество пользователей, которые ежедневно заходят в социальную сеть составляет 126 миллионов человек. Количество пользователей, которые посещают социальную сеть хотя бы один раз в месяц, оценивается в 321 миллионов человек.
Таким образом, сервисы с элементами социальных сетей можно характеризовать как крайне информативный открытый источник актуальной информации, а объемы генерируемых сообщений делают невозможным обработку этих данных человеческими силами. Одной из наиболее актуальных задач в области анализа текстовых сообщений в сайтах с элементами социальных сетей является задача распознавания эмоциональной окраски текста, которая позволяет извлечь из текстовой информации полярность мнения человека об объекте высказывания. Анализ тональности текстов применяется в следующих сферах:
• Рекомендательные системы - из отзывов о товарах или услугах выделяются основные характеристики (аспекты), а так же отношение автора к ним (полярность). Далее на основе полученного вектора признаков строится рекомендательная система.
• Выявление отношение клиента к товару либо услуге. Анализ пользовательских оценок по отзывам позволяет оперативно принимать решения
• Мониторинг общественных настроений. Многие сервисы предоставляют возможность публиковать сообщения с точным указанием геолокации, что позволяет анализировать эмоциональную окраску пользователей относительно конкретных географических объектов. Например, на основе данных из Twitter с сентября 2006 по август 2009 была построена статистическая карта настроений населения США, а так же были визуализированы графики изменения настроения в зависимости от времени суток либо дня недели.
• Предсказание результатов политических выборов по сообщениям в социальных сетях, в частности по текстам из Твиттера.
Исследования в области автоматического извлечения мнений проводятся и сейчас, так как на данный момент оптимальное решение для задачи анализа тональности не найдено. Ежегодно проводится множественно международных конференций, посвященных проблемам компьютерной лингвистики в целом и анализу тональности в частности. Например, The Association for Computational Linguistics, International Conference on Application of Information and Communication Technologies и International Conference on Applications of Natural Language to Information Systems. В России также проводят масштабные конференции с акцентом на обработку русскоязычных текстов: Международная конференция по компьютерной лингвистике «Диалог».
Работа состоит из следующих структурных блоков: в первой главе рассмотрены подходы к анализу тональности текста; второй раздел посвящен описанию алгоритмов, выбранных для анализа тональности в рамках данной работы, описана реализация программы. В заключительном разделе описаны процесс и результаты практического использования разработки.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе исследования были разработаны алгоритмы анализа тональности текстов на основе наивного байесовского классификатора, модели логистической регрессии, метода опорных векторов. Данные алгоритмы являются алгоритмами бинарной классификации тональности твитов из социальной сети Twitter на основе встроенной обученной модели. Программное средство включает в себя пользовательский интерфейс, работая с которым, пользователь сможет указать тематику данных, которых он хочет проанализировать с помощью алгоритмов. Была осуществлена оценка эффективности разработанных алгоритмов, которое показало, что алгоритм определения тональности текста на основе метода опорных векторов оказался самым эффективным с точки зрения правильности предсказывания результатов. Также был проведен анализ тональности твитов по определенной тематике - конкурсу песни Евровидение в течение небольшого промежутка времени -
месяца.



1. О компании | About [Электронный ресурс] /Твиттер //Режим доступа: https: //about.twitter.com/ru/company
2. Leung, C. W. Integrating Collaborative Filtering and Sentiment Analysis: A Rating Inference Approach / C. W. Leung, S. C. Chan, F. Chung // Proceedings of The ECAI 2006 Workshop on Recommender Systems. - 2006 - C. 62-66.
3. Mislove, A. Pulse of the Nation: U.S. Mood Throughout the Day inferred from Twitter [Электронный ресурс] / A. Mislove, S. Lehmann, Y. Ahn, J. Onnela,
J. Rosenquist // Northeastern University. - 2012 - Режим доступа: http: //www. ccs. neu. edu/home/amislove/twittermood
4. Shi, L. Predicting US Primary Elections with Twitter [Электронный ресурс] /
L. Shi, N. Agarwal, A. Agrawal, R. Garg, J. Spoelstra // Stanford University. - 2012 - Режим доступа: http://snap.stanford.edu/social2012/papers/shi.pdf
5. Обучаем компьютер чувствам (sentiment analysis по-русски) [Электронный ресурс]/ habr // Режим доступа: https://habr.com/ru/post/149605/
6. Saif H., He Y., Alani H. Alleviating Data Sparsity for Twitter Sentiment Analysis [Электронный ресурс] / Saif H., He Y., Alani H. //Workshop on Making Sense of Microposts, - 2012 - Режим доступа: http://ceur- ws .org/V ol-83 8/paper_01.pdf
7. Go A., Bhayani R., Huang L. Twitter Sentiment Classification using Distant Supervision/ Go A., Bhayani R., Huang L. //Processing , - 2009 -, C. 1-6 .
8. Twitter Streaming API [Электронный ресурс] /TwitterZ/Режим доступа: https://dev.twitter.com/docs/streaming-apis
9. A guide to Text Classification(NLP) using SVM and Naive Bayes with Python[Электронный ресурс] /Medium// Режим доступа:
https://medium.com/@bedigunjit/simple-guide-to-text-classification-nlp-using- svm-and-naive-bayes-with-python-421 db3a72d34
10. Eurovision Song Contest[Электронный ресурс] /Wikipedia// Режим доступа: https://ru.wikipedia.org/wiki/Eurovision
11. Справочная: конфликт США и Huawei - хронология и причины [Электронный ресурс] / habr //Режим доступа:
https: //habr. com/ru/post/453084/
12. Margaret M. Bradley, Peter J. Lang Affective Norms for English Words (ANEW): Instruction Manual and Affective Ratings/ Margaret M. Bradley, Peter J. Lang // NIMH Center for the Study of Emotion and Attention, -1999 -
С. 4-55
13. Making Sentiment Analysis Easy With Scikit-Learn [Электронный ресурс] /twilo BLOGZ/Режим доступа:
https://www.twilio .com/blog/2017/12/sentiment-analysis-scikit-learn.html
14. Another Twitter sentiment analysis with Python—Part 5 (Tfidf vectorizer,
model comparison, lexical approach) Learn [Электронный ресурс] /Towards Data ScienceZ/Режим доступа: https://towardsdatascience.com/another-
twitter-sentiment-analysis-with-python-part-5-50b4e87d9bdd
15. Twitter Sentiment Analysis with full code and explanation (Naive Bayes) [Электронный ресурс] /Medium// Режим доступа: https://medium.com/@koshut.takatsuji/twitter-sentiment-analysis-with-full- code-and-explanation-naive-bayes-a380b38f036b
16. Creating The Twitter Sentiment Analysis Program in Python with Naive Bayes Classification [Электронный ресурс] / Towards Data Science // Режим доступа: https://towardsdatascience.com/creating-the-twitter-sentiment- analysis-program-in-python-with-naive-bayes-classification-672e5589a7ed
17. Метод опорных векторов (SVM) [Электронный ресурс] / data science// Режим доступа: http://datascientist.one/support-vector-machines/
18. Support Vector Machines with Scikit-learn [Электронный ресурс] / DataCamp // Режим доступа:
https://www.datacamp.com/community/tutorials/svm-classification-scikit-
learn-python
19. Linear SVM classification of sentiment in tweets [Электронный ресурс] / kaggle // Режим доступа: https://www.kaggle.com/langkilde/linear-svm- classification-of-sentiment-in-tweets
20. PyQt5: первые программы [Электронный ресурс] / Python 3 для
начинающих // Режим доступа: https://pythonworld.ru/gui/pyqt5-
firstprograms. html
21. Логистическая регрессия и ROC-анализ — математический аппарат /[Электронный ресурс] / BaseGroup Labs Технологии анализа данных// Режим доступа: https://basegroup.ru/community/articles/logistic
22. Как легко понять логистическую регрессию /[Электронный ресурс] / habr // Режим доступа: https://habr.com/ru/company/io/blog/265007/
23. Tweepy - An easy-to-use Python library for accessing the Twitter API /[Электронный ресурс] / Tweepy // Режим доступа: https://www.tweepy.org/


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ