Тип работы:
Предмет:
Язык работы:


Проблема разработки системы оценки тональности сообщений на украинском языке

Работа №71547

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы73
Год сдачи2017
Стоимость4790 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
248
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Обзор предметной области 6
1.1 Применение анализа тональности 6
1.2 Основные понятия 7
1.3 Задачи анализа тональности 11
1.4 Проблемы автоматического определения тональности 14
1.5 Выводы к главе 1 16
Глава 2. Методы автоматического определения тональности 17
2.1 Основные подходы 17
2.2 Методы, основанные на обучении с учителем 19
2.3 Выводы к главе 2 25
Глава 3. SentiStrength как инструмент для анализа тональности 27
3.1. Предпосылки создания SentiStrength 27
3.2. Методы SentiStrength в системе других подходов к анализу тональности 30
3.3. Источник данных для создания SentiStrength 33
3.4. Описание алгоритма SentiStrength 36
3.5 Выводы к главе 3 39
Глава 4. Настройка системы SentiStrength на украинский язык 40
4.1. Обзор предыдущих работ по анализу тональности текстов на украинском языке 40
4.2. Файлы исходных данных системы SentiStrength 41
4.3. Создание словарей для украинского языка 43
4.4. Создание золотого стандарта и обучение программы 44
4.5 Выводы к главе 4 52
Заключение 54
Список литературы 56
Приложение

Анализ тональности текста (сентимент-анализ, англ. Sentiment analysis) — класс методов анализа текста в компьютерной лингвистике, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов относительно объектов в тексте [58].
Мнение окружающих на протяжении многих веков влияло на различные сферы деятельности человека. Однако с распространением интернета это влияние значительно укрепилось. Раньше людям предоставлялась возможность узнать мнение лишь у ограниченного числа собеседников. Теперь же с появлением интернет-магазинов, блогов, социальных сетей, специализированных ресурсов («Яндекс.Маркет», «Epinions.com», «Кинопоиск») пользователи могут обращаться за мнением к большой аудитории.
Крупные компании и организации также активно используют подобные ресурсы для исследования конкурентной среды, наблюдения за состоянием рынка с целью его оценки.
Социальные сети предоставляют исследователям широкое поле для проведения детального анализа мнений пользователей. К примеру, американский проект Pulse of the Nation [61] был создан для того, чтобы в течение дня отслеживать настроение граждан, пользующихся соцсетью Twitter.
«Твиттер» (Twitter) — одна из самых популярных социальных сетей для публичного обмена сообщениями. По состоянию на февраль 2016 года сервис насчитывает около 305 млн активных пользователей. Сообщения настроены на 140 символов для совместимости с SMS-сообщениями.
Целью данной работы является выявление и анализ проблем, связанных с разработкой системы оценки тональности текстов на украинском языке на примере системы SentiStrength. Программа SentiStrength, созданная как часть проекта CyberEmotions, автоматически производит анализ тональности коротких текстов. Она основана на использовании словаря эмоциональной лексики и корректирующих правил.
Для достижения поставленной цели перед нами были поставлены следующие теоретические и практические задачи:
1) изучить применение, задачи и проблемы анализа тональности, а также основные понятия, связанные с ним;
2) рассмотреть основные подходы для решения задач сентимент-анализа;
3) описать основные принципы работы инструмента SentiStrength для анализа тональности;
4) провести настройку программы SentiStrength на украинский язык;
5) оценить эффективность работы программы для украинских текстов.
В работе мы использовали методы машинного обучения и анализа тональности с использованием словарей эмоциональной и оценочной лексики также. Словарь эмоциональных слов украинского языка создавался с помощью экспертов и автоматически. Материалом исследования стала случайная выборка коротких текстов на украинском языке из социальной сети твиттер объёмом 1200 сообщений.
Данная работа имеет большую практическую значимость, так как результаты настройки программы SentiStrength могут быть использованы разработчиками инструмента, что позволит исследователям аудитории носителей украинского языка, а также различным компаниям и организациям использовать данный продукт для анализа текстов на украинском языке.
Новизна работы определяется тем, что в мире пока не существует доступных систем автоматической оценки тональности текстов на украинском языке.
Работа состоит из введения, четырёх глав, заключения, списка литературы и двух приложений. В первой главе даётся подробный обзор предметной области. Во второй главе рассматриваются различные методы определения тональности текстов. В третьей главе подробно описывается работа программы SentiStrength, а также приводятся предпосылки её создания. В четвертой главе работы описывается процесс настройки программы на украинский язык и оценена эффективность системы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Анализ тональности сообщений — это быстро развивающаяся область компьютерной лингвистики, открывающая большие возможности для различных лингвистических, социологических, психологических исследований и перспективы в коммерческом применении.
Программа SentiStrength является эффективным инструментом для оценки силы тональности коротких сообщений, написанных на неформальном языке. Главной причиной достаточно успешной работы алгоритма является возможность распознавания слов с ненормативной орфографией.
Результаты данной работы показали, что анализ сообщений из социальной сети твиттер является довольно непростой задачей в силу изобретательности пользователей в языковых выражениях, передачи тональности без использования эмотивной лексики и различных взглядов на тональность экспертов, кодирующих данные. Последнее означает, что, по-видимому, не существует истинно верной классификации для многих сообщений.
В рамках данной работы были достигнуты следующие результаты:
1) была изучена предметная область анализа тональности текста, было разобрано применение анализа, его задачи и основные методы;
2) был детально описан процесс работы систем программы SentiStrength;
3) был проведен процесс настройки данной системы на украинский язык, улучшение работы алгоритма было достигнуто с применением методов машинного обучения;
4) была проведена оценка результатов работы созданной системы.
При последней оценке работы программы были получены следующие значения точности: 73% и 70% для положительных и отрицательных сообщений соответственно при однозначном совпадении и 82% и 78% для совпадений с разницей в единицу.
Результаты работы были представлены на студенческой конференции филологического факультета СПбГУ в апреле 2017 года.
Полученные данные будут добавлены в систему SentiStrength университета Уольверхэмптон в Великобритании со ссылкой на кафедру математической лингвистики СПбГУ.



1. Клековкина М.В., Котельников Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики (рус.). RCDL-2012, Переславль-Залесский, Россия: конференция, 2012.
2. Котельников Е.В., Клековкина М.В. Автоматический анализ тональности текстов на основе методов машинного обучения.
3. Пазельская А., Соловьев А. Метод определения эмоций в текстах на русском языке. The international conference on computational linguistics and intellectual technologies “Dialogue 2011”: конференция. Москва, 2011. с. 510-522. Что такое тональность.
4. Паничева П. Система сентиментного анализа ATEX, основанная на правилах, при обработке текстов различных тематик. Sentiment Analysis Track at ROMIP, 2012.
5. Поляков П.Ю., Калинина М.В., Плешко В.В. Исследование применимости методов тематической классификации в задаче классификации отзывов о книгах. ООО «ЭР СИ О», Москва, Россия.
6. Романишин М., Романюк А. Тональний словник украшсько! мови на основ1 сентимент-анотованого корпусу. Украшське мовознавство, 2013. Вип. 43, c. 63¬74.
7. Asur Sitaram and Bernardo A. Huberman. Predicting the future with social media. Arxiv preprint arXiv: 1003.5699, 2010.
8. Babbar Rohit, Partalas loannis, Gaussier Eric, Amini Massih-Reza. On Flat versus Hierarchical Classification in Large-Scale Taxonomies.
9. Baccianella, S., Esuli, A., & Sebastiani, F. (2010). SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining. Proceedings of the Seventh conference on International Language Resources and Evaluation, pp. 2200-2204.
10. Balahur, A., Steinberger, R., Kabadjov, M., Zavarella, V., Goot, E. v. d., Halkia, M., Pouliquen, B., & Belyaeva, J. (2010). Sentiment analysis in the news. In Proceedings of the international conference on language, resources and evaluation, pp. 2216-2220. Valletta, Malta.
11. boyd, d. (2008). Taken out of context: American teen sociality in networked publics. University of California, Berkeley, Berkeley.
12. boyd, d. (2008). Why youth (heart) social network sites: The role of networked publics in teenage social life. In D. Buckingham (Ed.), Youth, identity, and digital media, pp. 119-142. Cambridge, MA: MIT Press.
13. Bradley, M. M., & Lang, P. J. (1999). Affective Norms for English Words (ANEW): Stimuli, instruction manual, and affective ratings (Tech. Report C-1). Gainesville: University of Florida, Center for Research in Psychophysiology.
14. Brill, E. (1992). A simple rule-based part of speech tagger. Proceedings of the Third Conference on Applied Natural Language Processing, pp. 152-155.
15. Cha, M., Haddadi, H., Benevenuto, F., and Gummadi, K.P. Measuring User Influence in Twitter: The Million Follower Fallacy. Proceedings of the 4th International AAAI Conference on Weblogs and Social Media (ICWSM), Washington, May 2010.
16. Choi, Y., & Cardie, C. (2008). Learning with compositional semantics as structural inference for subsentential sentiment analysis. Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 793-801.
17. Das, S., & Chen, M. (2001). Yahoo! for Amazon: Extracting market sentiment from stock message boards. Proceedings of the Asia Pacific Finance Association Annual Conference (APFA), Bangkok, Thailand, July 22-25, Дата доступа 28 апреля 2017г из: http://sentiment.technicalanalysis.org.uk/DaCh.pdf.
18. Derks, D., Bos, A. E. R., & von Grumbkow, J. (2008). Emoticons and online message interpretation. Social Science Computer Review, 26(3), pp. 379-388.
19. Fox, E. (2008). Emotion science. Basingstoke: Palgrave Macmillan, p. 127.
20. Freitas A.A., de Carvalho A.C.P.L.F. (2007) Research and trends in data mining technologies and applications: tutorial on hierarchical classification with applications in bioinformatics.
21. Fullwood, C., & Martino, O. I. (2007). Emoticons and impression formation. The Visual in Popular Culture, 19(7), pp. 4-14.
22. Gamon, M., Aue, A., Corston-Oliver, S., & Ringger, E. (2005). Pulse: Mining customer opinions from free text (IDA 2005). Lecture Notes in Computer Science, 3646, pp. 121-132.
23. Ghazi Diman, Inkpen Diana, Szpakowicz Stan. Hierarchical versus Flat Classification of Emotions in Text. Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, pp. 140¬146, Los Angeles, California, June 2010.
24. Joshi Mahesh, Dipanjan Das, Kevin Gimpel, and Noah A. Smith. Movie reviews and revenues: An experiment in text regression. In Proceedings of the North American Chapter of the Association for Computational Linguistics Human Language Technologies Conference (NAACL 2010), 2010.
25. Jurafsky Daniel, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Second Edition. Pearson Education International, 2009. 1024 pp.
26. Kan D. Rule-based approach to sentiment analysis. Sentiment Analysis Track at ROMIP, 2011.
27. Krippendorff, K. (2004). Content analysis: An introduction to its methodology. Thousand Oaks, CA: Sage.
28. Kukich, K. (1992). Techniques for automatically correcting words in text. ACM computing surveys, 24(4), pp. 377-439.
29. Liu Bing. Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers, May 2012.
30. Liu Bing. Sentiment Analysis Tutorial. AAAI-2011, San Francisco, USA.
31. Liu Yang, HuangXiangji, An Aijun, Yu Xiaohui: ARSA: a sentiment-aware model for predicting sales performance using blogs. SIGIR 2007: pp. 607-614.
32. Lobur M., Romaniuk A., Romanyshyn M. Defining an approach for deep sentiment analysis of reviews in Ukrainian. Ысник Нацюнального ушверситету "Льв1вська полггехшка". Комп'ютерн системы проектування. Теорхя i практика, 2012. № 747, с.124-130.
33. Martineau Justin, and Finin Tim. Delta TFIDF: An Improved Feature Space for Sentiment Analysis. Third AAAI Internatonal Conference on Weblogs and Social Media, May 2009, San Jose CA.
34. Neviarouskaya A., Prendinger H., & Ishizuka M. (2007). Textual affect sensing for sociable and expressive online communication. Lecture Notes in Computer Science, 4738, pp. 218-229.
35. O'Connor Brendan, Ramnath Balasubramanyan, Bryan R. Routledge, and Noah A. Smith. From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. In Proceedings of the International AAAI Conference on Weblogs and Social Media (ICWSM 2010), 2010.
36. Oren T., Dmitry D., Ari R. ICWSM. A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews. AAAI Conference on Artificial Intelligence, 2010.
37. Pang B., & Lee L. (2004). Sentimental education: Sentiment analysis using
subjectivity summarization based on minimum cuts. In Proceedings of ACL 2004, pp. 271-278. New York: ACL Press.
38. Pang B., Lee L. Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, v.2 n.1-2, January, 2008, pp. 1-135.
39. Pennebaker, J., Mehl, M., & Niederhoffer, K. (2003). Psychological aspects of natural language use: Our words, our selves. Annual Review of Psychology, 54, pp. 547-577.
40. Pollock, J. J., & Zamora, A. (1984). Automatic spelling correction in scientific and scholarly text. Communications of the ACM, 27(4), pp. 358-368.
41. Riloff, E., Patwardhan, S., & Wiebe, J. (2006). Feature subsumption for opinion analysis. Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp. 440-448.
42. Sadikov Eldar, Aditya Parameswaran, and Petros Venetis. Blogs as predictors of movie success. In Proceedings of the Third International Conference on Weblogs and Social Media (ICWSM-2009), 2009.
43. Stone, P. J., Dunphy, D. C., Smith, M. S., & Ogilvie, D. M. (1966). The general inquirer: A computer approach to content analysis.Cambridge, MA: The MIT Press.
44. Strapparava, C., & Valitutti, A. (2004). Wordnet-affect: an affective extension of wordnet. In Proceedings of the 4th International Conference on Language Resources and Evaluation, pp. 1083-1086. Lisbon.
45. Taboada, Maite, Brooke, Julian, Tofiloski, Milan, Voll, Kimberly, & Stede, Manfred. (2011). Lexicon-based methods for sentiment analysis. Computational Linguistics, 37(2), pp. 267-307.
46. Thelwall, M. (2009). MySpace comments. Online Information Review, 33(1), pp. 58¬76.
47. Thelwall, M., & Buckley, K. (2013). Topic-based sentiment analysis for the Social Web: The role of mood and issue-related words. Journal of the American Society for Information Science and Technology, 64(8), pp. 1608-1617.
48. Thelwall, M., Buckley, K., & Paltoglou, G. (2012). Sentiment strength detection for the social Web, Journal of the American Society for Information Science and Technology, 63(1), pp. 163-173.
49. Thelwall, M., Buckley, K., Paltoglou, G. Cai, D., & Kappas, A. (2010). Sentiment strength detection in short informal text. Journal of the American Society for Information Science and Technology, 61(12), pp. 2544-2558.
50. Thelwall, M., Wilkinson, D., & Uppal, S. (2010). Data mining emotion in social network communication: Gender differences in MySpace. Journal of the American Society for Information Science and Technology, 21(1), pp. 190-199.
51. Tumasjan, Andranik, Timm O. Sprenger, Philipp G. Sandner, and Isabell M. Welpe. Predicting elections with twitter: What 140 characters reveal about political sentiment. In proceedings of the International Conference on Weblogs and Social Media (ICWSM-2010), 2010.
52. Turney, P. D. (2002). Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In: Proceedings of the 40th annual meeting of the Association for Computational Linguistics (ACL), July 6-12, 2002, Philadelphia, PA, pp. 417-424.
53. Velikovich, L.; Blair-Goldensohn, S.; Hannan, K.; and McDonald, R. 2010. The viability of web-derived polarity lexicons. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 777-785. ACL.
54. Wiebe, J., Wilson, T., & Cardie, C. (2005). Annotating expressions of opinions and emotions in language. Language Resources and Evaluation, 39(2-3), pp. 165-210.
55. Wiebe, J., Wilson, T., Bruce, R., Bell, M., & Martin, M. (2004). Learning subjective language. Computational Linguistics, 30(3), pp. 277-308.
56. Wilson, T. (2008). Fine-grained subjectivity and sentiment analysis: Recognizing the intensity, polarity, and attitudes of private states. University of Pittsburgh.
57. Wilson, T., Wiebe, J., & Hoffman, P. (2009). Recognizing contextual polarity: An exploration of features for phrase-level sentiment analysis. Computational linguistics, 35(3), pp. 399-433.
Электронные ресурсы
58. Википедия. Анализ тональности текста:
http: //ru. wikipedia. org/wiki/анализ тональности текста
59. Программа SentiStrength: http: //sentistrength.wlv.ac. uk/
60. Проект Lang-uk: http://lang.org.ua/uk/
61. Проект Pulse of the Nation: http://www.ccs.neu.edu/home/amislove/twittermood/
62. Утилита ReCal: http: //dfreelon. org/util s/recalfront/
63. Хабрахабр. Автоматическое определение тональности текста (Sentiment Analysis): https: //habrahabr.ru/po st/263171/
64. Хабрахабр. Классификация данных методом опорных векторов: https://habrahabr.ru/post/105220/
65. Хабрахабр. Наивный Байесовский классификатор в 25 строк кода: https: //habrahabr.ru/po st/120194/
66. Хабрахабр. Обучаем компьютер чувствам (sentiment analysis по-русски): https://habrahabr.ru/post/149605/
67. Частотный словарь украинского языка:
http: //www.mova.info/freqcard2 .aspx?l 1=178&sl=pb4 all


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ