Тип работы:
Предмет:
Язык работы:


ОЦЕНКА ЭМОЦИОНАЛЬНОЙ ОКРАСКИ СЛОВОСОЧЕТАНИЙ В ПОСТАХ СОЦИАЛЬНОЙ СЕТИ «ВКОНТАКТЕ» МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Работа №125810

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы84
Год сдачи2023
Стоимость4940 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
45
Не подходит работа?

Узнай цену на написание


ОГЛАВЛЕНИЕ 2
ВВЕДЕНИЕ 3
ГЛАВА 1. ЛИНГВИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ КАТЕГОРИИ ЭМОЦИОНАЛЬНОСТИ 7
1.1 Теоретические подходы к исследованию эмоциональности 7
1.2 Модели эмоций и тональности 10
1.3 Методы определения эмоций в тексте 14
1.4 Метрики оценки качества моделей классификации 23
ГЛАВА 2. ИССЛЕДОВАНИЯ КОРПУСОВ СОЦИАЛЬНЫХ СЕТЕЙ В ОБЛАСТИ ТОНАЛЬНОЙ И ЭМОЦИОНАЛЬНОЙ ОЦЕНКИ 27
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ ПОСТОВ И СЛОВОСОЧЕТАНИЙ 33
3.1 Сбор и разметка экспериментального корпуса эмоционально окрашенных
текстов 33
3.2 Эксперименты по автоматической классификации постов методами
машинного обучения 43
3.3 Результаты оценки эмоциональной окраски текста постов 45
3.4 Модель на основе rubert-tiny2 51
3.5 Оценка эмоциональной окраски словосочетаний 52
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 62
ПРИЛОЖЕНИЕ А. СПИСОК ПОПУЛЯРНЫХ ГРУПП «ВКОНТАКТЕ» НА 5 ФЕВРАЛЯ 2023 ГОДА 68
ПРИЛОЖЕНИЕ Б. ВИЗУАЛИЗАЦИЯ СЛОВОСОЧЕТАНИЙ ДЛЯ КЛАССОВ ЭМОЦИЙ И ТОНАЛЬНОСТИ 74
ПРИЛОЖЕНИЕ В. МЕТРИКИ ОЦЕНКИ КАЧЕСТВА КЛАССИФИКАЦИИ ДЛЯ МЕТОДОВ С НАИЛУЧШИМИ ПОКАЗАТЕЛЯМИ


На данный момент общение в интернете, в частности общение в социальных сетях, является значимой частью жизни многих людей. В социальной сети чаще происходит неформальное эмоционально окрашенное общение, поэтому текст сообщений, размещённых в публичном пространстве, можно использовать для оценки эмоциональной окраски текста. Уже не одно десятилетие до статочно много внимания исследователи уделяют анализу тональности и эмоциональной окраски текста и речи. В данной работе представлено исследование по оценке эмоциональной окраски постов и словосочетаний в этих постах в социальной сети «ВКонтакте».
Актуальность работы обуславливается интересом автора и научного сообщества к рассмотрению эмоциональной окраски текста с лингвистической точки зрения, а также значительным вниманием исследователей к задаче анализа тональности текстов. Оценка эмоциональной окраски текстов имеет множество практических применений, например, в маркетинге, в приложениях при работе с клиентами, в политологии при работе с политически окрашенными текстами, в здравоохранении. Изучается потенциал анализа эмоций для выявления и предотвращения различных форм онлайн-злоупотреблений, например, запугивания пользователей. Кроме того, растёт интерес к тому, как эмоции передаются в разных языках и культурах, и как это может повлиять на оценку эмоциональной окраски различной информации [28]. Большой интерес исследователей вызывает межъязыковой анализ тональности [42].
Новизна исследования заключается в том, что выделены классы эмоций с учётом тональности для коротких текстов сообщений на основе эмодзи из социальной сети «ВКонтакте» для русского языка и проведены эксперименты по оценке качества методов машинного обучения на данных с выделенными классами. В данном исследовании предлагается комбинация тонального анализа и анализа эмоций, адаптированная шкала эмоций, выражение эмоций на уровне выделенных словосочетаний. Новизна представленной в исследовании разметки заключается в том, что используются эмодзи в качестве основания для разметки.
Эмодзи — это цифровые изображения или значки, которые используются в текстовых сообщениях в различных социальных сетях, в том числе «ВКонтакте». Язык эмодзи своего рода графический язык, где вместо слов используются сочетания картинок. Впервые эмодзи появились в Японии и распространились по всему миру. В настоящее время использование эмодзи до статочно популярно и доступно в самых разных стилях и дизайнах. Популярность эмодзи обусловлена тем, что они могут передавать эмоции и добавлять контекст к текстовому общению. В некоторых случаях эмодзи помогают преодолевать языковые барьеры и делают общение более доступным среди людей, которые владеют разными языками.
Объектом исследования является эмоционально-оценочный компонент в постах социальной сети «ВКонтакте». Пост в социальной сети — это публикация информации, которой делятся пользователи социальной сети. В данном исследовании рассматривается текстовая информация. Предметом исследования являются лингвистические средства выражения эмоциональной оценки содержания постов, прежде всего, на уровне словосочетаний.
Целью исследования является изучение возможностей определения эмоциональной окраски текста постов и словосочетаний в них на русском языке методами машинного обучения, используя текстовые данные, собранные из публичных сообществ в социальной сети «ВКонтакте».
Для достижения цели исследования необходимо было выполнить следующие задачи:
1) собрать текстовые данные постов из социальной сети «ВКонтакте»;
2) выполнить отбор постов, наиболее подходящих для цели исследования;
3) провести оценку используемых в собранных данных эмодзи, распределить их по классам эмоций и тональности;
4) автоматически разметить выбранные данные по сформированным классам эмоций и тональности;
5) выделить словосочетания из текста постов, которые распределены по классам эмоций и тональности;
6) провести эксперименты с помощью методов машинного обучения таких как, логистическая регрессия (Logistic Regression), наивный байесовский классификатор (Gaussian NB), метод опорных векторов (SVM), градиентный бустинг (Gradient Boosting), случайный лес (Random Forest), классификатор дерева решений (Decision Tree Classifier), также провести эксперименты нейросетевыми методами (одномерная свёрточная нейросеть CNN, рекуррентная нейросеть LSTM и рекуррентная нейросеть GRU);
7) провести оценку результатов экспериментов по метрикам качества F1-меры;
8) сделать выводы о возможности оценки эмоциональной окраски текста постов и словосочетаний в них методами машинного обучения.
Материалом исследования являются посты на русском языке в социальной сети «ВКонтакте» и словосочетания, которые встречаются в этих постах. Посты получены с помощью открытого API (Application Programming Interface), которым можно пользоваться для сбора данных. Данные взяты из 100 наиболее популярных сообществ «ВКонтакте» на 5 февраля 2023 года. Статистика по самым популярным сообществам взята с сайта «TOPPOST» . Со списком выбранных групп можно ознакомиться в Приложении А. Выбор постов из социальной сети «ВКонтакте» в качестве материала исследования обусловлен тем, что данная социальная сеть является популярной платформой, которой пользуются русскоязычные пользователи. В постах пользователи выражают собственное мнение и открыто взаимодействуют посредством различных реакций (лайки, комментарии, репосты). Данное исследование выполнено на материале русского языка.
В качестве методов исследования выбраны методы машинного о бучения (логистическая регрессия (Logistic Regression), наивный байесовский классификатор (Gaussian NB), метод опорных векторов (SVM), градиентный бустинг (Gradient Boosting), случайный лес (Random Forest), классификатор дерева решений (Decision Tree Classifier)) и нейросетевые методы (одномерная свёрточная нейросеть CNN, рекуррентная нейросеть LSTM и рекуррентная нейросеть GRU), которые в последнее время активно применяются в задачах анализа тональности, в частности для определения эмоций в тексте.
Теоретическая значимость исследования состоит в систематизации приёмов анализа эмоциональной окраски и тональности текста с учётом экстралингвистический маркеров (эмодзи). Практическая значимость состоит в том, что в результате исследования был получен набор данных с разметкой эмоций, который может быть использован как эталон для оценки эффективности работы новых моделей и алгоритмов, создаваемых для решения рассматриваемой проблемы.
Структура работы включает в себя введение, 3 главы, заключение, список литературы из 59 наименований и 3 приложения.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В ходе данного исследования было предложено решение проблемы оценки эмоциональной окраски русскоязычного текста постов и словосочетаний в этих постах методами машинного обучения с использованием размеченных на основе эмодзи текстовых данных, собранных из публичных групп в социальной сети «ВКонтакте», тем самым, поставленная цель была достигнута.
В данной работе представлена оценка эмоциональной окраски постов и словосочетаний в них из социальной сети «ВКонтакте», описан процесс получения, обработки и использования полученного набора данных . Приводятся результаты экспериментов с использованием методов машинного обучения с оценкой работы методов по метрикам качества классификации. По оценке качества классификации текста постов и словосочетаний в них лучший результат по метрике Fl-мера macro = 69.70% показала модель BoW +VotingClassifier (soft) (мешок слов + ансамблевый метод с мягким голосованием) на лемматизированном тексте c пунктуацией и с эмодзи. Лучшие результаты по метрике качества классификации F1-мера weighted получены для модели рекуррентной нейросети GRU F1-мера weighted = 83.74% и дообученной модели на основе rubert-tiny2 F1-мера weighted = 92.92%.
С практической точки зрения, результаты исследования могут быть использованы для анализа мнений, анализа отзывов клиентов, мониторинга социальных сетей. Оценка эмоциональной окраски текста может быть полезна во многих ситуациях, например, для того, чтобы понять какое настроение выражено в тексте. Понимая эмоции, выраженные в тексте, организации могут лучше учитывать потребности и предпочтения своих клиентов и соответствующим образом скорректировать стратегии своей деятельности. Понимание эмоций можно использовать в личном общении, чтобы оценить настроение человека и отреагировать соответствующим образом. В целом, оценка эмоциональной окраски текста может помочь улучшить общение, укрепить отношения и принимать более взвешенные решения.
Так как эксперты не размечали полученные данные, а использовалась автоматическая разметка постов на основании встречающихся в этих постах эмодзи, в дальнейшем планируется провести экспертную оценку полученной автоматической разметки постов по выделенным классам. Дальнейшие планы связаны с проведением экспериментов на сбалансированных данных. В будущем можно продолжить исследование с использованием текстов с другими параметрами по количеству эмодзи и токенов в тексте.



1. Арнольд И.В. Стилистика. Современный английский язык: Учебник для вузов. - 7-е изд. / И.В. Арнольд. - М.: Флинта: Наука, 2005. - 384 с.
2. Балли Ш. Общая лингвистика и вопросы французского языка / nep. c 3-го фр. изд. Вентцель Е.В., Вентцель Т.В. - М., 1955. - 416 с.
3. Басина П., Гойко В., Петров Е., Бакулин В. Классификация публикаций сообществ «ВКонтакте» для оценки качества жизни населения. // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2022», 2022.
4. Ван Дейк Т.А. Язык. Познание. Коммуникация / Т.А. Ван Дейк. - М.: Высшая школа, 1989. - 307 с.
5. Верхоляк О. В. Автоматическое распознавание эмоциональных состояний дикторов по голосовым характеристикам и тональности текста высказывания : Дис. ... канд. технич. наук 05.13.17 / Верхоляк О.В. - СПб, 2021. - 331 с.
6. Вилюнас В.К. Основные проблемы психологической теории эмоций // Психология эмоций. Тексты. - М., 1984.
7. Дале Д. Маленький и быстрый BERT для русского языка, url: https:// habr.com/ru/post/562064/, дата обр. 6.05.2023.
8. Дале Д. Рейтинг русскоязычных энкодеров предложений, url: https:// habr.com/ru/articles/669674/, дата обр. 6.05.2023.
9. Додонов Б. И. Эмоция как ценность. - М.: Политиздат, 1977. - 272 с.
10. Зайнульдинов А.А., Керо Хервилья Э. Ф. Лексикографическое описание эмоционально-оценочной лексики в русском и испанском языках // Вопросы языкознания. - 2019. - №2. - с. 96-110.
11. Ионова С.В. Лингвистика эмоций: основные проблемы, результаты и перспективы // Язык и эмоции: личностные смыслы и доминанты в речевой деятельности. Сб. науч. труд. - Волгоград: ВГПУ, ЦОП «Центр», 2004. - с.5.
12. Калабихина И.Е., Лукашевич Н.В., Банин Е.П., Алибаева К.В. Автоматический анализ репродуктивных ценностей сети ВКонтакте // XII Международная научная конференция «Интеллектуальные системы и компьютерные науки», 2021.
13. Кузнецова Е. С., Лукашевич Н. В., Четверкин И. И. Тестирование правил для системы анализа тональности // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2013», 2, 2013, 71-80.
14. Кулагин Д.И. Открытый тональный словарь русского языка КартаСловСент // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 20, М.: Изд-во РГГУ, 2021. — С. 1106-1119.
15. Куратов Ю., Архипов М. Адаптация глубоких двунаправленных многоязычных моделей на основе архитектуры Transformer для русского языка // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019», 2019.
16. Никитин М. В. Лексиче ско е значение слова (структура и комбинаторика). - М., Высшая школа, 1983.
17. Носенко Э. Л. Эмоциональное состояние и речь. - Киев : Вища школа, 1981. - 195 с.
18. Осовский Н. Precision и recall. Как они соотносятся с порогом принятия решений?, url: https://habr.com/ru/articles/661119/, дата обр. 6.05.2023.
19. Петрова Ю.А. К проблеме перевода эмотивной лексики // ЯЗЫК И КУЛЬТУРА: Сборник статей XXIX Международной научной конференции (16-18 октября 2018 г.), Часть 2, Томск: Изд-во Дом Томского государственного университета, 2019. — С. 241-246.
20. Прудникова И. А. Типологии эмоциональных единиц применительно к лингвистическому исследованию // Наука и современность. - 2011. - с. 119-124.
21. Стадульская Н.А. Эмоционально-оценочный и экспрессивный компоненты в семантике прагматонимов // Вестник Томского государственного педагогического университета. - 2007. - №4. - с. 36-41.
22. Чернышевич М. В. Система атоматического сентимент-анализа текстов на английском языке: Дис. ... канд. филол. наук 10.02.21 / Чернышевич М.В. - Минск, 2019. - 145 с.
23. Шаховский В.И. Категоризация эмоций в лексико-семантической системе языка. - М.: Книжный дом «ЛИБРОКОМ», 2019. - 206 с.
24. Шаховский В.И. Эмотивный компонент значения и методы его описания: учебное пособие к спецкурсу. - Волгоград: Изд. ВГПИ им. А.С. Серафимовича, 1983. - 96 с.
25. Шмелёв Д. Н. Проблемы семантического анализа лексики (На материале рус. яз.) — М. : Наука, 1973.
26. Якобсон Р Лингвистика и поэтика // Структурализм: «за» и «против». - М., 1975. - с. 193-227.
27. Belchikov, A. Russian language toxic comments, url: https:// www.kaggle.com/blackmoon/russian-language-toxic-comments., дата обр. 6.05.2023.
28. Calvo, R. A., D'Mello, S. Affect detection: An interdisciplinary review of models, methods, and their applications // IEEE Transactions on affective computing, 1(1), 2010, 18-37.
29. Devlin, J., Chang, Ming-Wei, Lee, K., Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 2019, 4171¬4186.
30. Ekman P. An argument for basic emotions // Cognition Emotion, vol. 6, nos. 3-4, pp. 169-200, May 1992.
31. Fahim Anzum, Gavrilova M.L. Emotion Detection from Micro-Blogs Using Novel Input Representation // IEEE Access, Volume 10, 2022.
32. Frank, E., Bouckaert, R. Naive bayes for text classification with unbalanced classes // In: Furnkranz, J. et al. (eds.) Knowledge discovery in databases: PKDD 2006. pp. 503-510. Springer Berlin Heidelberg, Berlin, Heidelberg, 2006.
33. HaCohen-Kerner Y., Miller D., Yigal Y. The influence of preprocessing on text classification using a bag-of-words representation // PloS one, vol. 15, no. 5, 2020.
34. Howard J., Ruder S. Universal language model fine-tuning for text classification // in Proc. 56th Annu. Meeting Assoc. Comput. Linguistics, vol. 1, 2018, pp. 328-339.
35. Johnson-Laird P. N., Oatley K. The Language of Emotions: An Analysis of a Semantic Field // Cognition and Emotion. - 1989. - V.3 - p.81-123.
36. Joshi, A., Bhattacharyya, P., Carman, M. Automatic sarcasm detection: A survey // ACM Computing Surveys (CSUR), 50:5, 2017, 1-22.
37. Kiritchenko, S., Zhu, X., Mohammad, S. Sentiment analysis of short informal texts // Journal of Artificial Intelligence Research, 50, 2014, 723-762.
38. Kollias D., Zafeiriou S. Exploiting multi-CNN features in CNN-RNN based dimensional emotion recognition on the OMG in-the-wild dataset // IEEE Transactions on Affective Computing, vol. 12, no. 3, pp. 595-606, 2020.
39. Loukachevitch, N., Levchik, A. Creating a general Russian sentiment lexicon // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 2016, 1171-1176.
40. Mikolov, T. et al. Distributed representations of words and phrases and their compositionality // In: Proceedings of the 26th international conference on neural information processing systems—volume 2. pp. 3111-3119. Curran Associates Inc., Red Hook, NY, USA, 2013.
41. Ortony A., Turner T.J. What’s Basic About Basic Emotions? // Psychological Review. - 1990. - No. 3. - P. 315-331.
42. Pandurang Thakkar, Gaurish. Cross-lingual sentiment analysis of official EU Slavic languages // Doctoral thesis, 2022.
43. Pang, B., Lee, L., Vaithyanathan, S. Thumbs up? Sentiment Classification using Machine Learning Techniques // Proceedings of Conference on Empirical Methods in Natural Language Processing EMNLP- 2002, 2002, 79-86.
44. Plutchik R. A general psychoevolutionary theory of emotion // in Theo-ries of emotion. Elsevier, 1980, pp. 3-33.
45. Ps S., Mahalakshmi G. Emotion models: a review // International Journal of Control Theory and Applications, vol. 10, no. 8, pp. 651-657, 2017.
46. Qaiser S., Ali R. Text mining: use of TF-IDF to examine the relevance of words to documents // International Journal of Computer Applications, vol. 181, no. 1, pp. 25-29, 2018.
47. Osgood С E., Suci G, Tannenbaum P The Measurement of Meaning// Semantic Differential Technique. Chicago, 1968.
48. Rubtsova, Y. A method for development and analysis of short text corpus for the review classification task // Proceedings of conferences Digital Libraries: Advanced Methods and Technologies, Digital Collections (RCDL’2013). Pp. 269-275, 2013.
49. Russell J.A. A circumplex model of affect // Journal of Personality and Social Psychology, vol. 39, no. 6, p. 1161, 1980.
50. Russell J. A., Mehrabian A. Evidence for a three-factor theory of emotions // Journal of Research in Personality, vol. 11, no. 3, pp. 273-294, 1977.
51. Saif M. Mohammad. Sentiment Analysis: Automatically Detecting Valence, Emotions, and Other Affectual States from Text // To Appear as a Book chapter in The 2nd Edition of Emotion Measurement, Elsevier, 2021.
52. Sang-Bum Kim et al. Some effective techniques for naive bayes text classification // IEEE Transactions on Knowledge and Data Engineering. 18, 11, 1457-1466, 2006.
53. Saravia E., Toby Liu H., Huang Y., Wu J., Chen Y. CARER: Contextualized Affect Representations for Emotion Recognition // In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3687-3697, Brussels, Belgium. Association for Computational Linguistics, 2018.
54. Sboev, A., Naumov, A., Rybka, R. Data-Driven Model for Emotion Detection in Russian Texts // 2020 Annual International Conference on Brain- Inspired Cognitive Architectures for Artificial Intelligence: Eleventh Annual Meeting of the BICA Society, Procedia Computer Science 190, 2021, 637-642.
55. Smetanin S. Toxic Comments Detection in Russian // Computational Linguistics and Intellectual Technologies, Proceedings of the International Conference «Dialogue 2020», 2020.
56. Sun C., Qiu X., Xu Y., Huang X. How to fine-tune BERT for text classification? // in Chinese Computational Linguistics, M. Sun, X. Huang, H. Ji, Z. Liu, and Y. Liu, Eds. Cham, Switzerland: Springer, 2019, pp. 194-206.
57. Svetlov K., Platonov K. Sentiment analysis of posts and comments in the accounts of Russian politicians on the social network // in Proc. 25th Conf. Open Innov. Assoc. (FRUCT), Nov. 2019, pp. 299-305.
58. Wierzbizcka A. Emotions Across Languages and Cultures: Diversity and Universals (Studies in Emotion and Social Interaction). - 1st ed. - Cambridge University Press, 1999. - 361 p.
59. Zhang, L., Wang, S., Liu, B. Deep learning for sentiment analysis: A survey // Wiley Reviews: Data Mining and Knowledge Discovery, 8:4, 2018.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ