ВВЕДЕНИЕ 3
ГЛАВА 1. ЛИНГВИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ КАТЕГОРИИ ЭМОЦИОНАЛЬНОСТИ 7
1.1 Теоретические подходы к исследованию эмоциональности 7
1.2 Модели эмоций и тональности 10
1.3 Методы определения эмоций в тексте 14
1.4 Метрики оценки качества моделей классификации 23
ГЛАВА 2. ИССЛЕДОВАНИЯ КОРПУСОВ СОЦИАЛЬНЫХ СЕТЕЙ В ОБЛАСТИ ТОНАЛЬНОЙ И ЭМОЦИОНАЛЬНОЙ ОЦЕНКИ 27
ГЛАВА 3. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ ПОСТОВ И СЛОВОСОЧЕТАНИЙ 33
3.1 Сбор и разметка экспериментального корпуса эмоционально окрашенных
текстов 33
3.2 Эксперименты по автоматической классификации постов методами
машинного обучения 43
3.3 Результаты оценки эмоциональной окраски текста постов 45
3.4 Модель на основе rubert-tiny2 51
3.5 Оценка эмоциональной окраски словосочетаний 52
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 62
ПРИЛОЖЕНИЕ А. СПИСОК ПОПУЛЯРНЫХ ГРУПП «ВКОНТАКТЕ» НА 5 ФЕВРАЛЯ 2023 ГОДА 68
ПРИЛОЖЕНИЕ Б. ВИЗУАЛИЗАЦИЯ СЛОВОСОЧЕТАНИЙ ДЛЯ КЛАССОВ ЭМОЦИЙ И ТОНАЛЬНОСТИ 74
ПРИЛОЖЕНИЕ В. МЕТРИКИ ОЦЕНКИ КАЧЕСТВА КЛАССИФИКАЦИИ ДЛЯ МЕТОДОВ С НАИЛУЧШИМИ ПОКАЗАТЕЛЯМИ 82
На данный момент общение в интернете, в частности общение в социальных сетях, является значимой частью жизни многих людей. В социальной сети чаще происходит неформальное эмоционально окрашенное общение, поэтому текст сообщений, размещённых в публичном пространстве, можно использовать для оценки эмоциональной окраски текста. Уже не одно десятилетие до статочно много внимания исследователи уделяют анализу тональности и эмоциональной окраски текста и речи. В данной работе представлено исследование по оценке эмоциональной окраски постов и словосочетаний в этих постах в социальной сети «ВКонтакте».
Актуальность работы обуславливается интересом автора и научного сообщества к рассмотрению эмоциональной окраски текста с лингвистической точки зрения, а также значительным вниманием исследователей к задаче анализа тональности текстов. Оценка эмоциональной окраски текстов имеет множество практических применений, например, в маркетинге, в приложениях при работе с клиентами, в политологии при работе с политически окрашенными текстами, в здравоохранении. Изучается потенциал анализа эмоций для выявления и предотвращения различных форм онлайн-злоупотреблений, например, запугивания пользователей. Кроме того, растёт интерес к тому, как эмоции передаются в разных языках и культурах, и как это может повлиять на оценку эмоциональной окраски различной информации [28]. Большой интерес исследователей вызывает межъязыковой анализ тональности [42].
Новизна исследования заключается в том, что выделены классы эмоций с учётом тональности для коротких текстов сообщений на основе эмодзи из социальной сети «ВКонтакте» для русского языка и проведены эксперименты по оценке качества методов машинного обучения на данных с выделенными классами. В данном исследовании предлагается комбинация тонального анализа и анализа эмоций, адаптированная шкала эмоций, выражение эмоций на уровне выделенных словосочетаний. Новизна представленной в исследовании разметки заключается в том, что используются эмодзи в качестве основания для разметки.
Эмодзи — это цифровые изображения или значки, которые используются в текстовых сообщениях в различных социальных сетях, в том числе «ВКонтакте». Язык эмодзи своего рода графический язык, где вместо слов используются сочетания картинок. Впервые эмодзи появились в Японии и распространились по всему миру. В настоящее время использование эмодзи до статочно популярно и доступно в самых разных стилях и дизайнах. Популярность эмодзи обусловлена тем, что они могут передавать эмоции и добавлять контекст к текстовому общению. В некоторых случаях эмодзи помогают преодолевать языковые барьеры и делают общение более доступным среди людей, которые владеют разными языками.
Объектом исследования является эмоционально-оценочный компонент в постах социальной сети «ВКонтакте». Пост в социальной сети — это публикация информации, которой делятся пользователи социальной сети. В данном исследовании рассматривается текстовая информация. Предметом исследования являются лингвистические средства выражения эмоциональной оценки содержания постов, прежде всего, на уровне словосочетаний.
Целью исследования является изучение возможностей определения эмоциональной окраски текста постов и словосочетаний в них на русском языке методами машинного обучения, используя текстовые данные, собранные из публичных сообществ в социальной сети «ВКонтакте»...
В ходе данного исследования было предложено решение проблемы оценки эмоциональной окраски русскоязычного текста постов и словосочетаний в этих постах методами машинного обучения с использованием размеченных на основе эмодзи текстовых данных, собранных из публичных групп в социальной сети «ВКонтакте», тем самым, поставленная цель была достигнута.
В данной работе представлена оценка эмоциональной окраски постов и словосочетаний в них из социальной сети «ВКонтакте», описан процесс получения, обработки и использования полученного набора данных . Приводятся результаты экспериментов с использованием методов машинного обучения с оценкой работы методов по метрикам качества классификации. По оценке качества классификации текста постов и словосочетаний в них лучший результат по метрике Fl-мера macro = 69.70% показала модель BoW +VotingClassifier (soft) (мешок слов + ансамблевый метод с мягким голосованием) на лемматизированном тексте c пунктуацией и с эмодзи. Лучшие результаты по метрике качества классификации F1-мера weighted получены для модели рекуррентной нейросети GRU F1-мера weighted = 83.74% и дообученной модели на основе rubert-tiny2 F1-мера weighted = 92.92%.
С практической точки зрения, результаты исследования могут быть использованы для анализа мнений, анализа отзывов клиентов, мониторинга социальных сетей. Оценка эмоциональной окраски текста может быть полезна во многих ситуациях, например, для того, чтобы понять какое настроение выражено в тексте. Понимая эмоции, выраженные в тексте, организации могут лучше учитывать потребности и предпочтения своих клиентов и соответствующим образом скорректировать стратегии своей деятельности. Понимание эмоций можно использовать в личном общении, чтобы оценить настроение человека и отреагировать соответствующим образом. В целом, оценка эмоциональной окраски текста может помочь улучшить общение, укрепить отношения и принимать более взвешенные решения.
Так как эксперты не размечали полученные данные, а использовалась автоматическая разметка постов на основании встречающихся в этих постах эмодзи, в дальнейшем планируется провести экспертную оценку полученной автоматической разметки постов по выделенным классам. Дальнейшие планы связаны с проведением экспериментов на сбалансированных данных. В будущем можно продолжить исследование с использованием текстов с другими параметрами по количеству эмодзи и токенов в тексте.
1. Арнольд И.В. Стилистика. Современный английский язык: Учебник для вузов. - 7-е изд. / И.В. Арнольд. - М.: Флинта: Наука, 2005. - 384 с.
2. Балли Ш. Общая лингвистика и вопросы французского языка / nep. c 3-го фр. изд. Вентцель Е.В., Вентцель Т.В. - М., 1955. - 416 с.
3. Басина П., Гойко В., Петров Е., Бакулин В. Классификация публикаций сообществ «ВКонтакте» для оценки качества жизни населения. // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2022», 2022.
4. Ван Дейк Т.А. Язык. Познание. Коммуникация / Т.А. Ван Дейк. - М.: Высшая школа, 1989. - 307 с.
5. Верхоляк О. В. Автоматическое распознавание эмоциональных состояний дикторов по голосовым характеристикам и тональности текста высказывания : Дис. ... канд. технич. наук 05.13.17 / Верхоляк О.В. - СПб, 2021. - 331 с.
6. Вилюнас В.К. Основные проблемы психологической теории эмоций // Психология эмоций. Тексты. - М., 1984.
7. Дале Д. Маленький и быстрый BERT для русского языка, url: https:// habr.com/ru/post/562064/, дата обр. 6.05.2023.
8. Дале Д. Рейтинг русскоязычных энкодеров предложений, url: https:// habr.com/ru/articles/669674/, дата обр. 6.05.2023.
9. Додонов Б. И. Эмоция как ценность. - М.: Политиздат, 1977. - 272 с.
10. Зайнульдинов А.А., Керо Хервилья Э. Ф. Лексикографическое описание эмоционально-оценочной лексики в русском и испанском языках // Вопросы языкознания. - 2019. - №2. - с. 96-110.
11. Ионова С.В. Лингвистика эмоций: основные проблемы, результаты и перспективы // Язык и эмоции: личностные смыслы и доминанты в речевой деятельности. Сб. науч. труд. - Волгоград: ВГПУ, ЦОП «Центр», 2004. - с.5.
12. Калабихина И.Е., Лукашевич Н.В., Банин Е.П., Алибаева К.В. Автоматический анализ репродуктивных ценностей сети ВКонтакте // XII Международная научная конференция «Интеллектуальные системы и компьютерные науки», 2021.
13. Кузнецова Е. С., Лукашевич Н. В., Четверкин И. И. Тестирование правил для системы анализа тональности // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2013», 2, 2013, 71-80.
14. Кулагин Д.И. Открытый тональный словарь русского языка КартаСловСент // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 20, М.: Изд-во РГГУ, 2021. — С. 1106-1119.
15. Куратов Ю., Архипов М. Адаптация глубоких двунаправленных многоязычных моделей на основе архитектуры Transformer для русского языка // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019», 2019...59