🔍 Поиск готовых работ

🔍 Поиск работ

ПОСТРОЕНИЕ НЕЙРОСЕТЕВОЙ МОДЕЛИ РАСПОЗНАВАНИЯ ЭМПАТИИ В ТЕКСТЕ (НА МАТЕРИАЛЕ АНГЛИЙСКОГО ЯЗЫКА)

Работа №202404

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы58
Год сдачи2023
Стоимость4000 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
14
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1 Нейросетевые модели для обработки естественного языка 8
1.1 Принцип работы нейронных сетей 8
1.2 Этапы разработки нейронных сетей 8
1.2.1 Постановка задачи 8
1.2.2 Сбор и анализ данных обучения 10
1.2.3 Настройка параметров и обучение 11
1.2.4 Имплементация 13
1.2.5 Мониторинг и дообучение 13
1.3 Обработка текстовых данных 14
1.3.1 Предобработка 14
1.3.2 Токенизация 15
1.3.3 Векторизация 16
1.4 Краткий обзор языковых нейросетевых моделей 17
1.4.1 BERT 22
1.4.2 RoBERTa 23
1.4.3 GPT 24
1.4.4 XLNet 25
1.4.5 ALBERT 25
Выводы по главе 1 26
Глава 2 Разработка нейросетевой модели распознавания эмпатии в тексте
27
2.1 Понятие эмпатии 27
2.2 Подготовка датасета 28
2.3 Обзор Hugging Face 30
2.4 Программирование обучения модели 31
2.5 Подходы к обучению модели распознавания эмпатии в тексте 33
2.5.1 Классификационная модель 33
2.5.2 Регрессионная модель 34
2.6 Аугментация данных 35
2.7 Регрессионная модель на расширенном датасете 37
2.8 Кастомная функция потерь 38
2.9 Сопоставление предсказаний моделей на тестовом и тренировочном
датасетах 41
Выводы по главе 2 42
Заключение 44
Библиографический список 46
Приложение 1 53
Приложение 2 55

Технология нейронных сетей все активнее применяется в самых разных сферах: от подбора музыки и фильмов до программного обеспечения МКС. В том числе данная технология показала свою эффективность и для обработки естественного языка.
В данной области искусственный интеллект способен решать различные задачи, в рамках нашей работы он используется для определения уровня эмпатии в тексте. Хотя эмпатия является одним из ключевых аспектов успешной межличностной, и особенно деловой, коммуникации, данная проблема довольно мало изучена и только набирает популярность среди исследователей.
Актуальность работы обусловлена конкретной производственной необходимостью: компания "Тридиви" обратилась с запросом на создание системы оценки эмпатичности высказываний сотрудников техподдержки. В данной фирме общение с клиентами на форумах ведется на английском языке, хотя для большинства сотрудников родным является русский. Это приводит к тому, что некоторые их высказывания не демонстрируют сопереживания и желания помочь клиенту, что негативно сказывается на бизнес-коммуникации данной компании.
Объектом исследования является построение нейросетевой модели для анализа текста.
Предметом исследования является моделирование распознавания эмпатии в тексте при помощи нейросетевых языковых моделей.
Цель исследования: построение нейросетевой модели определения эмпатичности высказывания в англоязычном дискурсе коммуникации клиента со службой техподдержки.
Задачи исследования:
1. Изучить теоретический материал по теории эмпатии, глубокого обучения, модели и методы обработки естественного языка,
2. Проанализировать существующие модели и методы для обработки естественного языка,
3. Выбрать оптимальную архитектуру модели,
4. Подготовить датасет для обучения нейросетевой модели, соответствующий архитектуре
5. Провести экспериментальное дообучение отобранных моделей на собственном датасете, оценить качество полученных моделей.
Теоретическую базу работы составляют работы "Attention Is All You Need" (A. Vaswani, N. Shazeer, N. Parmar и др.) [11], "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" (J. Devlin, M. Chang, K. Lee и др.) , "ALBERT: A lite bert for self-supervised learning of language representations" Z. Lan, M. Chen, S. Goodman и др.), XLNet: Generalized Autoregressive Pretraining for Language Understanding (Z. Yang, Z. Dai, Y. Yang и др.).
В ходе работы применялись такие методы, как лингвистическое моделирование, инструментальный метод, эксперимент, семантический анализ, дискурс-анализ.
Материалом исследования послужили тексты с форума службы техподдержки предприятия "Тридиви" объемом 59 тредов (веток диалогов на форуме), включающих в себя 186 реплик.
Положения, выносимые на защиту:
1. Языковые модели на основе предобученных нейросетевых моделей позволяют осуществлять идентификацию эмпатии в тексте, при этом наилучшие показатели достижимы при помощи моделей BERT, ALBERT.
2. На качество предсказаний модели влияет выбор модели, настройка ее параметров, датасет. Датасет должен быть сбалансированным и репрезентативным, добиться этого можно путем аугментации.
...

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Таким образом, на качество предсказаний модели влияет выбор модели, ее архитектуры. Оптимальной архитектурой представляется трансформер, на ее основе построены лучшие на сегодняшний день модели для обработки естественного языка. Ряд таких моделей является предобученными моделями, то есть возможно провести их дообучение на собственных данных для новой узкой задачи, таким образом сохраняются определенные знания, которые есть в базовых предобученных моделях, и достигается высокое качество предсказаний.
Для осуществления обучения предобученных моделей необходим качественный датасет, он должен быть достаточным по объему и сбалансированным по количеству данных с различными лейблами. Модели обученные на недостаточном по объему и несбалансированном датасете продемонстрировали невысокое качество обучения. Процедура аугментации датасета позволяет модифицировать датасет для соответствия этим условиям, что значительно улучшает качество обучения.
Настройка параметров модели также важная составляющая обучения, в частности необходим правильный выбор функции потерь. Для задачи текстовой регрессии подходит функция MSE. При сравнении с моделями, при обучении которых применялась кастомная функция потерь, качество работы моделей с MSE функцией значительно выше.
В результате проведения обучения трех моделей-трансформеров (BERT, ALBERT, XLNet) для задачи текстовой регрессии наилучших результатов удалось достичь при помощи моделей типа BERT, обученных на расширенном датасете с применением функции потерь MSE, значение функции потерь у модели BERT составило 0.1117, что является показателем достаточно высокого качества предсказаний. Применение кастомной функции потерь не оказало значительного влияния на показатели моделей.
Итогом работы можно считать готовую модель, осуществляющую идентификацию эмпатии в текстах дискурса коммуникации сотрудников техподдержки с клиентами.


1. Барсегян, А. А. Анализ данных и процессов / А. А. Барсегян, 3-е изд. - СПб. : БВХ-Петерберг, 2009.
2. Богомолов, Ю. А. Обзор моделей нейронных сетей для обработки естественного языка / Ю. А. Богомолов // StudNet. - 2020. - №4. - URL: https://cyberleninka.ru/article/n/obzor-modeley-neyronnyh-setey-dlya- obrabotki-estestvennogo-yazyka (дата обращения: 26.03.2023).
3. Волосова, А. В. Технологии искусственного интеллекта в ULS-системах :
учебное пособие для вузов / А. В. Волосова. — Санкт-Петербург : Лань,
2022. — 308 с. — ISBN 978-5-8114-8839-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL:
https://e.lanbook.com/book/208568 (дата обращения: 05.05.2023). — Режим доступа: для авториз. пользователей.
4. Галушкин, А. И. Нейронные сети / А. И. Галушкин // Большая российская
энциклопедия: научно-образовательный портал - Режим доступа:
https://bigenc.ru/c/neironnye-seti-e734b3, свободный. - Загл. с экрана. - Яз. рус. - (Дата обращения: 05.06.2023).
5. Ганегедара, Т. Обработка естественного языка с TensorFlow : руководство
/ Т. Ганегедара ; перевод с английского В. С. Яценкова. — Москва : ДМК Пресс, 2020. — 382 с. — ISBN 978-5-97060-756-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL:
https://e.lanbook.com/book/140584 (дата обращения: 13.05.2023). — Режим доступа: для авториз. пользователей.
6. Гольдберг, Й. Нейросетевые методы в обработке естественного языка : руководство / Й. Гольдберг ; перевод с английского А. А. Слинкина. — Москва : ДМК Пресс, 2019. — 282 с. — ISBN 978-5-97060-754-1. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131704 (дата обращения: 13.05.2023). — Режим доступа: для авториз. пользователей.
7. Душкин, Р. В. Искусственный интеллект / Р. В. Душкин. — Москва : ДМК
Пресс, 2019. — 280 с. — ISBN 978-5-97060-787-9. — Текст : электронный // Лань : электронно-библиотечная система. — URL:
https://e.lanbook.com/book/131703 (дата обращения: 13.05.2023). — Режим доступа: для авториз. пользователей.
8. Ефремова, Т. Ф. Современный толковый словарь русского языка / Т. Ф. Ефремова. - Режим доступа: https://slovar.cc/rus/efremova-tolk/290650.html, свободный. - Загл. с экрана. - Яз. рус. - (дата обращения: 17.12.2022).
9. Закон сравнительных суждений и метод парных сравнений. - Режим доступа:
https: //studme.org/79013/psihologiya/zakon_sravnitelnyh_suzhdeniy_metod_p arnyh_sravneniy, свободный. - Загл. с экрана. - Яз. рус. - (Дата обращения 13.12.22).
10. Йылдырым С., Асгари-Ченаглу М. Осваиваем архитектуру Transformer. Разработка современных моделей с помощью передовых методов обработки естественного языка / пер. с анг. В.С. Яценкова. - М.: ДМК Пресс, 2022. - 318 с.
11. Коваленко, Н. Н. Фактор эмпатии в структуре высказывания / Н. Н.
Коваленко - Режим доступа: https: //human.snauka.ru/2016/04/14676,
свободный. - Загл. с экрана. - Яз. рус. - (дата обращения: 17.12.2022).
12. Кругликова, С. М. В профессию через науку и творчество / С. М. Кругликова., С. Р. Корнаева, Е. И. Артюшенко // Бузулукский гуманитарно-технолог. инс-т (филиал) ОГУ: материалы Всероссийской научно-практической студенческой конференции. - Бузулук: БГТИ, 2022. - С. 695- 699.
13. Крылов, В. Что такое эмбеддинги и как они помогают искусственному интеллекту понять мир людей / В. Крылов // Наука и жизнь: открытый формат - 2019. - URL: https://www.nkj.ru/open/36052/ (дата обращения: 06.06.2023).
14. Куцев, Р. Способы обеспечения качества данных для машинного обучения / Р. Куцев. - Режим доступа https://vc.ru/ml/353279-sposoby-obespecheniya- kachestva-dannyh-dlya-mashinnogo-obucheniya, свободный. - Загл. с экрана. - Яз. рус. - (Дата обращения: 06.06.2023).
15. Лось, А. Л. Средства выражения эмпатии в языке / А. Л. Лось // Филологические науки. Вопросы теории и практики. - 2014. - № 10. - С. 131-135.
... всего 50 источников


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ