Тип работы:
Предмет:
Язык работы:


АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ

Работа №32789

Тип работы

Магистерская диссертация

Предмет

информационные системы

Объем работы80
Год сдачи2019
Стоимость5700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
715
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1. ПОСТАНОВКА ЗАДАЧИ АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВ 7
1.1. Основные цели работы 7
1.2. Обзор существующих систем по анализу тональности текста 9
1.3. Существующие подходы 10
1.3.1 Методы, основанные на лексике 10
1.3.2 Методы машинного обучения 10
2. ПОДХОДЫ В РЕШЕНИИ ЗАДАЧИ ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ ТЕКСТОВ 11
2.1. Статистические методы 11
2.1.1 Bag of words (мешок слов) 11
2.1.2 n-grams (n - граммы) 12
2.1.2 TF-IDF 12
2.2 Векторные представления слов 13
2.2.1 Представление в виде One-hot вектора 13
2.2.2 Word2Vec 14
2.2.3 FastText 19
2.2.4 GloVe 21
3. КЛАССИФИКАТОРЫ В ЗАДАЧЕ ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ 24
3.1 Способы классификации документов с помощью word-embeddings 24
3.2 Классификаторы 25
3.2.1 Многослойный персептрон 25
3.2.2 K-NN (k-nearest neighbors algorithm) 25
3.2.3 Random Forest (Случайный лес) 26
3.2.4 Метод опорных векторов 28
3.2.5 Наивный Байесовский классификатор 29
3.3 Классификация документов методами глубинного обучения. СМ№ 31
3.3.1 СКЫ (Convolutional Neural Network) 31
3.3.2 RNN (Recurrent Neural Network) 35
3.3.3 LSTM
3.4 Программные инструменты 39
3.4.1 Web приложение 40
4. РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ 43
4.1 Метрики. Оценка классификации 43
4.2 Результаты классификации на наборе данных отзывов 45
4.3 Результаты классификации на наборе данных новостей 51
4.3 Результаты классификации на наборе данных твиттера 54
ЗАКЛЮЧЕНИЕ 57
СПИСОК ЛИТЕРАТУРЫ 59
ПРИЛОЖЕНИЕ 62



Анализ тональности текста — класс методов в обработке естественного языка, предназначенный для автоматизированного распознавания в текстах эмоционально окрашенной лексики и эмоциональной оценки (положительной, негативной, нейтральной [1]. В данной работе анализ тональности рассматривается как частный случай классификации документов. Классификация документов — одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа. [2] Определение анализа тональности текстов имеет важное практическое применение в различных направлениях человеческой деятельности: ведении бизнеса, определении политических и экономических стратегий. Мнение других людей всегда имело значение для человечества. В современном цифровом мире, где благодаря распространению и проникновению интернета, нам доступны мнения и мысли людей на различные аспекты человеческой жизни, товары, услуги. Анализ настроений или мнений в последнее время стал одним из наиболее популярных исследованных и обсуждаемых тем в Natural Language Processing (NLP), в основном благодаря таким сайтам, как Twitter.
Анализ тональности широко применяется в оценке качества выпускаемой продукции и услуг в социальных сетях, блогах, целевых сайтах. Понимание того, на сколько негативно или позитивно люди реагируют на произведенный товар или услугу, позволяет оценивать будущую успешность продаж на рынке, а также анализировать качество проведенных PR-компаний. Многим крупным производителям всегда необходимо понимать, как их бренд воспринимается потребителями. Можно проводить более глубокий анализ отзывов клиентов о компании и определять те аспекты продукта или услуг, которые нравятся клиентам и те, которые необходимо улучшить. Сделать это возможно осуществив категоризацию отзывов, а далее уже применять тоновый классификатор к каждой отдельной категории. Также есть примеры, когда анализ тональности позволял удерживать клиентов продолжать пользоваться услугами компании. Записи разговоров операторов call-центра компании методами машинного обучения преобразовывались в текст и в последствии сегментировался на конкретные продукты и услуги, а далее к ним применялся тоновый классификатор. Общая оценка настроения отслеживалась для каждого клиента через регулярные промежутки времени. Если настроение оставалось ниже порогового значения слишком долго или общий балл настроения для клиента был слишком низким, клиенту отправлялись текстовое сообщение с извинениями за недавние проблемы и предложения со специальными акциями.
Хедж-фонды полагаются на данные во всех направлениях при построении своих торговых моделей. Определение настроения на рынке позволяют строить эффективные торговые стратегии. Поскольку все экономические и политические новости в мире негативные или положительные влияют на цены нефть, валюту и акции компаний. Финансовые рынки в настоящее время более конкурентоспособны чем когда-либо. Наличие точной информации в вашем распоряжении имеет решающее значение для при осуществлении любой сделки. Тоновые классификаторы при наличии соответствующего API позволяют строить различные графики в реальном времени показывающие цену акций по сравнению с настроениями рынка, как положительными, так и отрицательными, для конкретной компании. Также анализ тональности активно можно использовать в определении настроения населения на различные проводимые правительством реформы. И оценивать мнение электората на того или иного кандидата в руководящую должность. Решение задачи анализа тональности позволяет строить точные рекомендательные системы. К примеру рейтинговая система оценок отзывов при выборе подходящего отеля является субъективной. При построении рекомендательной системы можно сегментировать отдельные элементы отзыва с дальнейшим применением оценки настроения, предлагая пользователю тот отель, который удовлетворяет аспектам наиболее важным для пользователя.
Таким образом, анализ тональности текстов мощнейший инструмент в руках бизнеса. Методы глубинного обучения и обработки естественного языка в решении задачи анализа тональности текстов позволяют бизнесу увеличивать свои продажи, выходить на лидирующие позиции на рынке, побеждая в конкурентной борьбе, а политическим организация строить свои стратегии основываясь на мнении электората.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В работе были рассмотрены методы решения задачи классификации документов. В частности, задача определения тональности текстов. Сравнивались стандартные статистические модели с современными моделями векторных представлений слов, таких как Word2Vec, FastText, Glove. Были получены векторные представления слов на различных русскоязычных корпусах. Были проверены свойства векторов на нахождение похожих слов по значению. В работе использовались 3 обучающие выборки: выборка отзывов на различные товары и услуги, выборка сообщений твиттера, выборка новостей. В задаче анализа тональности сравнивались различные виды классификаторов MLP (многослойная нейронная сеть), Random Forest (Случайный лес), NB (Наивный байесовский классификатор), KNN (метод к-ближних соседей), SVM (метод опорных векторов), CNN (сверточная нейронная сеть), LSTM (рекуррентная сеть с долгой краткосрочной памятью. До обучения классификаторов находились оптимальные способы предобработки данных, что влияло на качество классификации.
Результаты показали, что сверточная нейронная сеть со связкой Word2Vec показывает наилучшую точность (F1 -score) на средних по размеру датасетах. Близкий по точности результат дают так же FastText и Glove. Статистический метод TF-IDF так же дает хорошую точность в связке с методом опорных векторов SVM на всех наборах данных, используемых в работе. Таким образом, статистические методы не всегда уступают методам, основанным на векторном представлении слов. Заметим, что определение анализа тональности является по своей сути субъективной задачей. Классификаторы обучается в соответствии с интуицией пользователя, который эти данные разметил. Поэтому в задаче определения тональности текстов приемлемой точностью считается F1 -score больше 0.70. Превзойти такую точность в данной работе удалось на всех представленных обучающий выборках. Так же было разработано web приложение для автоматической классификации текстов по тональности в режиме реального времени. В нем были реализованы соответствующие API методы для интеграции с любыми сервисами. Данное API является свободным для использования любыми организациями. Приложение доступно с любых устройств доступных к сети интернет. Приложение доступно с любых устройств доступных к сети интернет.



1. Evgeny Kim and Roman Klinger, “A Survey on Sentiment and Emotion Analysis for Computational Literary Studies” [Электронный ресурс] https://arxiv.org/pdf/1808.03137.pdf (дата обращения: 31.03.19).
2. Maher Abdullah and Mohammed GH. I. AL ZAMIL, The Effectiveness of Classification on Information Retrieval System (C ase Study) [Электронный ресурс] https://arxiv.org/ftp/arxiv/papers/1804/1804.00566.pdf (дата обращения: 31.03.19).
3. DataReview, "Анализ тональности текста: концепции, методы, области применения" [Электронный ресурс] URL: http://datareview.info/article/analiz- tonalnosti-teksta-kontseptsiya-metodyi-oblasti-primeneniya/ (Дата обращения:
15.04.2019) .
4. NLPX Tales of Data Science, TF-IDF с примерам кода [Электронный ресурс] http://nlpx.net/archives/57 (Дата обращения: 16.04.2019).
5. Свободная энциклопедия Википедия, "TF-IDF " [Электронный ресурс URL: https://ru.wikipedia.org/wiki/TF-IDF (Дата обращения: 17.04.2019).
6. Bijoyan Das, Sarit Chakraborty, [Текст] An Improved Text Sentiment Classification Model Using TF-IDF and Next Word Negation
7. Ахметгалиев А.И., Гафаров Ф.М., Ситдикова Ф.Б Анализ тональности текстов с использованием нейросетевых моделей // Наука России: Цели и Задачи. Сборник научных трудов, по материалам XIV международной научно-практической конференции 10 апреля 2019 г. Часть 4 Изд НИЦ «Л- Журнал», 2019. -C. 33-40
8. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space - [Электронный ресурс] In Proceedings of Workshop at International Conference on Learning Representations (ICLP) - 2013, URL: http://arxiv.org/abs/1301.3781 (Дата обращения: 01.05.2019).
59
9. Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov. Enriching Word Vectors with Subword Infromation [Электронный ресурс] https://arxiv.org/abs/1607.04606 (дата обращения: 31.03.19).
10. Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov, Bag of Tricks for Efficient Text Classification [Электронный ресурс] https://arxiv.org/abs/1607.01759 (дата обращения: 31.03.19).
11. Jeffrey Pennington, Richard Socher, Christopher D. Manning. GloVe: Global Vectors for Word Representation
12. Short introduction using word2vec text classification URL: [Электронный ресурс] URL: https://www.linkedin.com/pulse/short-introduction-using- word2vec-text-classification-mike (дата обращения: 31.03.19)
13. Свободная энциклопедия Википедия, "Дерево решений документов " [Электронный ресурс] https://ru.wikipedia.org/wiki/дерево_решений
14. Habr, "Открытый курс машинного обучения.Тема 5. Композиции: бэггинг, случайный лес " [Электронный ресурс]
https://habr.com/ru/company/ods/blog/324402 (дата обращения: 31.03.19).
15. Habr, "Классификация данных методом опорных векторов " [Электронный ресурс] https://habr.com/ru/post/105220 (дата обращения: 31.03.19).
16. Christopher M. Bishop. Pattern recognition and machine learning, [Текст] 2006
17. Habr, Наивный Байесовский классификатор в 25 строк кода, [Электронный ресурс] URL: habr.com/ru/post/120194 (дата обращения: 31.03.19).
18. Свободная энциклопедия Википедия, "Светочная нейронная сеть" [Электронный ресурс] URL:
https://ra.wikipedia.org/wiki/Свёрточная_нейронная_сеть
19. Zhang Y., Wallace B. A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification //arXiv preprint arXiv:1510.03820. — 2015.
20. Yoon K., Convolutional Neural Networks for Sentence Classification
21. Lei Zhang, Shuai Wang, and Bing Liu. 2018. Deep learning for sentiment analysis: A survey. In Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, page e1253. Wiley Online Library
22. Ю. В. Рубцова. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), -С.72- 78


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ