Тип работы:	Предмет:	Язык работы:

АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ

Работа №	77817
Тип работы	Бакалаврская работа
Предмет	информационные системы
Объем работы	57
Год сдачи	2017
Стоимость	4340 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	188

Не подходит работа?

Узнай цену на написание

Содержание

ВВЕДЕНИЕ 3
ГЛАВА 1. МЕТОДЫ ПРЕДСТАВЛЕНИЯ ТЕКСТА В ВИДЕ ВЕКТОРНОГО ПРОСТРАНСТВА 5
1.1 Bag of words 5
1.2 Word2Vec 7
1.3 Doc2Vec 11
ГЛАВА 2. МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТА 14
2.1 Рекуррентные нейронные сети 14
2.2 Random Forest 22
2.3 Support vector machine 24
ГЛАВА 3. ПРИМЕНЕНИЕ КЛАССИФИКАТОРОВ В АНАЛИЗЕ ТОНАЛЬНОСТИ ТЕКСТОВ 29
3.1 Условия проводимого эксперимента 29
3.2 Модели векторного представления пространства 31
3.3 Обучение и сравнение классификаторов 35
ЗАКЛЮЧЕНИЕ 41
СПИСОК ЛИТЕРАТУРЫ 42
ПРИЛОЖЕНИЕ 43
ЛИСТИНГ

Введение

Актуальность. С развитием технологий в нашем мире интернет становился все популярнее. На данный момент почти половина всего мира имеют доступ к нему. Пользователи оставляют записи в блогах и на форумах, пишут комментарии на своих многочисленных страницах в социальных сетях, оставляют отзывы и рекомендации о товарах и магазинах. Все это привело к тому, что количество информации в интернете растет с каждым годом в геометрической прогрессии. Сейчас этой информации настолько много, что ее попросту невозможно обрабатывать, анализировать вручную. Поэтому придумывается множество способов, как автоматизировать все эти процессы. В связи с увеличением вычислительной мощности, стало возможным обрабатывать гигантские массивы информации, о которых пару десятилетий назад никто не мог даже задуматься.
Одним из таких подходов для обработки данных является анализ эмоциональной окраски текста. Он позволяет оценить отношение автора текста к объекту, о котором он ведет речь. Анализ тональности, применённый к различному контенту, оставляемому пользователем в сети, позволяет разным организациям судить о качестве своей работы, а также предоставлять для пользователей контент, основанный на их предпочтениях.
Эмоциональная окраска текста может определяться различным образом. В данной работе рассматривается бинарный случай этой задачи. То есть, является ли отношение автора текста к описываемому объекту позитивным или негативным. Так же возможно задавать значение по вещественной шкале.
Целью данной работы является определение эмоциональной окраски рецензий к кинофильмам. С помощью построенной модели можно быстро и эффективно определять настроение широкой аудитории по отношению к той или иной кинокартине
Существует несколько различных подходов и методов для построения алгоритма определения эмоциональной окраски. Одними из самых популярных и сильно развивающихся в последнее время являются методы с использованием машинного обучения с учителем.
Для того, чтобы компьютер мог «понять» смысл текста, предоставленного для определения тональности, нужно сначала перевести естественный язык в понятный для компьютера формат. Для представления слов и документов в векторный вид, будем использовать различные инструменты для преобразования текста, такие как Bag of Words, Word2Vec, Doc2Vec.
Структура. Выпускная работа состоит’ из введения, трех глав, заключения, списка используемой литературы и приложения. В первой главе рассмотрены теоретические моменты моделей для построения векторного пространства. Во второй - рассмотрена структура классификаторов. А в третьей - проведен анализ и сравнение классификаторов, рассмотренных во второй главе. Тексты рецензий и соответствующие оценки взяты с сервиса Kinopoisk. После построения модели на обучающей выборке и получении хороших результатов на тестовой выборке, модели с наилучшими результатами проверялись на неразмеченных данных.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

В данной работе было проведено исследование существующих подходов к классификации текстов по эмоциональной окраске с помощью нейросетевых моделей. Также было проведено сравнение эффективности работы классификаторов на реальных данных. В результате экспериментов, в ходе которых для каждой модели были подобраны оптимальные параметры, выяснилось, что наиболее эффективными моделями для данной задачи являются Random Forest и рекуррентная нейронная сеть LSTM. Также были рассмотрены методы преобразования текста в векторное пространство. Было получено, что, хотя модели Bag of words и Word2Vec дают приблизительно одинаковые результаты, предпочтение отдается модели Word2Vec, потому что она имеет намного меньший размер вектора по сравнению с Bag of words (300 и 5000 соответственно). Такой размер вектора значительно уменьшает вычислительные затраты при работе с векторами. Также имеется модель представления векторного представления слов Doc2Vec, являющаяся более общим аналогом Word2Vec, которая может преобразовывать данные переменной длины. Модель тоже показала хорошие результаты, но имеет небольшую потерю качества, по сравнению с Word2Vec.

Литература

1. Quoc Le, Tomas Mikolov. Distributed Representations of Sentences and Documents -2013. https://cs.stanford.edu/-quocle/paragraph vector.pdf
2. Christopher Olah. Understanding LSTM Networks - 2015.
http://colah. github.io/posts/2015-08-Understanding-LSTMs/
3. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estima¬tion of Word Representations in Vector Space.
https://arxiv.org/abs/1301.3781
4. Alexander Dyakonov. Случайный nec(Random Forest) - 2016. https://alexanderdyakonov.wordpress.com/2016/11 /14/%D 1 %81 %D0%BB %Dl%83%Dl%87%DO%BO%DO%B9%DO%BD%Dl%8B0/oDO%B9- %D0%BB%D0%B5%Dl%81 -random-forest/
5. Learning word vectors for sentiment analysis I Andrew L Maas, Raymond E Daly, Peter T Pham et al.. // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies- Volume 11 Association for Computational Linguistics. — 2011.
6. Manning Christopher D., Raghavan Prabhakar, Schtitze Hinrich. Introduc¬tion to Information Retrieval. — Cambridge University Press, 2008.
7. Narayanan Vivek, Arora Ishan, Bhatia Arjun. Fast and accurate sentiment classification using an enhanced Naive Bayes model // Intelligent Data En¬gineering and Automated Leaming-IDEAL 2013. — Springer, 2013.
8. Pang Bo, Lee Lillian, Vaithyanathan Shivakumar. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL- 02 conference on Empirical methods in natural language processing-Volume
10 / Association for Computational Linguistics. — 2002.
9. Recursive deep models for semantic compositionality over a sentiment tree¬bank I Richard Socher, Alex Perelygin, Jean Y Wu et al. // Proceedings of the conference on empirical methods in natural language processing (EMNLP) / Citeseer. — Vol. 1631. — 2013.
10. Abbasi Ahmed, Chen Hsinchun, Salem Arab. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums I I ACM Transactions on Information Systems (TOIS). — 2008.