Тип работы:
Предмет:
Язык работы:


Анализ эмоциональной окраски рецензий к фильмам

Работа №127851

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы42
Год сдачи2016
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
12
Не подходит работа?

Узнай цену на написание


Введение 4
1. Постановка задачи 5
2. Обзор литературы 6
3. Рассмотренные методы 11
3.1. Наивный байесовский классификатор 11
3.2. Классификация методом опорных векторов 12
3.3. NB SVM 13
3.4. Деревья с градиентным бустингом 14
3.5. Классификация, основанная на двух классах 16
4. Рассмотренные признаки 17
4.1. Bag-of-words 17
4.2. Doc2Vec 17
5. Применение классификаторов 20
5.1. Набор данных 20
5.2. Сравнение классификаторов 20
5.2.1. Байесовский классификатор 21
5.2.2. SVM 23
5.2.3. NB SVM 27
5.2.4. Классификация на основе вероятностей принад¬
лежности к двум фиксированным классам .... 29
5.2.5. Doc2Vec + SVM 30
5.2.6. Ансамбли классификаторов 32
5.2.7. Общее сравнение 34
Заключение 36
Список литературы 39


В последнее время бурное развитие получила область анализа эмоциональности (sentiment analysis) — семейство методов обработки естественного языка, посвященное идентифицированию и определению эмоциональной окраски текста.
Различные приложения анализа эмоциональности весьма обширны.
В связи с повсеместным распространением интернета, социальных сетей, различных аггрегаторов отзывов и рецензий, увеличением вычислительных мощностей, появилась возможность анализа большого количества текстовой информации. Благодаря этому коммерческие компании или исследователи могут эффективно производить анализ отношения к различным продуктам на рынке, автоматическим образом
узнавать мнения большого количества людей о происходящих событиях
(PR, политические компании).
Эмоциональная окраска текста может определяться различным образом. Популярны градации ”положительная”-”отрицательная”, возможно добавление нейтральной окраски. Также возможно задавать значение эмоциональности на вещественной шкале. Определять эмоциональность можно как у текста в целом, так и по отношению к определенной
теме.
В данной работе рассматривается определение эмоциональной окраски рецензий к кинофильмам. С помощью построения модели, автоматическим образом определяющей тональность данной рецензий можно
эффективным образом определять настроение аудитории по отношению к определенной кинокартине, анализируя комментарии, собственно
рецензии или посты в социальных сетях.
Существует несколько различных методов и подходов для построения алгоритмов определения эмоциональной окраски. Одним из самых
популярных является подход с использованием машинного обучения с
учителем. В этой работе рассматриваются методы именно из этой области.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе данной работы были достигнуты следующие результаты:
• получен набор кинорецензий для обучения и тестирования алгоритмов классификации,
• построены и сравнены модели классификации рецензий по трем
классам эмоциональности.


[1] Abbasi Ahmed, Chen Hsinchun, Salem Arab. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums // ACM Transactions on Information Systems (TOIS).— 2008. — Vol. 26, no. 3. — P. 12.
[2] Chen Tianqi, Guestrin Carlos. XGBoost: A Scalable Tree Boosting System // arXiv preprint arXiv:1603.02754. — 2016.
[3] Das Sanjiv, Chen Mike. Yahoo! for Amazon: Extracting market sentiment from stock message boards // Proceedings of the Asia Pacific finance association annual conference (APFA) / Bangkok, Thailand. — Vol. 35. — 2001. — P. 43.
[4] Efficient estimation of word representations in vector space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // arXiv preprint arXiv:1301.3781.— 2013.
[5] Glorot Xavier, Bordes Antoine, Bengio Yoshua. Deep sparse rectifier neural networks // International Conference on Artificial Intelligence and Statistics. — 2011. — P. 315-323.
[6] Le Quoc V, Mikolov Tomas. Distributed representations of sentences and documents // arXiv preprint arXiv:1405.4053.— 2014.
[7] Learning word vectors for sentiment analysis / Andrew L Maas, Raymond E Daly, Peter T Pham et al. // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 / Association for Computational Linguistics. — 2011. — P. 142-150.
[8] Manning Christopher D., Raghavan Prabhakar, Schutze Hinrich. Introduction to Information Retrieval. — Cambridge University Press, 2008.
[9] Narayanan Vivek, Arora Ishan, Bhatia Arjun. Fast and accurate sentiment classification using an enhanced Naive Bayes model // Intelligent Data Engineering and Automated Learning-IDEAL 2013. — Springer, 2013. —P. 194-201.
[10] Pang Bo, Lee Lillian, Vaithyanathan Shivakumar. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 / Association for Computational Linguistics. — 2002. — P. 79-86.
[11] Recursive deep models for semantic compositionality over a sentiment treebank / Richard Socher, Alex Perelygin, Jean Y Wu et al. // Proceedings of the conference on empirical methods in natural language processing (EMNLP) / Citeseer. — Vol. 1631. — 2013. — P. 1642.
[12] Rehurek Radim, Sojka Petr. Software Framework for Topic Modelling
with Large Corpora // Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. -- Valletta, Malta : ELRA, 2010. —.— P. 45-50.— http://is.muni.cz/publication/884893/
en.
[13] A Review of Feature Extraction in Sentiment Analysis /
M Zubair Asghar, Aurangzeb Khan, Shakeel Ahmad,
Fazal Masud Kundi. — 2014.
[14] Scikit-learn: Machine Learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort et al. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825-2830.
[15] Tsytsarau Mikalai, Palpanas Themis. Survey on mining subjective data on the web // Data Mining and Knowledge Discovery. -- 2011, volume=.
[16] Wang Sida, Manning Christopher D. Baselines and bigrams: Simple, good sentiment and topic classification // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2 / Association for Computational Linguistics. — 2012. — P. 90-94.
[17] Zhang Tong. Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms // ICML 2004: PROCEEDINGS OF THE TWENTY-FIRST INTERNATIONAL CONFERENCE ON MACHINE LEARNING. OMNIPRESS. 2004. — P. 919-926.
[18] dos Santos Cicero Nogueira, Gatti Maira. Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts. // COLING.— 2014. — P. 69-78.
[19] Набор рецензий с проставленной тональностью.— https://www. dropbox.com/s/9lbm8cgfvksyfo6/data.csv?dl=0. — 2016.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ