В последнее время бурное развитие получила область анализа эмоциональности (sentiment analysis) — семейство методов обработки естественного языка, посвященное идентифицированию и определению эмоциональной окраски текста.
Различные приложения анализа эмоциональности весьма обширны. В связи с повсеместным распространением интернета, социальных сетей, различных аггрегаторов отзывов и рецензий, увеличением вычислительных мощностей, появилась возможность анализа большого количества текстовой информации. Благодаря этому коммерческие компании или исследователи могут эффективно производить анализ от-ношения к различным продуктам на рынке, автоматическим образом узнавать мнения большого количества людей о происходящих событиях (PR, политические компании).
Эмоциональная окраска текста может определяться различным об-разом. Популярны градации ”положительная”-”отрицательная”, возможно добавление нейтральной окраски. Также возможно задавать значение эмоциональности на вещественной шкале. Определять эмоциональность можно как у текста в целом, так и по отношению к определенной теме.
В данной работе рассматривается определение эмоциональной окраски рецензий к кинофильмам. С помощью построения модели, автоматическим образом определяющей тональность данной рецензий можно эффективным образом определять настроение аудитории по отношению к определенной кинокартине, анализируя комментарии, собственно рецензии или посты в социальных сетях.
Существует несколько различных методов и подходов для построения алгоритмов определения эмоциональной окраски. Одним из самых популярных является подход с использованием машинного обучения с учителем. В этой работе рассматриваются методы именно из этой области.
В ходе данной работы были достигнуты следующие результаты:
• получен набор кинорецензий для обучения и тестирования алгоритмов классификации,
• построены и сравнены модели классификации рецензий по трем классам эмоциональности.
[1] Abbasi Ahmed, Chen Hsinchun, Salem Arab. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums // ACM Transactions on Information Systems (TOIS).— 2008. — Vol. 26, no. 3. — P. 12.
[2] Chen Tianqi, Guestrin Carlos. XGBoost: A Scalable Tree Boosting System // arXiv preprint arXiv:1603.02754. — 2016.
[3] Das Sanjiv, Chen Mike. Yahoo! for Amazon: Extracting market sentiment from stock message boards // Proceedings of the Asia Pacific finance association annual conference (APFA) / Bangkok, Thailand. — Vol. 35. — 2001. — P. 43.
[4] Efficient estimation of word representations in vector space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // arXiv preprint arXiv:1301.3781.— 2013.
[5] Glorot Xavier, Bordes Antoine, Bengio Yoshua. Deep sparse rectifier neural networks // International Conference on Artificial Intelligence and Statistics. — 2011. — P. 315-323.
[6] Le Quoc V, Mikolov Tomas. Distributed representations of sentences and documents // arXiv preprint arXiv:1405.4053.— 2014.
[7] Learning word vectors for sentiment analysis / Andrew L Maas, Raymond E Daly, Peter T Pham et al. // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 / Association for Computational Linguistics. — 2011. — P. 142-150.
[8] Manning Christopher D., Raghavan Prabhakar, Schutze Hinrich. Introduction to Information Retrieval. — Cambridge University Press, 2008.
[9] Narayanan Vivek, Arora Ishan, Bhatia Arjun. Fast and accurate sentiment classification using an enhanced Naive Bayes model // Intelligent Data Engineering and Automated Learning-IDEAL 2013. — Springer, 2013. —P. 194-201.
[10] Pang Bo, Lee Lillian, Vaithyanathan Shivakumar. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 / Association for Computational Linguistics. — 2002. — P. 79-86.
[11] Recursive deep models for semantic compositionality over a sentiment treebank / Richard Socher, Alex Perelygin, Jean Y Wu et al. // Proceedings of the conference on empirical methods in natural language processing (EMNLP) / Citeseer. — Vol. 1631. — 2013. — P. 1642.
[12] Rehurek Radim, Sojka Petr. Software Framework for Topic Modelling
with Large Corpora // Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. -- Valletta, Malta : ELRA, 2010. —.— P. 45-50.— http://is.muni.cz/publication/884893/
en.
[13] A Review of Feature Extraction in Sentiment Analysis /
M Zubair Asghar, Aurangzeb Khan, Shakeel Ahmad,
Fazal Masud Kundi. — 2014.
[14] Scikit-learn: Machine Learning in Python / F. Pedregosa, G. Varoquaux, A. Gramfort et al. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825-2830.
[15] Tsytsarau Mikalai, Palpanas Themis. Survey on mining subjective data on the web // Data Mining and Knowledge Discovery. -- 2011, volume=.
[16] Wang Sida, Manning Christopher D. Baselines and bigrams: Simple, good sentiment and topic classification // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2 / Association for Computational Linguistics. — 2012. — P. 90-94.
[17] Zhang Tong. Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms // ICML 2004: PROCEEDINGS OF THE TWENTY-FIRST INTERNATIONAL CONFERENCE ON MACHINE LEARNING. OMNIPRESS. 2004. — P. 919-926.
[18] dos Santos Cicero Nogueira, Gatti Maira. Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts. // COLING.— 2014. — P. 69-78.
[19] Набор рецензий с проставленной тональностью.— https://www.dropbox.com/s/9lbm8cgfvksyfo6/data.csv?dl=0. — 2016.