Введение 4
1. Постановка задачи 6
2. Обзор литературы 7
2.1. Подходы, основанные на правилах и словарях 7
2.2. Машинное обучение с учителем 7
2.3. Машинное обучение без учителя 8
3. Используемые методы 9
3.1. Постановка задачи классификации 9
3.2. Классификаторы 9
3.2.1. Метод опорных векторов (SVM) 9
3.2.2. Наивный байесовский классификатор 11
3.3. Извлечение признаков 13
4. Описание набора данных 14
4.1. Наборы данных 14
4.2. Предобработка данных 15
5. Результаты экпериментов 16
5.1. Структура экспериментов 16
5.2. Методы оценки 16
5.3. Корпус автоматически размеченных текстов 17
5.4. Классификация тестовых коллекций 18
5.5. Вывод 19
Заключение 20
Список литературы 21
За последние несколько лет можно наблюдать большой рост в использовании социальных сетей и платформ для микроблоггинга, которые стали очень популярным инструментом для общения среди пользователей Интернета. Миллионы сообщений появляются каждый день на таких сервисах как Twitter, Facebook, Vk. Авторы таких сообщений пишут об их жизни, делятся своими мнениями на различные темы и обсуждают злободненвные вопросы.
Так как все больше и больше пользователей пишут о продуктах, услугах, которые они используют, или выражают свои политические и религиозные взгляды, сайты для микроблоггинга становятся ценным источником информации о людях. Такие данные могут эффективно использоваться во многих областях, таких как маркетинг, реклама, медицина, психология и социологические исследования.
Обработка текстов вручную с целью извлечения полезной информации требует слишком много времени и человеческих ресурсов. В большинстве случаев данны так много, что это делает данную задачу неосуществимой. Для решения этой проблемы существуют различные автоматические методы анализа текста на естестественных языках, в том числе автоматический анализ тональности текстов.
Основной задачей анализа тональности текстов является извлечение эмоциональной окраски из текстов. Эмоциональная окраска может определяться как ’’положительная”, ’’отрицательная” или же может принимать значения из некоторого промежутка, например от 0 до N. В данной области проводится все больше и больше исследований, и на данный момент существует много различных подходов, которые уже применяются при решении большого количества практических задач.
С помощью такого анализа текстов компании могут отслеживать то, как потребители относятся к их продукции и предоставляемым услугам. Полученные знания могут быть использованны для дальнейшего анализа и разработки новых маркетинговых стратегий. Также широкое применение можно найти в области социологических исследований. С помошью анализа эмоциональной окраски текстов можно узнавать о том как люди относятся к тому или иному событию, явлению, предмету. Используя данные из социальных сетей и автоматические методы обработки текстов, возможно получить эффективный и быстрый инструмент для извлечения наиболее релевантной информации об обществе.
Одной из наиболее популярных платформ, где пользователи постоянно делятся своими мнениями, является Twitter. Twitter предоставляет удобный API для быстрого сбора сообщений пользователей - твитов. У твитов существует ряд особенностей, которые могут представлять сложности в использовании традиционных методов анализа текстов. На длину твита существует ограничение - 140 символов, также используется неформальная речь с обилием сокращений, хэштегов, эмотиконов и упоминаний других пользователей.
В данной работе будет рассматриваться задача автоматического анализа тональности русскоязычных текстов, собранных с платформы Twitter. Информация, полученная при применении методов анализа эмоциональной окраски текстов, в дальнейшем может использоваться в социологических исследованиях.
В ходе данной работы были решены поставленные задачи и достигнуты следующие результаты:
• Изучены основные методы для автоматическое определения тональности текстов.
• Собраны данные для обучения и тестирования классификаторов, а также проведена их предобработка.
• Проведено сравнение методов обучения с учителем для решения задачи классификации по тональности текстов на русском языке. Анализировались результаты применения наивный байесовского классификатора, метода опорных векторов при использовании различных способов извлечения признаков.
• Получен вывод о сложности задачи и зависимости результатов от конкретной предметной области.
[1] Big data: methodological challenges and approaches for sociological analysis / Ramine Tinati, Susan Halford, Leslie Carr, Catherine Pope // Sociology. — 2014. — P. 0038038513511561.
[2] Hutto Clayton J, Gilbert Eric. Vader: A parsimonious rule-based model for sentiment analysis of social media text // Eighth International AAAI Conference on Weblogs and Social Media. — 2014.
[3] Pang Bo, Lee Lillian, Vaithyanathan Shivakumar. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 / Association for Computational Linguistics. — 2002. — P. 79-86.
[4] Read Jonathon. Using emoticons to reduce dependency in machine learning techniques for sentiment classification // Proceedings of the ACL student research workshop / Association for Computational Linguistics. — 2005. — P. 43-48.
[5] SentiRuEval: testing object-oriented sentiment analysis systems in russian / NV Loukachevitch, PD Blinov, EV Kotelnikov et al. // Proceedings of International Conference Dialog.— Vol. 2.— 2015.— P. 12-24.
[6] Turney Peter D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th annual meeting on association for computational linguistics / Association for Computational Linguistics. — 2002. — P. 417-424.
[7] Wang Sida, Manning Christopher D. Baselines and bigrams: Simple, good sentiment and topic classification // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2 / Association for Computational Linguistics. — 2012. — P. 90-94.
[8] Wikipedia. F1 score // Википедия, свободная энциклопедия.— 2016.— URL: https://en.wikipedia.org/wiki/F1_score (online; accessed: 17.04.2016).
[9] Wikipedia. Maximum likelihood // Википедия, свободная энцикло-педия.— 2016.— URL: https://en.wikipedia.org/wiki/Maximum_ likelihood (online; accessed: 17.04.2016).
[10] Wikipedia. N-gram // Википедия, свободная энциклопедия. — 2016.— URL: https://en.wikipedia.org/wiki/N-gram (online; accessed: 17.04.2016).
[11] Wikipedia. Pointwise mutual information // Википедия, свободная энциклопедия.— 2016.— URL: https://en.wikipedia.org/wiki/ Pointwise_mutual_information (online; accessed: 17.04.2016).
[12] Wikipedia. Precision and recall // Википедия, свободная энциклопе¬дия. — 2016. — URL: https://en.wikipedia.org/wiki/Precision_ and_recall (online; accessed: 17.04.2016).
[13] Wikipedia. tf-idf // Википедия, свободная энциклопедия. — 2016. — URL: https://en.wikipedia.org/wiki/Tf-idf (online; accessed: 17.04.2016).
[14] Zhang Harry. The optimality of naive Bayes // AA. — 2004. — Vol. 1, no. 2. — P. 3.
[15] Zhang Tong. Solving large scale linear prediction problems using stochastic gradient descent algorithms // Proceedings of the twenty- first international conference on Machine learning / ACM. — 2004. — P. 116.
[16] Рубцова Ю.В. ПОСТРОЕНИЕ КОРПУСА ТЕКСТОВ ДЛЯ НА-СТРОЙКИ ТОНОВОГО КЛАССИФИКАТОРА // Программные продукты и системы. — 2015. — no. 109.