Тип работы:
Предмет:
Язык работы:


Автоматические методы анализа социологических данных

Работа №126569

Тип работы

Бакалаврская работа

Предмет

информационные системы

Объем работы22
Год сдачи2016
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
63
Не подходит работа?

Узнай цену на написание


Введение 4
1. Постановка задачи 6
2. Обзор литературы 7
2.1. Подходы, основанные на правилах и словарях 7
2.2. Машинное обучение с учителем 7
2.3. Машинное обучение без учителя 8
3. Используемые методы 9
3.1. Постановка задачи классификации 9
3.2. Классификаторы 9
3.2.1. Метод опорных векторов (SVM) 9
3.2.2. Наивный байесовский классификатор 11
3.3. Извлечение признаков 13
4. Описание набора данных 14
4.1. Наборы данных 14
4.2. Предобработка данных 15
5. Результаты экспериментов 16
5.1. Структура экспериментов 16
5.2. Методы оценки 16
5.3. Корпус автоматически размеченных текстов 17
5.4. Классификация тестовых коллекций 18
5.5. Вывод 19
Заключение 20
Список литературы 21

За последние несколько лет можно наблюдать большой рост в ис­пользовании социальных сетей и платформ для микроблоггинга, кото­рые стали очень популярным инструментом для общения среди поль­зователей Интернета. Миллионы сообщений появляются каждый день на таких сервисах как Twitter, Facebook, Vk. Авторы таких сообщений пишут об их жизни, делятся своими мнениями на различные темы и обсуждают злободненвные вопросы.
Так как все больше и больше пользователей пишут о продуктах, услугах, которые они используют, или выражают свои политические и религиозные взгляды, сайты для микроблоггинга становятся ценным источником информации о людях. Такие данные могут эффективно использоваться во многих областях, таких как маркетинг, реклама, ме­дицина, психология и социологические исследования.
Обработка текстов вручную с целью извлечения полезной информа­ции требует слишком много времени и человеческих ресурсов. В боль­шинстве случаев данны так много, что это делает данную задачу неосу­ществимой. Для решения этой проблемы существуют различные авто­матические методы анализа текста на естественных языках, в том числе автоматический анализ тональности текстов.
Основной задачей анализа тональности текстов является извлече­ние эмоциональной окраски из текстов. Эмоциональная окраска может определяться как ’’положительная”, ’’отрицательная” или же может при­нимать значения из некоторого промежутка, например от 0 до N. В данной области проводится все больше и больше исследований, и на данный момент существует много различных подходов, которые уже применяются при решении большого количества практических задач.
С помощью такого анализа текстов компании могут отслеживать то, как потребители относятся к их продукции и предоставляемым услу­гам. Полученные знания могут быть использованы для дальнейшего анализа и разработки новых маркетинговых стратегий. Также широкое применение можно найти в области социологических исследований. С помощью анализа эмоциональной окраски текстов можно узнавать о том как люди относятся к тому или иному событию, явлению, предме­ту. Используя данные из социальных сетей и автоматические методы обработки текстов, возможно получить эффективный и быстрый ин­струмент для извлечения наиболее релевантной информации об обще­стве.
Одной из наиболее популярных платформ, где пользователи посто­янно делятся своими мнениями, является Twitter. Twitter предоставля­ет удобный API для быстрого сбора сообщений пользователей - твитов. У твитов существует ряд особенностей, которые могут представлять сложности в использовании традиционных методов анализа текстов. На длину твита существует ограничение - 140 символов, также использу­ется неформальная речь с обилием сокращений, хэштегов, эмотиконов и упоминаний других пользователей.
В данной работе будет рассматриваться задача автоматического ана­лиза тональности русскоязычных текстов, собранных с платформы Twitter. Информация, полученная при применении методов анализа эмоцио­нальной окраски текстов, в дальнейшем может использоваться в со­циологических исследованиях.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе данной работы были решены поставленные задачи и достиг­нуты следующие результаты:
• Изучены основные методы для автоматическое определения то­нальности текстов.
• Собраны данные для обучения и тестирования классификаторов, а также проведена их предобработка.
• Проведено сравнение методов обучения с учителем для решения задачи классификации по тональности текстов на русском язы­ке. Анализировались результаты применения наивный байесов­ского классификатора, метода опорных векторов при использо­вании различных способов извлечения признаков.
• Получен вывод о сложности задачи и зависимости результатов от конкретной предметной области.


[1] Big data: methodological challenges and approaches for sociological analysis / Ramine Tinati, Susan Halford, Leslie Carr, Catherine Pope // Sociology. — 2014. — P. 0038038513511561.
[2] Hutto Clayton J, Gilbert Eric. Vader: A parsimonious rule-based model for sentiment analysis of social media text // Eighth International AAAI Conference on Weblogs and Social Media. — 2014.
[3] Pang Bo, Lee Lillian, Vaithyanathan Shivakumar. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 / Association for Computational Linguistics. — 2002. — P. 79-86.
[4] Read Jonathon. Using emoticons to reduce dependency in machine learning techniques for sentiment classification // Proceedings of the ACL student research workshop / Association for Computational Linguistics. — 2005. — P. 43-48.
[5] SentiRuEval: testing object-oriented sentiment analysis systems in russian / NV Loukachevitch, PD Blinov, EV Kotelnikov et al. // Proceedings of International Conference Dialog.— Vol. 2.— 2015.— P. 12-24.
[6] Turney Peter D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th annual meeting on association for computational linguistics / Association for Computational Linguistics. — 2002. — P. 417-424.
[7] Wang Sida, Manning Christopher D. Baselines and bigrams: Simple, good sentiment and topic classification // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2 / Association for Computational Linguistics. — 2012. — P. 90-94.
[8] Wikipedia. F1 score // Википедия, свободная энциклопедия.— 2016.— URL: https://en.wikipedia.org/wiki/F1_score (online; accessed: 17.04.2016).
[9] Wikipedia. Maximum likelihood // Википедия, свободная энцикло­педия.— 2016.— URL: https://en.wikipedia.org/wiki/Maximum_ likelihood (online; accessed: 17.04.2016).
[10] Wikipedia. N-gram // Википедия, свободная энциклопедия. — 2016.— URL: https://en.wikipedia.org/wiki/N-gram (online; accessed: 17.04.2016).
[11] Wikipedia. Pointwise mutual information // Википедия, свободная энциклопедия.— 2016.— URL: https://en.wikipedia.org/wiki/ Pointwise_mutual_information (online; accessed: 17.04.2016).
[12] Wikipedia. Precision and recall // Википедия, свободная энциклопе­дия. — 2016. — URL: https://en.wikipedia.org/wiki/Precision_ and_recall (online; accessed: 17.04.2016).
[13] Wikipedia. tf-idf // Википедия, свободная энциклопедия. — 2016. — URL: https://en.wikipedia.org/wiki/Tf-idf (online; accessed: 17.04.2016).
[14] Zhang Harry. The optimality of naive Bayes // AA. — 2004. — Vol. 1, no. 2. — P. 3.
[15] Zhang Tong. Solving large scale linear prediction problems using stochastic gradient descent algorithms // Proceedings of the twenty- first international conference on Machine learning / ACM. — 2004. — P. 116.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ