Тип работы:
Предмет:
Язык работы:


Контекстная обработка данных социальных сетей

Работа №62741

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы44
Год сдачи2016
Стоимость4385 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
39
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Подготовка данных 6
1.1 Обзор социальных сетей 6
1.2 Выбор социальной сети и загрузка данных 7
1.3 Предварительная обработка данных 10
1.4 Результаты предварительной обработки 14
Глава 2. Выбор и построение тематической модели 15
2.1 Тематическое моделирование 15
2.2 Выбор тематической модели 16
Глава 3. Качество тематической модели 21
3.1 Перплексия 21
3.2 Экспертная оценка 22
3.3 Когерентность 22
3.4 Характеристики ядер тем 23
Глава 4. Эксперименты 24
4.1 Обучающая и тестовая выборки 24
4.1 Пример обучения тематической модели 25
4.2 Перплексия 27
4.3 Когерентность 29
4.4 Результаты 30
Анализ результатов 31
Заключение 33
Список литературы 34
Приложение A 36
Приложение B


В настоящее время явление социальных сетей достаточно распространено. Социальные сети уверенно вошли в жизнь современного человека и теперь занимают в ней значимую часть. Главным образом они оказывают влияние на поведение, предубеждения, ценности и намерения человека, что отражается во всех сферах его деятельности. Оказываемое влияние, быстрый рост популярности и открытый доступ к контенту привлекли к социальным сетям внимание правительства, финансовых организаций и исследователей. Выделение ключевых концепций стало важным условием для порождения знаний и формулирования стратегий. Анализ полученных данных помогает исследователям улучшить понимание об информационных потоках, о формировании и распространении мнений, о связи ценностей и предубеждений пользователя и генерируемого им контента.
Существенным барьером при использовании социальных сетей является необходимость выбора методологии для сбора, обработки и анализа информации, полученной с сайтов социальных сетей. Однако, существуют компании по производству программного обеспечения, разрабатывающие проприетарные системы сбора информации для визуализации данных, и исследователи, занимающиеся разработкой экспертных систем для анализа настроений [1].
Пользователи социальных сетей ежедневно публикуют данные о своей активности, чувствах и мыслях, выражая свое мнение и позицию. Это способствует появлению в социальных сетях групп пользователей (сообществ), имеющих общие интересы. Для выявления ключевых концепций и тематик присущих группе пользователей используется контекстная обработка генерируемого ими контента. В данной работе контекстная обработка данных основана на идеях и принципах тематического моделирования. Результаты такой обработки могут использоваться для мониторинга мнений и политических взглядов пользователей или для предсказания поведения рынка.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы было рассмотрено применение вероятностных тематических моделей для контекстной обработки данных, полученных из сообществ социальной сети VKontakte в виде текстов публикаций. Для достижения этой цели были реализованы алгоритмы для загрузки данных из социальной сети, предварительной обработки данных и построения тематической модели LDA. В ходе экспериментов была проведена оценка качества нескольких тематических моделей, среди которых была выбрана модель с лучшими оценками качества. Также эксперименты показали зависимость качества модели от количества тематик и ее гиперпараметров.
В результате экспериментов выяснилось, что модель LDA хорошо справляется с задачей выделения ключевых тематик и концепций в коллекции документов, а значит применима для контекстной обработки данных.
Для дальнейших исследований имеет смысл рассмотреть робастные тематические модели и методы аддитивной регуляризации тематических моделей. Робастные модели основываются на том, что на появление отдельных терминов в документе влияет не только тематика документа, но также фон и шум. К фону, как правило, относятся стоп-слова, которые не удалось отбросить на стадии предварительной предобработки. К шуму относятся термины, характерные для конкретного документа. Методы аддитивной регуляризации позволяют создавать большое число разнообразных тематических моделей, не прибегая к вероятностным допущениям, как это было сделано в модели LDA.



[1] Arturas Kaklauskas Biometric and Intelligent Decision Making Support. Springer, 2015. 220 p.
[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze Introduction to Information Retrieval. Cambridge University Press, 2008. 506 p.
[3] Thomas Hofmann Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999. P. 50 - 57.
[4] David Blei, Andrew Y. Ng, Michael I. Jordan Latent Dirichlet Allocation // Journal of Machine Learning Research 3, 2003. P. 993 - 1022.
[5] David Blei Introduction to Probabilistic Topic Models. Communications of the ACM, 2012. P. 77 - 84.
[6] Gregor Heinrich Parameter estimation for text analysis. Technical report. Fraunhofer IGD, Darmstadt, Germany, 2005.
[7] Воронцов К.В. Вероятностное тематическое моделирование. Москва, 2013.
[8] Number of global social network users 2010-2019. http://www.statista.com/statistics/278414/number-of-worldwide-social- network-users/
[9] Global social networks ranked by number of users 2016. http://www.statista.com/statistics/272014/global-social-networks-ranked- by-number-of-users/
[10] API VKontakte. https://vk.com/dev/apiusage
[11] Методы API VKontakte. https://vk.com/dev/methods
[12] Эмотикон. https://ru.wikipedia.org/wiki/Эмотикон
[13] Хеш-функция. https://ru.wikipedia.org/wiki/Хеширование
[14] Документация морфологического анализатора pymorphy2. https://pymorphy2.readthedocs.io/en/latest/
[15] Документация pymystem3. https://pypi.python.Org/pypi/pymystem3/0.1.1
[16] Документация nltk. http://www.nltk.org/
[17] Документация stop_words https://pypi.python.org/pypi/stop-words
[18] Thomas Minka Expectation Propagation for Approximate Bayesian Inference // Proceedings of the 17th Conference in Uncertainty in Artificial Intelligence. University of Washington, Seattle, Washington, USA, 2001. P. 362 - 369.
[19] Newman D., Lau J. H., Grieser K., Baldwin T. Automatic evaluation of topic coherence // Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. HLT ’10. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. P. 100 - 108.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ