Тип работы:
Предмет:
Язык работы:


Контекстная обработка данных социальных сетей

Работа №131720

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы44
Год сдачи2016
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
28
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Подготовка данных 6
1.1 Обзор социальных сетей 6
1.2 Выбор социальной сети и загрузка данных 7
1.3 Предварительная обработка данных 10
1.4 Результаты предварительной обработки 14
Глава 2. Выбор и построение тематической модели 15
2.1 Тематическое моделирование 15
2.2 Выбор тематической модели 16
Глава 3. Качество тематической модели 21
3.1 Перплексия 21
3.2 Экспертная оценка 22
3.3 Когерентность 22
3.4 Характеристики ядер тем 23
Глава 4. Эксперименты 24
4.1 Обучающая и тестовая выборки 24
4.1 Пример обучения тематической модели 25
4.2 Перплексия 27
4.3 Когерентность 29
4.4 Результаты 30
Анализ результатов 31
Заключение 33
Список литературы 34
Приложение A 36
Приложение B 37

В настоящее время явление социальных сетей достаточно распростра­нено. Социальные сети уверенно вошли в жизнь современного человека и теперь занимают в ней значимую часть. Главным образом они оказывают влияние на поведение, предубеждения, ценности и намерения человека, что отражается во всех сферах его деятельности. Оказываемое влияние, быст­рый рост популярности и открытый доступ к контенту привлекли к соци­альным сетям внимание правительства, финансовых организаций и иссле­дователей. Выделение ключевых концепций стало важным условием для порождения знаний и формулирования стратегий. Анализ полученных дан­ных помогает исследователям улучшить понимание об информационных потоках, о формировании и распространении мнений, о связи ценностей и предубеждений пользователя и генерируемого им контента.
Существенным барьером при использовании социальных сетей явля­ется необходимость выбора методологии для сбора, обработки и анализа информации, полученной с сайтов социальных сетей. Однако, существу­ют компании по производству программного обеспечения, разрабатываю­щие проприетарные системы сбора информации для визуализации данных, и исследователи, занимающиеся разработкой экспертных систем для ана­лиза настроений [1].
Пользователи социальных сетей ежедневно публикуют данные о сво­ей активности, чувствах и мыслях, выражая свое мнение и позицию. Это способствует появлению в социальных сетях групп пользователей (сооб­ществ), имеющих общие интересы. Для выявления ключевых концепций и тематик присущих группе пользователей используется контекстная обра­ботка генерируемого ими контента. В данной работе контекстная обработка данных основана на идеях и принципах тематического моделирования. Ре­зультаты такой обработки могут использоваться для мониторинга мнений и политических взглядов пользователей или для предсказания поведения рынка.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы было рассмотрено применение вероятност­ных тематических моделей для контекстной обработки данных, получен­ных из сообществ социальной сети VKontakte в виде текстов публикаций. Для достижения этой цели были реализованы алгоритмы для загрузки дан­ных из социальной сети, предварительной обработки данных и построения тематической модели LDA. В ходе экспериментов была проведена оценка качества нескольких тематических моделей, среди которых была выбра­на модель с лучшими оценками качества. Также эксперименты показали зависимость качества модели от количества тематик и ее гиперпараметров.
В результате экспериментов выяснилось, что модель LDA хорошо справляется с задачей выделения ключевых тематик и концепций в коллек­ции документов, а значит применима для контекстной обработки данных.
Для дальнейших исследований имеет смысл рассмотреть робастные тематические модели и методы аддитивной регуляризации тематических моделей. Робастные модели основываются на том, что на появление от­дельных терминов в документе влияет не только тематика документа, но также фон и шум. К фону, как правило, относятся стоп-слова, которые не удалось отбросить на стадии предварительной предобработки. К шу­му относятся термины, характерные для конкретного документа. Методы аддитивной регуляризации позволяют создавать большое число разнооб­разных тематических моделей, не прибегая к вероятностным допущениям, как это было сделано в модели LDA.


[1] Arturas Kaklauskas Biometric and Intelligent Decision Making Support. Springer, 2015. 220 p.
[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schiitze Introduction to Information Retrieval. Cambridge University Press, 2008. 506 p.
[3] Thomas Hofmann Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999. P. 50 - 57.
[4] David Blei, Andrew Y. Ng, Michael I. Jordan Latent Dirichlet Allocation // Journal of Machine Learning Research 3, 2003. P. 993 - 1022.
[5] David Blei Introduction to Probabilistic Topic Models. Communications of the ACM, 2012. P. 77 - 84.
[6] Gregor Heinrich Parameter estimation for text analysis. Technical report. Fraunhofer IGD, Darmstadt, Germany, 2005.
[7] Воронцов К.В. Вероятностное тематическое моделирование. Москва, 2013.
[8] Number of global social network users 2010-2019. http://www.statista.com/statistics/278414/number-of-worldwide-social- network-users/
[9] Global social networks ranked by number of users 2016. http://www.statista.com/statistics/272014/global-social-networks-ranked- by-number-of-users/
[10] API VKontakte. https://vk.com/dev/apiusage
[11] Методы API VKontakte. https://vk.com/dev/methods
[12] Эмотикон. https://ru.wikipedia.org/wiki/Эмотикон
[13] Хеш-функция. https://ru.wikipedia.org/wiki/Хеширование
[14] Документация морфологического анализатора pymorphy2. https://pymorphy2.readthedocs.io/en/latest/
[15] Документация pymystem3. https://pypi.python.Org/pypi/pymystem3/0.1.1
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ