📄Работа №62741

Тема: Контекстная обработка данных социальных сетей

📝

Тип работы Дипломные работы, ВКР

📚

Предмет информатика

📄

Объем: 44 листов

📅

Год: 2016

👁️

4385 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Подготовка данных 6
1.1 Обзор социальных сетей 6
1.2 Выбор социальной сети и загрузка данных 7
1.3 Предварительная обработка данных 10
1.4 Результаты предварительной обработки 14
Глава 2. Выбор и построение тематической модели 15
2.1 Тематическое моделирование 15
2.2 Выбор тематической модели 16
Глава 3. Качество тематической модели 21
3.1 Перплексия 21
3.2 Экспертная оценка 22
3.3 Когерентность 22
3.4 Характеристики ядер тем 23
Глава 4. Эксперименты 24
4.1 Обучающая и тестовая выборки 24
4.1 Пример обучения тематической модели 25
4.2 Перплексия 27
4.3 Когерентность 29
4.4 Результаты 30
Анализ результатов 31
Заключение 33
Список литературы 34
Приложение A 36
Приложение B

📖 Введение

В настоящее время явление социальных сетей достаточно распространено. Социальные сети уверенно вошли в жизнь современного человека и теперь занимают в ней значимую часть. Главным образом они оказывают влияние на поведение, предубеждения, ценности и намерения человека, что отражается во всех сферах его деятельности. Оказываемое влияние, быстрый рост популярности и открытый доступ к контенту привлекли к социальным сетям внимание правительства, финансовых организаций и исследователей. Выделение ключевых концепций стало важным условием для порождения знаний и формулирования стратегий. Анализ полученных данных помогает исследователям улучшить понимание об информационных потоках, о формировании и распространении мнений, о связи ценностей и предубеждений пользователя и генерируемого им контента.
Существенным барьером при использовании социальных сетей является необходимость выбора методологии для сбора, обработки и анализа информации, полученной с сайтов социальных сетей. Однако, существуют компании по производству программного обеспечения, разрабатывающие проприетарные системы сбора информации для визуализации данных, и исследователи, занимающиеся разработкой экспертных систем для анализа настроений [1].
Пользователи социальных сетей ежедневно публикуют данные о своей активности, чувствах и мыслях, выражая свое мнение и позицию. Это способствует появлению в социальных сетях групп пользователей (сообществ), имеющих общие интересы. Для выявления ключевых концепций и тематик присущих группе пользователей используется контекстная обработка генерируемого ими контента. В данной работе контекстная обработка данных основана на идеях и принципах тематического моделирования. Результаты такой обработки могут использоваться для мониторинга мнений и политических взглядов пользователей или для предсказания поведения рынка.

✅ Заключение

В рамках данной работы было рассмотрено применение вероятностных тематических моделей для контекстной обработки данных, полученных из сообществ социальной сети VKontakte в виде текстов публикаций. Для достижения этой цели были реализованы алгоритмы для загрузки данных из социальной сети, предварительной обработки данных и построения тематической модели LDA. В ходе экспериментов была проведена оценка качества нескольких тематических моделей, среди которых была выбрана модель с лучшими оценками качества. Также эксперименты показали зависимость качества модели от количества тематик и ее гиперпараметров.
В результате экспериментов выяснилось, что модель LDA хорошо справляется с задачей выделения ключевых тематик и концепций в коллекции документов, а значит применима для контекстной обработки данных.
Для дальнейших исследований имеет смысл рассмотреть робастные тематические модели и методы аддитивной регуляризации тематических моделей. Робастные модели основываются на том, что на появление отдельных терминов в документе влияет не только тематика документа, но также фон и шум. К фону, как правило, относятся стоп-слова, которые не удалось отбросить на стадии предварительной предобработки. К шуму относятся термины, характерные для конкретного документа. Методы аддитивной регуляризации позволяют создавать большое число разнообразных тематических моделей, не прибегая к вероятностным допущениям, как это было сделано в модели LDA.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Arturas Kaklauskas Biometric and Intelligent Decision Making Support. Springer, 2015. 220 p.
[2] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze Introduction to Information Retrieval. Cambridge University Press, 2008. 506 p.
[3] Thomas Hofmann Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999. P. 50 - 57.
[4] David Blei, Andrew Y. Ng, Michael I. Jordan Latent Dirichlet Allocation // Journal of Machine Learning Research 3, 2003. P. 993 - 1022.
[5] David Blei Introduction to Probabilistic Topic Models. Communications of the ACM, 2012. P. 77 - 84.
[6] Gregor Heinrich Parameter estimation for text analysis. Technical report. Fraunhofer IGD, Darmstadt, Germany, 2005.
[7] Воронцов К.В. Вероятностное тематическое моделирование. Москва, 2013.
[8] Number of global social network users 2010-2019. http://www.statista.com/statistics/278414/number-of-worldwide-social- network-users/
[9] Global social networks ranked by number of users 2016. http://www.statista.com/statistics/272014/global-social-networks-ranked- by-number-of-users/
[10] API VKontakte. https://vk.com/dev/apiusage
[11] Методы API VKontakte. https://vk.com/dev/methods
[12] Эмотикон. https://ru.wikipedia.org/wiki/Эмотикон
[13] Хеш-функция. https://ru.wikipedia.org/wiki/Хеширование
[14] Документация морфологического анализатора pymorphy2. https://pymorphy2.readthedocs.io/en/latest/
[15] Документация pymystem3. https://pypi.python.Org/pypi/pymystem3/0.1.1
[16] Документация nltk. http://www.nltk.org/
[17] Документация stop_words https://pypi.python.org/pypi/stop-words
[18] Thomas Minka Expectation Propagation for Approximate Bayesian Inference // Proceedings of the 17th Conference in Uncertainty in Artificial Intelligence. University of Washington, Seattle, Washington, USA, 2001. P. 362 - 369.
[19] Newman D., Lau J. H., Grieser K., Baldwin T. Automatic evaluation of topic coherence // Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. HLT ’10. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. P. 100 - 108.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209234)

Статьи

»» Все статьи

Вход в личный кабинет