Тема: Контекстная обработка данных социальных сетей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
Обзор литературы 5
Глава 1. Подготовка данных 6
1.1 Обзор социальных сетей 6
1.2 Выбор социальной сети и загрузка данных 7
1.3 Предварительная обработка данных 10
1.4 Результаты предварительной обработки 14
Глава 2. Выбор и построение тематической модели 15
2.1 Тематическое моделирование 15
2.2 Выбор тематической модели 16
Глава 3. Качество тематической модели 21
3.1 Перплексия 21
3.2 Экспертная оценка 22
3.3 Когерентность 22
3.4 Характеристики ядер тем 23
Глава 4. Эксперименты 24
4.1 Обучающая и тестовая выборки 24
4.1 Пример обучения тематической модели 25
4.2 Перплексия 27
4.3 Когерентность 29
4.4 Результаты 30
Анализ результатов 31
Заключение 33
Список литературы 34
Приложение A 36
Приложение B
📖 Введение
Существенным барьером при использовании социальных сетей является необходимость выбора методологии для сбора, обработки и анализа информации, полученной с сайтов социальных сетей. Однако, существуют компании по производству программного обеспечения, разрабатывающие проприетарные системы сбора информации для визуализации данных, и исследователи, занимающиеся разработкой экспертных систем для анализа настроений [1].
Пользователи социальных сетей ежедневно публикуют данные о своей активности, чувствах и мыслях, выражая свое мнение и позицию. Это способствует появлению в социальных сетях групп пользователей (сообществ), имеющих общие интересы. Для выявления ключевых концепций и тематик присущих группе пользователей используется контекстная обработка генерируемого ими контента. В данной работе контекстная обработка данных основана на идеях и принципах тематического моделирования. Результаты такой обработки могут использоваться для мониторинга мнений и политических взглядов пользователей или для предсказания поведения рынка.
✅ Заключение
В результате экспериментов выяснилось, что модель LDA хорошо справляется с задачей выделения ключевых тематик и концепций в коллекции документов, а значит применима для контекстной обработки данных.
Для дальнейших исследований имеет смысл рассмотреть робастные тематические модели и методы аддитивной регуляризации тематических моделей. Робастные модели основываются на том, что на появление отдельных терминов в документе влияет не только тематика документа, но также фон и шум. К фону, как правило, относятся стоп-слова, которые не удалось отбросить на стадии предварительной предобработки. К шуму относятся термины, характерные для конкретного документа. Методы аддитивной регуляризации позволяют создавать большое число разнообразных тематических моделей, не прибегая к вероятностным допущениям, как это было сделано в модели LDA.



