Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕРНЕТ И СОЦИАЛЬНЫЕ СЕТИ 9
1.1. Интернет-общение и его лингвистические особенности 9
1.2. Определение социальных сетей и проблемы их анализа 15
Выводы к первой главе 19
ГЛАВА 2. СКРЫТЫЕ СООБЩЕСТВА 20
2.1. Скрытые сообщества: определение и применение 20
2.2. Определение скрытых сообществ в социальных сетях математическими методами 24
2.3. Кластерный анализ как способ определения скрытых сообществ в социальных сетях 27
Выводы ко второй главе 31
ГЛАВА 3. МЕТОДОЛОГИЧЕСКИЕ ОСНОВАНИЯ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ 32
3.1. Определение и основные понятия тематического моделирования 32
3.2. Автоматическое назначение меток тем 38
Выводы к третьей главе 42
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ВЫЯВЛЕНИЕ СКРЫТЫХ СООБЩЕСТВ В СОЦИАЛЬНЫХ СЕТЯХ 43
4.1. Создание корпуса постов социальной сети ВКонтакте 43
4.2. Построение автор-тематической модели 47
4.3. Разработка алгоритма автоматического назначение меток тем 50
4.4. Построение модели скрытых сообществ 55
4.5. Сравнение различных методов выявления скрытых сообществ, оценка и анализ результатов 62
Выводы к четвёртой главе 68
ЗАКЛЮЧЕНИЕ 69
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 71
СПИСОК ЭЛЕКТРОННЫХ РЕСУРСОВ 80
ПРИЛОЖЕНИЕ 1. ПРИМЕРЫ НЕКОТОРЫХ ВИЗУАЛИЗИРОВАННЫХ ТЕМАТИЧЕСКИХ МОДЕЛЕЙ 83
ПРИЛОЖЕНИЕ 2. РЕЗУЛЬТАТЫ ЭКСПЕРТНЫХ ОЦЕНОК ДЛЯ КАНДИДАТОВ В МЕТКИ ТЕМ 87
📖 Введение
В связи со стремительным ростом информационных технологий внимание исследователей социальных сетей приковано к текстам пользователей и выявлению связей между ними. Социальные сети – это зеркало общества, они позволяют оценить тенденции развития социума по формальным признакам. На основании общности этих тенденций выделяют пользовательские сегменты – скрытые сообщества. Для анализа используют графовые методы или кластерный анализ, однако эти методы чаще всего упускают из вида лингвистические признаки. Современные алгоритмы компьютерной лингвистики позволяют упростить задачу анализа дискурса, обработать и представить репрезентативные данные для больших текстовых коллекций, в том числе и для постов социальных сетей. Основываясь на тематической структуре текстов, можно выявить более устойчивые связи между пользователями.
Актуальность работы обусловлена необходимостью сочетания методов лингвистического и количественного анализа данных для построения семантической сети пользователей на основе тематической близости их постов.
Новизна исследования заключается в том, что в данной работе обсуждаются эксперименты по выявлению скрытых сообществ методами тематического моделирования и автоматического назначения меток тем, которые впервые выполнены на корпусе постов русскоязычных пользователей ВКонтакте .
Объект исследования–скрытые сообщества, выявленные с помощью алгоритмов тематического моделирования среди пользователей русскоязычного сегмента социальной сети ВКонтакте.
Предмет исследования–количественные и качественные параметры скрытых сообществ, которые позволяют судить об актуальном состоянии групп и их тематике.
Цель исследования состоит в том, чтобы выявить скрытые связи между пользовательскими постами социальных сетей, основанные на общности лингвистических параметров текстов и их тематики.
Для достижения данной цели требуется решить следующие задачи:
1) исследовать специфику интернет-дискурса и выявить специфические лингвистические параметры текстов социальных сетей;
2) подготовить лингвистические данные для проведения экспериментов: произвести сборку и предобработку исследовательского корпуса;
3) разработать процедуру выявления скрытых связей между текстами социальных сетей;
4) произвести планирование и проведение экспериментов:
a) построение автор-тематической модели ATM для определения тематической специализации авторов;
b) автоматическое назначение меток тем из внешних и внутренних источников;
c) соотнесение данных о тематике текстов авторов с формулировками их интересов и с принадлежностью их к тем или иным сообществам;
d) выявление скрытых групп авторов с точки зрения общности их интересов;
e) сравнение трёх методов выделения скрытых сообществ: графового, кластерного и смешанного.
5) оценить результаты экспериментов.
Материалом исследования послужил корпус объёмом25768 русскоязычных постов 714 пользователей социальной сети ВКонтакте объёмом 8679402токенов.
Гипотеза исследования формулируется следующим образом: алгоритмы тематического моделирования позволяют выявить семантическое сходство анализируемых текстов, поэтому они могут применяться для построения моделей скрытых сообществ.
В данной работе применяются методы корпусной лингвистики, дистрибутивной семантики, вероятностного тематического моделирования и лингвистические приёмы анализа интернет-дискурса. Также были использованы следующие инструменты:
1) библиотекаgensim для построения дистрибутивной и тематической моделей корпуса;
2) библиотека pymorphy2 для морфологического анализа русскоязычных постов;
3) приложение Gephi для визуализации модели скрытых сообществ (на основе тематического моделирования и на основе графовых методов);
4) библиотеки scikit-learn иmatplotlib для построения кластеров скрытых сообществ.
Теоретическая значимость исследования состоит в создании методики выявления скрытых сообществ на основе тематического сходства текстов корпуса.
Практическая значимость исследования заключается в том, что результаты исследования могут быть использованы для решения дальнейших задач не только в компьютерной лингвистике, но и в социологии: выявление онлайн-трендов, выявление потенциально опасных группировок и т.д.
Объём и структура диссертации. Работа состоит из четырёх глав, введения, заключения, списка использованной литературы, списка электронных ресурсов и двух приложений. В главах1–3отражены теоретические аспекты исследования. Глава 4 посвящена экспериментам с корпусом постов: сбор и обработка текстовых данных, построение тематической модели, автоматическое назначение меток тем, а также графическая реализация модели скрытых сообществ. В работе обсуждаются сложности, с которыми пришлось столкнуться при реализации экспериментов, а также делаются выводы по каждому этапу. В приложениях объёмом10 стр. приведены примеры визуализированных тематических моделей и результаты экспертных оценок для автоматически извлечённых меток тем. Общий объём работы –92 стр., основное содержание изложено на 82 стр. В тексте ВКР содержится4 таблицы, 5 диаграмм и 16 рисунков. Список литературы включает70источников, из них – 30 на русском языке, 40 – на иностранных. Список электронных ресурсов состоит из 28 позиций.
Для ознакомления с корпусом пользовательских постов, скриптами программ по тематическому моделированию и автоматическому назначению меток тем, а также визуализированными результатами необходимо перейти в репозиторий GitHub .
Основные положения данной ВКР были представлены в следующих публикациях.
1. Mamaev I. Automatic Detection of Hidden Communities in the Texts of Russian Social Network Corpus / I. Mamaev, O. Mitrofanova // Artificial Intelligence and Natural Language. AINL 2020. Communications in Computer and Information Science. — Vol. 1292. — Springer, Cham, 2020. — P. 17–33.
2. Mamaev I. Hidden Communities in the Russian Social Network Corpus: a Comparative Study of Detection Methods / I. Mamaev, O. Mitrofanova // Proceedings of the Computational Models in Language and Speech Workshop (CMLS 2020)co-located with 16th International Conference on Computational and Cognitive Linguistics (TEL 2020). — 2020. — P. 69–78.
✅ Заключение
На сегодняшний день люди активно пользуются социальными сетями: они обсуждают бытовые или рабочие дела, играют или ищут различный контент. Наше знание о способах интернет-общения растёт быстро, мы начинаем замечать, что между всеми вещами в интернет-пространстве существует гораздо большая взаимосвязь, чем мы предполагали ранее. Такая же взаимосвязь существует и между пользователями. Обнаружение скрытых сообществ и присущих им особенностей помогает нам всесторонне понять окружающее нас общество и объяснить сложные социальные явления.
Многие исследователи при построении алгоритмов поиска скрытых сообществ часто используют графовые методы. Объединение тематического моделирования и автоматического назначения меток тем позволяет восполнить пробелы в теории выявления скрытых сообществ.
В данной выпускной квалификационной работе был предложен гибридный алгоритм обнаружения сообществ русскоязычной социальной сети, были описаны преимущества и недостатки, а также проведён сравнительный анализ с уже существующими методами. Результаты позволяют получить новую информацию о возможных социальных группировках в интернет-пространстве. Качественная оценка процедур показала, что, несмотря на трудности при работе с постами социальных сетей, они сопоставимы с методами, основанными на математических моделях. Гипотеза, выдвинутая в работе, подтвердилась.
Использование данных из социальных сетей позволяет решить ряд смежных задач: например, отслеживание тенденций среди пользователей и, как следствие, создание соответствующего контента. Дальнейшие исследования будут связаны:
• с увеличением корпуса, включая посты других российских онлайн-платформ, что позволит обнаружить скрытые сообщества пользователей в различных социальных сетях;
• с привлечением других алгоритмов тематического моделирования: например, динамическое тематическое моделирование позволит сформировать динамические структуры скрытых сообществ и оценить изменение интересов пользователей в разные временные периоды;
• с улучшением алгоритма автоматического назначения меток тем и созданием «золотого стандарта» для оценки извлечённых кандидатов.