Тема: Лингвистическое исследование скрытых сообществ в корпусе социальных медиа с применением мультимодальных тематических моделей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 3
1. Графические, морфосинтаксические и семантические особенности текстов
сети Интернет 7
2. Скрытые сообщества 10
3. Создание модели скрытых сообществ и их лингвистические профили 12
ЗАКЛЮЧЕНИЕ 22
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 23
📖 Введение
Выпускная квалификационная работы в форме научного доклада выполнена на тему «Лингвистическое исследование скрытых сообществ в корпусе социальных медиа с применением мультимодальных тематических моделей». Автор работы — Мамаев Иван Дмитриевич, аспирант 3 курса филологического факультета кафедры математической лингвистики СПбГУ.
Работа состоит из введения, трех глав, заключения и списка использованной литературы. Во введении отражены актуальность работы, цель и задачи, научная новизна исследования, теоретическая и практическая значимость. Первая глава посвящена лингвистическим особенностям интернет-дискурса. Во второй главе уточнено понятие скрытых сообществ, а также представлены подходы к созданию моделей скрытых сообществ. Третья глава посвящена построению модели скрытых сообществ с помощью дискретной автор-тематической модели на основе русскоязычного корпуса социальной сети ВКонтакте. Для предложенной модели приводится соответствующее формальное и содержательное описание. Тематические скрытые сообщества подвергаются лингвистическому анализу на трех уровнях: морфологическом, синтаксическом и лексическом. В заключении обобщается проделанная работа, приводятся перспективы исследования.
Научный доклад содержит 26 страниц машинописного текста, 8 рисунков, 2 таблицы, 38 наименований в списке использованной литературы.
В отечественной корпусной лингвистике в последнее десятилетие наблюдается рост исследований корпусов на основе веба [Рубцова, 2015; Галаганова, Турусина, 2023], что связано с распространением подхода WaC (Web as Corpus). В частности, одним из новых направлений является лингвистическое описание пользовательских постов социальных сетей, имеющих единый тематический компонент. Подобные объединения пользователей могут формировать скрытые сообщества. Анализ скрытых сетевых сообществ применяется в различных областях знаний. Например, в социологии закрытые форумы частные чаты могут предоставить уникальные данные о мнениях и менталитете участников [Градосельская, Щеглова, Карпов, 2019]. В криминологии изучение скрытых сетевых сообществ позволяет правоохранительным органам выявлять угрозы и противостоять им [Кириченко, Радивилова, Барановский, 2017]. Лингвисты исследуют коэффициенты логической связности и лексического разнообразия текстов социальных сетей [Попов, Чеповский, 2022, с. 41-42]. Для получения детальных результатов в данной области требуется использовать подходы, сочетающие процедуры на основе искусственного интеллекта и традиционные лингвистические процедуры. Именно возросшая потребность в использовании комбинации этих процедур и обуславливает актуальность исследования.
Цель исследования — описание лингвистических профилей пользователей скрытых сообществ. Для достижения данной цели необходимо решить ряд задач:
1) описание лингвистических особенностей интернет-текстов;
2) уточнение понятия «скрытые сообщества»;
3) описание существующих подходов моделирования структуры скрытых сообществ;
4) сбор и обработка исследовательского корпуса;
5) создание модели скрытых сообществ методами тематического моделирования;
6) лингвистическое профилирование скрытых сообществ.
Объект исследования — скрытые сообщества, выделенные с помощью мультимодального тематического моделирования в русскоязычном корпусе социальной сети ВКонтакте. Предмет исследования — лингвистические параметры скрытых сообществ.
Гипотеза исследования сформулирована следующим образом: морфосинтаксические особенности постов наиболее ярко характеризуют итоговые скрытые сообщества.
В данной работе используются методы корпусной лингвистики, вероятностного тематического моделирования и комбинаторностатистического анализа.
Научная новизна исследования заключается в том, что, в отличие от предыдущих исследований, для моделирования скрытых сообществ применяется дискретная контекстуализированная автор-тематическая модель, которая формирует список персонализированных (англ. personalized) лемм- тематизаторов.
Теоретическая значимость исследования заключается в том, что оно призвано заполнить существующие пробелы в лингвистическом моделировании скрытых сообществ: идентификация лидеров мнений по лингвистическим параметрам, выявление пользователей, которые ведут активное информационное-психологическое воздействие и пр. Практическая значимость работы состоит в возможности применения разработанной методики в русскоязычном сегменте социальных сетей для создания системы модерации групп пользователей.
Основные положения исследования были отражены в научных докладах, которые автор представил на научных конференциях российского и международного уровней.
1. Международная конференция Artificial Intelligence and Natural Language Conference (2020, Финляндия, Хельсинки, онлайн).
2. Международный семинар Computational Models in Language and Speech в рамках международной конференции TEL (2020, Россия, Казань, онлайн).
3. XIV Научно-практическая конференция «Инновационные технологии и технические средства специального назначения» (2021, Россия, Санкт- Петербург).
4. 50-я Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой (2022, Россия, Санкт-Петербург, онлайн).
5. Международный семинар Computational Linguistics в рамках международной конференции Internet and Modern Society (2022, Россия, Санкт-Петербург).
Основные публикации.
1. Mamaev I., Mitrofanova O. Automatic Detection of Hidden Communities in the Texts of Russian Social Network Corpus // Artificial Intelligence and Natural Language. AINL 2020. Communications in Computer and Information Science. — Vol. 1292. — Springer, Cham, 2020. — P. 17-33 (Scopus).
2. Mamaev I., Mitrofanova O. Hidden Communities in the Russian Social Network Corpus: a Comparative Study of Detection Methods // Proceedings of the Computational Models in Language and Speech Workshop (CMLS 2020) co-located with 16th International Conference on Computational and Cognitive Linguistics (TEL 2020). — 2020. — P. 69-78 (Scopus).
3. Mamaev I., Mitrofanova O. Adaptation of Static and Contextualized Topic Modeling Techniques to Hidden Community Detection // International Conference on Internet and Modern Society. — Cham: Springer Nature Switzerland, 2022. — P. 85-97 (Scopus).
4. Мамаев И. Д. Лингвистические особенности обработки текстов
социальных сетей при построении модели скрытых сообществ // Инновационные технологии и технические средства специального назначения: Труды четырнадцатой общероссийской научно
практической конференции. — Т. 2. — 2022. — С. 312-315 (РИНЦ).
5. Mamaev I. D., Mitrofanova O. A. LiveJournal topic models and their improvement with contextualized representations for creating a model of hidden communities // International Journal of Open Information Technologies. — 2022. — Т. 10. — № 11. — С. 54-59 (ВАК).
6. Мамаев И. Д., Митрофанова О. А. Лингвистические параметры для идентификации скрытых сетевых сообществ // Terra Linguistica. - 2024. — Т. 15. — №. 1. — С. 102-115 (ВАК, 5.9.8).
7. Мамаев И. Д. Лингвистические профили скрытых сообществ: морфосинтаксический аспект // Филологические науки. Вопросы теории и практики. — 2024. — Т. 17. — Вып. 4. — С. 1155-1162 (ВАК, 5.9.8).
8. Мамаев И. Д. Кластерный анализ лингвистических профилей скрытых сообществ // Филологические науки. Вопросы теории и практики. — 2024. - Т. 17. — Вып. 5. — С. 1739-1747. (ВАК, 5.9.8).
✅ Заключение
В качестве перспектив исследования отметим следующее. Во-первых, можно продолжить автоматизацию предложенной методики с точки зрения разработки алгоритма автоматического назначения меток тем. Во-вторых, для отражения динамики языковых корреляций могут использовать динамические тематические модели. Наконец, для дальнейших исследований в профили можно включить психологические и биологические параметры пользователей.





