Аннотация 2
ВВЕДЕНИЕ 3
1. Графические, морфосинтаксические и семантические особенности текстов
сети Интернет 7
2. Скрытые сообщества 10
3. Создание модели скрытых сообществ и их лингвистические профили 12
ЗАКЛЮЧЕНИЕ 22
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 23
Аннотация
Выпускная квалификационная работы в форме научного доклада выполнена на тему «Лингвистическое исследование скрытых сообществ в корпусе социальных медиа с применением мультимодальных тематических моделей». Автор работы — Мамаев Иван Дмитриевич, аспирант 3 курса филологического факультета кафедры математической лингвистики СПбГУ.
Работа состоит из введения, трех глав, заключения и списка использованной литературы. Во введении отражены актуальность работы, цель и задачи, научная новизна исследования, теоретическая и практическая значимость. Первая глава посвящена лингвистическим особенностям интернет-дискурса. Во второй главе уточнено понятие скрытых сообществ, а также представлены подходы к созданию моделей скрытых сообществ. Третья глава посвящена построению модели скрытых сообществ с помощью дискретной автор-тематической модели на основе русскоязычного корпуса социальной сети ВКонтакте. Для предложенной модели приводится соответствующее формальное и содержательное описание. Тематические скрытые сообщества подвергаются лингвистическому анализу на трех уровнях: морфологическом, синтаксическом и лексическом. В заключении обобщается проделанная работа, приводятся перспективы исследования.
Научный доклад содержит 26 страниц машинописного текста, 8 рисунков, 2 таблицы, 38 наименований в списке использованной литературы.
В отечественной корпусной лингвистике в последнее десятилетие наблюдается рост исследований корпусов на основе веба [Рубцова, 2015; Галаганова, Турусина, 2023], что связано с распространением подхода WaC (Web as Corpus). В частности, одним из новых направлений является лингвистическое описание пользовательских постов социальных сетей, имеющих единый тематический компонент. Подобные объединения пользователей могут формировать скрытые сообщества. Анализ скрытых сетевых сообществ применяется в различных областях знаний. Например, в социологии закрытые форумы частные чаты могут предоставить уникальные данные о мнениях и менталитете участников [Градосельская, Щеглова, Карпов, 2019]. В криминологии изучение скрытых сетевых сообществ позволяет правоохранительным органам выявлять угрозы и противостоять им [Кириченко, Радивилова, Барановский, 2017]. Лингвисты исследуют коэффициенты логической связности и лексического разнообразия текстов социальных сетей [Попов, Чеповский, 2022, с. 41-42]. Для получения детальных результатов в данной области требуется использовать подходы, сочетающие процедуры на основе искусственного интеллекта и традиционные лингвистические процедуры. Именно возросшая потребность в использовании комбинации этих процедур и обуславливает актуальность исследования.
Цель исследования — описание лингвистических профилей пользователей скрытых сообществ. Для достижения данной цели необходимо решить ряд задач:
1) описание лингвистических особенностей интернет-текстов;
2) уточнение понятия «скрытые сообщества»;
3) описание существующих подходов моделирования структуры скрытых сообществ;
4) сбор и обработка исследовательского корпуса;
5) создание модели скрытых сообществ методами тематического моделирования;
6) лингвистическое профилирование скрытых сообществ.
Объект исследования — скрытые сообщества, выделенные с помощью мультимодального тематического моделирования в русскоязычном корпусе социальной сети ВКонтакте. Предмет исследования — лингвистические параметры скрытых сообществ.
Гипотеза исследования сформулирована следующим образом: морфосинтаксические особенности постов наиболее ярко характеризуют итоговые скрытые сообщества.
В данной работе используются методы корпусной лингвистики, вероятностного тематического моделирования и комбинаторностатистического анализа.
Научная новизна исследования заключается в том, что, в отличие от предыдущих исследований, для моделирования скрытых сообществ применяется дискретная контекстуализированная автор-тематическая модель, которая формирует список персонализированных (англ. personalized) лемм- тематизаторов.
Теоретическая значимость исследования заключается в том, что оно призвано заполнить существующие пробелы в лингвистическом моделировании скрытых сообществ: идентификация лидеров мнений по лингвистическим параметрам, выявление пользователей, которые ведут активное информационное-психологическое воздействие и пр. Практическая значимость работы состоит в возможности применения разработанной методики в русскоязычном сегменте социальных сетей для создания системы модерации групп пользователей.
Основные положения исследования были отражены в научных докладах, которые автор представил на научных конференциях российского и международного уровней.
1. Международная конференция Artificial Intelligence and Natural Language Conference (2020, Финляндия, Хельсинки, онлайн).
2. Международный семинар Computational Models in Language and Speech в рамках международной конференции TEL (2020, Россия, Казань, онлайн).
3. XIV Научно-практическая конференция «Инновационные технологии и технические средства специального назначения» (2021, Россия, Санкт- Петербург).
4. 50-я Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой (2022, Россия, Санкт-Петербург, онлайн).
5. Международный семинар Computational Linguistics в рамках международной конференции Internet and Modern Society (2022, Россия, Санкт-Петербург).
Основные публикации.
1. Mamaev I., Mitrofanova O. Automatic Detection of Hidden Communities in the Texts of Russian Social Network Corpus // Artificial Intelligence and Natural Language. AINL 2020. Communications in Computer and Information Science. — Vol. 1292. — Springer, Cham, 2020. — P. 17-33 (Scopus).
2. Mamaev I., Mitrofanova O. Hidden Communities in the Russian Social Network Corpus: a Comparative Study of Detection Methods // Proceedings of the Computational Models in Language and Speech Workshop (CMLS 2020) co-located with 16th International Conference on Computational and Cognitive Linguistics (TEL 2020). — 2020. — P. 69-78 (Scopus).
3. Mamaev I., Mitrofanova O. Adaptation of Static and Contextualized Topic Modeling Techniques to Hidden Community Detection // International Conference on Internet and Modern Society. — Cham: Springer Nature Switzerland, 2022. — P. 85-97 (Scopus).
4. Мамаев И. Д. Лингвистические особенности обработки текстов
социальных сетей при построении модели скрытых сообществ // Инновационные технологии и технические средства специального назначения: Труды четырнадцатой общероссийской научно
практической конференции. — Т. 2. — 2022. — С. 312-315 (РИНЦ).
5. Mamaev I. D., Mitrofanova O. A. LiveJournal topic models and their improvement with contextualized representations for creating a model of hidden communities // International Journal of Open Information Technologies. — 2022. — Т. 10. — № 11. — С. 54-59 (ВАК).
6. Мамаев И. Д., Митрофанова О. А. Лингвистические параметры для идентификации скрытых сетевых сообществ // Terra Linguistica. - 2024. — Т. 15. — №. 1. — С. 102-115 (ВАК, 5.9.8).
7. Мамаев И. Д. Лингвистические профили скрытых сообществ: морфосинтаксический аспект // Филологические науки. Вопросы теории и практики. — 2024. — Т. 17. — Вып. 4. — С. 1155-1162 (ВАК, 5.9.8).
8. Мамаев И. Д. Кластерный анализ лингвистических профилей скрытых сообществ // Филологические науки. Вопросы теории и практики. — 2024. - Т. 17. — Вып. 5. — С. 1739-1747. (ВАК, 5.9.8).
В данном исследовании проведен эксперимент по лингвистическому описанию модели скрытых сообществ, составленной на основе русскоязычного корпус социальной сети ВКонтакте. Полученные результаты указывают на то, что посты пользователей, объединенных единым тематическим компонентом, наиболее полно охарактеризованы с точки зрения морфологии и синтаксиса, а значимые лексические корреляции представлены в небольшом количестве профилей. Таким образом, выдвинутая в работе гипотеза подтвердилась.
В качестве перспектив исследования отметим следующее. Во-первых, можно продолжить автоматизацию предложенной методики с точки зрения разработки алгоритма автоматического назначения меток тем. Во-вторых, для отражения динамики языковых корреляций могут использовать динамические тематические модели. Наконец, для дальнейших исследований в профили можно включить психологические и биологические параметры пользователей.
1. Галаганова С. Г., Турусина Т. В. Технологии анализа социальных сетей с целью выявления социальных трендов // Человеческий капитал. — 2023.
— №. 1 (169). — С. 121-136.
2. Градосельская Г. В., Щеглова Т. Е., Карпов И. А. Картирование политически активных групп в Фейсбуке: динамика 2013-2018 гг. // Вопросы кибербезопасности. — 2019. — № 4 (32). — С. 94-104.
3. Документация vk_api [Электронный ресурс]. — URL: https://vk- api.readthedocs.io/en/latest/ (дата обращения: 03. 03.2024).
4. Кан Е. В. Хэштеги как новое лингвистическое явление // Филологический аспект. — 2017. — № 1. — С. 91-98.
5. Кириченко Л. О., Радивилова Т. А., Барановский А. Обнаружение киберугроз с помощью анализа социальных сетей // International Journal “Information Technologies & Knowledge”. — 2017. — № 11(1). — С. 23-48.
6. Крылова М. Н. Способы выражения эмоций в социальных сетях // Электронный научно-практический журнал «Филология и литературоведение». — 2016. — №1. — C. 78-84.
7. Литвинова Т. А. Профилирование автора письменного текста // Язык и культура. — 2013. — № 3 (23). — С. 64-72.
8. Малафеев О. А., Щеникова С. А., Скворцова О. И. Математическое моделирование задач экономической конкуренции по выявлению скрытых сообществ в социальной сети // Информационные технологии в образовании. — 2021. — С. 167-172.
9. Мамаев И. Д. Лингвистические профили скрытых сообществ: морфосинтаксический аспект // Филологические науки. Вопросы теории и практики. — 2024. — Т. 17. — Вып. 4. — С. 1155-1162.
10. Масликова О. С. Языковые особенности общения в Интернет- пространстве // Инновационная наука. — 2019. — № 9. — С. 69-72.
11. Матусевич А. А. Общение в социальных сетях: прагматический, коммуникативный, лингвостилистический аспекты характеристики : дис. ... канд. филол. наук : 10.02.01 / Матусевич Александра Александровна. Киров, 2016. — 190 с.
12. Минаев В. А. Как найти следы экстремизма в социальных медиа // Противодействие терроризму и экстремизму в информационных сферах: сборник научных статей Всероссийской конференции. — 2022. — С. 1519.
13. Попов В. А., Чеповский А. А. Выделение неявных пересекающихся сообществ на графе взаимодействия Telegram-каналов с помощью «метода Галактик» // Труды института системного анализа российской академии наук. — 2022. — Т. 72. — № 4. — С. 39-50.
14. Попова Е. А. и др. Передача психологических состояний при помощи графических символов в виртуальном пространстве // Сборник материалов XV Международной научной конференции «Психология психических состояний». Казань. — 2021. — С. 435-440.
15. Рубцова Ю. В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы. — 2015. — №. 1 (109). — С. 72-78.
16. Смелик Н. Д., Фильченков А. А. Мультимодальная тематическая модель текстов и изображений на основе использования их векторного представления // Машинное обучение и анализ данных. — 2016. — Т. 2. — №. 4. — С. 421-441.
17. Юйси М. Языковые средства формирования медиаобраза Китая в русскоязычных интернет-текстах (на примере блогов о китайской опере) // Филология и человек. — 2021. — №. 1. — С. 169-177.
18. Alba R. D. A graph-theoretic definition of a sociometric clique // Journal of Mathematical Sociology. — 1973. — Vol. 3. — № 1. — P. 113-126.
19. Beautiful Soup Documentation [Электронный ресурс]. — URL: https://www.crummy. com/software/BeautifulSoup/bs4/doc/ (дата обращения: 03.03.2024).
... Всего источников – 38.
Содержание бакалаврской работы - Лингвистическое исследование скрытых сообществ в корпусе социальных медиа с применением мультимодальных тематических моделей
Выдержки из бакалаврской работы - Лингвистическое исследование скрытых сообществ в корпусе социальных медиа с применением мультимодальных тематических моделей