Перечень условных сокращений 3
Введение 4
1 Актуальность 5
2 Требования к системе 7
3 Программные средства 8
4 Предметная область 11
5 Работа с данными 14
5.1 Получение данных из ВК 16
5.2 Очистка данных 18
5.3 Разметка текста 20
6 Векторизация текста 23
6.1 Классические подходы к векторизации текста 23
7 Анализ тональности 27
7.1 Логистическая регрессия 27
7.2RuBERT 28
7.3 Сравнение подходов к анализу тональности 31
8 Подходы к тематическому моделированию 35
8.1 Неотрицательная матричная факторизация 35
8.2 Алгоритм Латентного Распределения Дирихле 36
8.3 Сравнение подходов к тематическому моделированию 37
9 Проектная реализация модуля 38
10 Спецификация API для использования модуля 40
Заключение 43
Список использованных источников и литературы 44
Социальные сети стали важным каналом обмена мнениями между студентами, абитуриентами и выпускниками. В сообществах вузов пользователи публикуют отзывы о преподавателях, инфраструктуре, студенческой жизни и делятся личным опытом обучения. Эти данные представляют интерес для анализа, так как позволяют выявить ключевые проблемы и положительные аспекты образовательного процесса в том или ином вузе с точки зрения самих студентов.
Новости и комментарии в студенческих сообществах являются неструктурированным текстом, и их анализ в ручном режиме невозможен при больших объёмах. Для эффективной обработки необходимо разработать модуль, способный извлекать смысловую и эмоциональную информацию.
Основными задачами в этом контексте являются определение тональности текста (положительная, нейтральная, отрицательная) и выявление основных тем обсуждений. Для этого можно использовать методы машинного обучения, ориентированные на задачи обработки естественного языка.
В процессе анализа предметной области были выявлены причины, по которым предметную область можно считать актуальной.
В рамках выполнения работы были рассмотрены различные варианты выполнения поставленных задач, разобраны алгоритмы и архитектуры подходов машинного обучения, необходимые для разработки модуля.
По результатам работы были поставлены необходимые требования для достижения цели. Был создан модуль анализа тональности и тематического моделирования, способный извлекать тональность и тематику новостей и тональность комментариев из студенческих сообществ во ВКонтакте.
В ходе выполнения выпускной квалификационной работы были выполнены следующие задачи:
1. Изучить предметную область и определить социальную сеть для сбора данных;
2. Выбрать программные средства и язык программирования для реализации системы;
3. Подобрать библиотеки для обработки текстов на естественном языке;
4. Найти или составить наборы данных с размеченными новостями и комментариями для обучения и тестирования моделей;
5. Определить способ получения данных из выбранной соцсети;
6. Провести очистку данных;
7. Выбрать и дообучить модели или методы машинного обучения для анализа тональности и тематического моделирования;
8. Определить метрики оценки качества моделей;
9. Провести сравнительное тестирование моделей и выбрать наилучшую по результатам метрик;
10. Разработать спецификацию API для интеграции разработанного модуля.
1. Анализ текстовых данных с помощью NLTK и Python // Хабр. - [Б. м.], 2023. - URL: https://habr.com/ru/companies/otus/articles/774498/ (дата обращения: 14.05.2025).
2. Методы и библиотеки в Python для тематического моделирования // Vc.ru. - [Б. м.], 2024. - URL: https://vc.ru/dev/1159107-metody-i-biblioteki-v- python-dlya-tematicheskogo-modelirovaniya (дата обращения: 17.05.2025).
3. Параллельное программирование с CUDA. Часть 1: Введение // Хабр.
- [Б. м.], 2014. - URL: https://habr.com/ru/companies/epam_ systems/articles/245503/ (дата обращения: 20.05.2025).
4. Создание собственного API на Python (FastAPI): Знакомство и
первые функции // Хабр. - [Б. м.], 2024. - URL:
https://habr. com/ru/companies/amvera/articles/826196/ (дата обращения:
22.05.2025).
5. О нас // ВКонтакте. - М., [б. г.]. - URL: https://vk.com/about (дата обращения: 27.05.2025).
6. В 2024 году в вузах Томска обучалось 67,5 тысячи студентов // Официальный интернет-портал Администрации Томской области. - Томск, 2025. - URL: https://tomsk.gov.ru/news/front/view7idM48035 (дата обращения: 15.05.2025).
7. Основы Natural Language Processing для текста // Хабр. - [Б. м.], 2019.
- URL: https://habr.com/ru/companies/Voximplant/articles/446738/ (дата обращения: 18.05.2025).
8. Что такое TF-IDF в машинном обучении? // Облачная платформа РЕГ.РУ. - [Б. м. и б. г.]. - URL: https://help.reg.ru/support/servery- vps/oblachnyye-servery/ustanovka-programmnogo-obespecheniya/chto-takoye- cuda (дата обращения: 22.05.2025).
9. Фундамент AI: обратное распространение ошибки простыми
словами // Хабр. - [Б. м.], 2024. - URL:
https://habr.com/ru/companies/raft/articles/811371/ (дата обращения: 22.05.2025).
10. Word2Vec: покажи мне свой контекст, и я скажу, кто ты //
Системный Блокъ. - [Б. м.], 2019. - URL:
https://sysblok. ru/knowhow/word2vec-pokazhi-mne-svoj -kontekst-i-j a-skazhu-kto- ty/ (дата обращения: 23.05.2025).
11. Вильховенко А. 11.2. Логистическая регрессия // Яндекс. Образование. - М., [б. г.]. - URL: https://education.yandex.ru/handbook/data- analysis/article/logisticheskaya-regressiya (дата обращения: 16.05.2025).
12. ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для
русского языка // Хабр. - [Б. м.], 2021. - URL:
https://habr.com/ru/companies/sberdevices/articles/567776/ (дата обращения: 22.05.2025).
13. Запускаем LDA в реальном мире. Подробное руководство // Хабр - [Б. м.], 2018. -URL: https://habr.com/ru/articles/417167/: 22.05.2025).