Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Обзор алгоритмов 7
1.1 Обзор алгоритмов кластеризации 7
1.1.1 DBSCAN и OPTICS 7
1.1.2 Промежуточная оценка качества кластеризации 8
1.2 Обзор алгоритмов суммаризации 10
1.2.1 Архитектура Трансформер 10
1.2.2 RUBERT 13
1.2.3 BART 14
1.2.4 T5 16
Глава 2. Подготовка данных 18
2.1 Получение данных и их предварительная обработка 18
Глава 3. Программный комплекс 22
3.1 Реализация программного комплекса 22
3.2 Сравнение моделей суммаризации 22
Список литературы 25
В настоящее время социальные сети играют важную роль в жизни человека.
Благодаря этим платформам пользователи делятся своими мыслями и чувствами касательно какой-либо темы. Такие задачи как анализ эмоций пользователя и обобщение его текста являются очень популярными, поскольку на основе этой информации могут предприниматься дальнейшие шаги в маркетинге, усовершенствовании продукта или, например, в политической компании. Данный анализ помогает определить общую тенденцию и сформировать представление об отношении некой группы лиц к конкретной теме.
В настоящей работе рассматривается автоматическая суммаризация тематических кластеров комментариев пользователей, полученных с помощью алгоритмов кластеризации. Идея заключалась в том, чтобы разбить все множество комментариев на некоторые группы, комментарии пользователей в которых были бы схожи по смыслу. Определение главной “мысли” в каждой группе (класетере) дало бы понимание о различных мнениях людей. Суммаризация - это преобразование исходного текста в текст, меньший по объему. Существует несколько основных подходов к задаче суммаризации текста. В данной работе рассмотрены нейросетевые подходы к решению этой задачи, а также использованы последние предобученные модели для суммаризации русского текста.
Первая глава посвящена использованным методам кластеризации и алгоритмам суммаризации. Во второй главе описывается процесс сбора и построения датасета с помощью API социальных сетей, а также процесс предварительной обработки собранных текстов. Поскольку не было найдено аналогичных исследований в русском сегменте, то и не существует готовых, размеченных датасетов. Собранные данные представляют из себя пары текста поста в социальной сети и корпус комментариев пользователей к нему. В третьей главе описывается процесс построения программного комплекса задачи, а также сравнению моделей, демонстрации результатов и подведению итогов.
Актуальность работы заключается в том, что в настоящее время очень мало исследований проведено в области суммаризации социальных сетей. При этом для данной задачи не существует датасета на русском языке.
Решение этой задачи имеет высокую практическую значимость:
1. Представленный подход, представляющий из себя композицию алгоритмов кластеризации и суммаризации, может быть использован специалистами различных областей для проведения автоматического анализа настроений пользователей.
2. Составленный и размеченный датасет может использоваться специалистами в области машинного обучения для использования более современных моделей и улучшения результатов
В ходе работы были получены следующие результаты:
• Собраны и обработаны данные, составлен датасет
• Проведен обзор алгоритмов кластеризации
• Получены метрики качества кластеризации
• Проведен обзор современных нейросетевых методов суммаризации русского текста
• Разработан программный комплекс, разрешающий задачу автоматической кластеризации и суммаризации полученных корпусов кластеров.
В качестве дальнейшей работы и проблем можно выделить:
• На данный момент остается открытым вопрос измерения качества получившихся резюме подмножеств комментариев, поскольку в данной задаче не существует gold summary.
• Предполагается, что качество получившихся summary станет лучше, используя более тщательную предобработку данных.
• Увеличения датасета. Переход к социальным сетям/группам, обладающим большей активностью пользователей для получения большего корпуса комментариев.
Предполагается, что текущие проблемы c разметкой датасета могут быть решены при помощи привлечения к работе асессоров.