Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Обзор алгоритмов 7
1.1 Обзор алгоритмов кластеризации 7
1.1.1 DBSCAN и OPTICS 7
1.1.2 Промежуточная оценка качества кластеризации 8
1.2 Обзор алгоритмов суммаризации 10
1.2.1 Архитектура Трансформер 10
1.2.2 RUBERT 13
1.2.3 BART 14
1.2.4 T5 16
Глава 2. Подготовка данных 18
2.1 Получение данных и их предварительная обработка 18
Глава 3. Программный комплекс 22
3.1 Реализация программного комплекса 22
3.2 Сравнение моделей суммаризации 22
Список литературы 25
В настоящее время социальные сети играют важную роль в жизни человека.
Благодаря этим платформам пользователи делятся своими мыслями и чувствами касательно какой-либо темы. Такие задачи как анализ эмоций пользователя и обобщение его текста являются очень популярными, поскольку на основе этой информации могут предприниматься дальнейшие шаги в маркетинге, усовершенствовании продукта или, например, в политической компании. Данный анализ помогает определить общую тенденцию и сформировать представление об отношении некой группы лиц к конкретной теме.
В настоящей работе рассматривается автоматическая суммаризация тематических кластеров комментариев пользователей, полученных с помощью алгоритмов кластеризации. Идея заключалась в том, чтобы разбить все множество комментариев на некоторые группы, комментарии пользователей в которых были бы схожи по смыслу. Определение главной “мысли” в каждой группе (класетере) дало бы понимание о различных мнениях людей. Суммаризация - это преобразование исходного текста в текст, меньший по объему. Существует несколько основных подходов к задаче суммаризации текста. В данной работе рассмотрены нейросетевые подходы к решению этой задачи, а также использованы последние предобученные модели для суммаризации русского текста.
Первая глава посвящена использованным методам кластеризации и алгоритмам суммаризации. Во второй главе описывается процесс сбора и построения датасета с помощью API социальных сетей, а также процесс предварительной обработки собранных текстов. Поскольку не было найдено аналогичных исследований в русском сегменте, то и не существует готовых, размеченных датасетов. Собранные данные представляют из себя пары текста поста в социальной сети и корпус комментариев пользователей к нему. В третьей главе описывается процесс построения программного комплекса задачи, а также сравнению моделей, демонстрации результатов и подведению итогов.
Актуальность работы заключается в том, что в настоящее время очень мало исследований проведено в области суммаризации социальных сетей. При этом для данной задачи не существует датасета на русском языке.
Решение этой задачи имеет высокую практическую значимость:
1. Представленный подход, представляющий из себя композицию алгоритмов кластеризации и суммаризации, может быть использован специалистами различных областей для проведения автоматического анализа настроений пользователей.
2. Составленный и размеченный датасет может использоваться специалистами в области машинного обучения для использования более современных моделей и улучшения результатов
В ходе работы были получены следующие результаты:
• Собраны и обработаны данные, составлен датасет
• Проведен обзор алгоритмов кластеризации
• Получены метрики качества кластеризации
• Проведен обзор современных нейросетевых методов суммаризации русского текста
• Разработан программный комплекс, разрешающий задачу автоматической кластеризации и суммаризации полученных корпусов кластеров.
В качестве дальнейшей работы и проблем можно выделить:
• На данный момент остается открытым вопрос измерения качества получившихся резюме подмножеств комментариев, поскольку в данной задаче не существует gold summary.
• Предполагается, что качество получившихся summary станет лучше, используя более тщательную предобработку данных.
• Увеличения датасета. Переход к социальным сетям/группам, обладающим большей активностью пользователей для получения большего корпуса комментариев.
Предполагается, что текущие проблемы c разметкой датасета могут быть решены при помощи привлечения к работе асессоров.
[1] Martin Ester, Hans-Peter Kriegel, Jiirg Sander, Xiaowei Xu. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, 1996
[2] Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, Jorg Sander. OPTICS: Ordering Points To Identify the Clustering Structure, 1999
[3] VK API.https://dev.vk.com/method
[4] Telegram API.https://docs.telethon.dev/en/stable/
[5] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. (2019)
[6] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. 2019
[7] Laurens van der Maaten, Geoffrey Hinton. Visualizing Data using t-SNE. 2008
[8] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // Attention Is All You Need
[9] Emre Dogan, Bucket Kaya // Text Summarization in Social Networks by using Deep Learning (2019)
[10] Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano // Learning to summarize from human feedback (2020)
[11] Ilia Gusev // Dataset for Automatic Summarization of Russian News (2020)
[12] Ivan Blekanov, Nikita Tarasov, Svetlana Bodrunova // Transformer-Based Abstractive Summarization for Reddit and Twitter: Single Posts vs. Comment Pools in Three Languages (2022)
[13] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei // Language Models are Few-Shot Learners (2020)
[14] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
[15] Я.Гудфеллоу, И.Бенжио, А.Курвилль // Глубокое обучение