Глава 1. Введение 3
Глава 2. Постановка задачи 5
2.1. Задачи 5
Глава 3. Существующие модели экстрактивной суммаризации 6
Глава 4. Тестирование MatchSum 8
4.1. Воспроизведение результатов 8
4.2. Тестирование MatchSum с русскоязычным набором данных 9
Глава 5. Обученные модели для абстрактивной суммаризации русскоязычного текста 10
Глава 6. Обучение модели абстрактивной суммаризации на русскоязычном наборе данных 11
6.1. Архитектура 11
6.2. Используемые технологии и данные 11
6.3. Процесс обучения модели 12
Глава 7. Тестирование на других наборах данных 14
Глава 8. Заключение 15
Список литературы
В настоящее время в мире распространена задача суммаризации текста. Суммаризация текста применяется при составлении анотации к научным статьям или к новостям, к краткому пересказу произведений и в других случаях.
Сейчас существуют два способа автоматической суммаризации текста. Один из них экстрактивный[1], второй абстрактивный[2]. Расскажем о каждом из них поподробнее.
Экстрактивная суммаризация является наиболее простым видом для реализации и понимания. Ее принцип заключается в выделении из текста наиболее важных информационных блоков. Каждый блок может являться абзацем, предложением и так далее[3]. Работа данного подхода показана на рисунке 1.
Абстрактивная суммаризация является более сложным подходом для выделения главной мысли из текста. Она заключается в создании собственного краткого содержания, которое может содержать слова, которые не имеет исходный текст. Работа данного подхода показана на рисунке 2.
Если подвести итог, то оба подхода имеют как минусы, так и плюсы:
• экстрактивный подход более прост для изучения;
• экстрактивный подход более прост для реализации;
• абстрактивный подход выполняет свою работу более качественно.
На данный момент наиболее развиты системы по суммаризации англоязычных текстов. Существует множество обученных моделей на множествах данных, таких как CNN, Reddit, XSum и так далее. Тогда как решений для русскоязычных текстов не так много, как и самих множеств данных.
В этой связи возникла потребность в успешном обучении модели для суммаризации русскоязычного текста с приемлемым Rouge. Далее будем говорить о задачах, которые были поставлены непосредственно в данном проекте.
2. Постановка задачи
Целью данной работы является создание качественного решения для абстрактивной суммаризации русскоязычного текста. Для достижения этой цели были сформулированы следующие задачи.
2.1 Задачи
• Изучить существующие модели экстрактивной суммаризации.
• Воспроизвести результаты исследователей и провести тестирование с другим набором данных.
• Изучить решения для абстрактивной суммаризации русскоязычного текста и воспроизвести результаты.
• Самостоятельное обучение модели абстрактивной суммаризации на русскоязычном наборе данных.
• Тестирование на других наборах данных.
В ходе данной работы были достигнуты следующие результаты.
• Изучены существующие модели экстрактивной суммаризации на примере MatchSum.
• Воспроизведены результаты исследований MatchSum и проведены тесты с русскоязычным текстом.
• Изучены решения для абстрактивной суммаризации русскоязычного текста и воспроизведены результаты.
• Была обучена собственная модель абстрактивной суммаризации при помощи библиотеки TensorFlow на данных от Gazeta.
• Проведено тестирование с набором данных от Lenta.
Код для обучения модели представлена на GitHub: https://github.com/VLiamin/AbstractiveModel.
[1] Understanding automatic text summarization-1: Extractive methods. https://towardsdatascience.com/understanding-automatic-text- summarization-1-extractive-methods-8eb512b21ecc, 2022-May(2).
[2] Abstractive summarization: An overview of the state of the art. https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735, 2022-May(2).
[3] Суммаризация текста: подходы, алгоритмы, рекомендации и перспективы. https://habr.com/ru/post/514540/, 2021-November(28).
[4] Extractive summarization as text matching. https://arxiv.org/pdf/2004.08795.pdf, 2021-November(28).
[5] fastnlp. https://github.com/fastnlp/fastNLP, 2021-November(28).
[6] From research to production. https://pytorch.org/, 2021-November(28).
[7] Matchsum. https://github.com/maszhongming/MatchSum, 2021-
November(29).
[8] Секреты генерирующего реферирования текстов. https://habr.com/ru/post/596481/, 2022-May(2).
[9] Taming recurrent neural networks for better summarization. http://www.abigailsee.com/2017/04/16/taming-rnns-for-better- summarization.html, 2022-May(2).
[10] Abstractive text classification using sequence-to-convolution neural networks. https://arxiv.org/abs/1805.07745, 2022-May(2).
[11] The bahdanau attention mechanism. https://machinelearningmastery.com/the- bahdanau-attention-mechanism/, 2022-May(2).
[12] Как начать работать с datasphere. https://cloud.yandex.ru/docs/datasphere/qui2022-May(2).
[13] Text pre-processing: Stop words removal using different libraries.
https://towardsdatascience.com/text-pre-processing-stop-words-removal- using-different-libraries-f20bac19929a, 2022-May(2).