Тип работы:
Предмет:
Язык работы:


Абстрактивная суммаризация русскоязычного текста

Работа №126359

Тип работы

Бакалаврская работа

Предмет

информационные системы

Объем работы17
Год сдачи2022
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
13
Не подходит работа?

Узнай цену на написание


Глава 1. Введение 3
Глава 2. Постановка задачи 5
2.1. Задачи 5
Глава 3. Существующие модели экстрактивной суммаризации 6
Глава 4. Тестирование MatchSum 8
4.1. Воспроизведение результатов 8
4.2. Тестирование MatchSum с русскоязычным набором данных 9
Глава 5. Обученные модели для абстрактивной суммариза­ции русскоязычного текста 10
Глава 6. Обучение модели абстрактивной суммаризации на русскоязычном наборе данных 11
6.1. Архитектура 11
6.2. Используемые технологии и данные 11
6.3. Процесс обучения модели 12
Глава 7. Тестирование на других наборах данных 14
Глава 8. Заключение 15
Список литературы 16

В настоящее время в мире распространена задача суммаризации тек­ста. Суммаризация текста применяется при составлении анотации к на­учным статьям или к новостям, к краткому пересказу произведений и в других случаях.
Сейчас существуют два способа автоматической суммаризации тек­ста. Один из них экстрактивный[1], второй абстрактивный[2]. Расскажем о каждом из них поподробнее.
Экстрактивная суммаризация является наиболее простым видом для реализации и понимания. Ее принцип заключается в выделении из текста наиболее важных информационных блоков. Каждый блок может являться абзацем, предложением и так далее[3]. Работа данного подхода показана на рисунке 1.
Абстрактивная суммаризация является более сложным подходом для выделения главной мысли из текста. Она заключается в создании собствен­ного краткого содержания, которое может содержать слова, которые не имеет исходный текст. Работа данного подхода показана на рисунке 2.
Если подвести итог, то оба подхода имеют как минусы, так и плюсы:
• экстрактивный подход более прост для изучения;
• экстрактивный подход более прост для реализации;
• абстрактивный подход выполняет свою работу более качественно.
Рис. 1: Абстрактивная суммаризация
Рис. 2: Экстрактивная суммаризация
На данный момент наиболее развиты системы по суммаризации ан­глоязычных текстов. Существует множество обученных моделей на мно­жествах данных, таких как CNN, Reddit, XSum и так далее. Тогда как решений для русскоязычных текстов не так много, как и самих множеств данных.
В этой связи возникла потребность в успешном обучении модели для суммаризации русскоязычного текста с приемлимым Rouge. Далее будем говорить о задачах, которые были поставлены непосредственно в данном проекте.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе данной работы были достигнуты следующие результаты.
• Изучены существующие модели экстрактивной суммаризации на при­мере MatchSum.
• Воспроизведены результаты исследований MatchSum и проведены те­сты с русскоязычным текстом.
• Изучены решения для абстрактивной суммаризации русскоязычного текста и воспроизведены результаты.
• Была обучена собственная модель абстрактивной суммаризации при помощи библиотеки TensorFlow на данных от Gazeta.
• Проведено тестирование с набором данных от Lenta.
Код для обучения модели представлен на GitHub: https://github.com/VLiamin/AbstractiveModel.


[1] Understanding automatic text summarization-1: Extractive methods. https://towardsdatascience.com/understanding-automatic-text- summarization-1-extractive-methods-8eb512b21ecc, 2022-May(2).
[2] Abstractive summarization: An overview of the state of the art. https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735, 2022-May(2).
[3] Суммаризация текста: подходы, алгоритмы, рекомендации и перспек­тивы. https://habr.com/ru/post/514540/, 2021-November(28).
[4] Extractive summarization as text matching. https://arxiv.org/pdf/2004.08795.pdf, 2021-November(28).
[5] fastnlp. https://github.com/fastnlp/fastNLP, 2021-November(28).
[6] From research to production. https://pytorch.org/, 2021-November(28).
[7] Matchsum. https://github.com/maszhongming/MatchSum, 2021-November(29).
[8] Секреты генерирующего реферирования текстов. https://habr.com/ru/post/596481/, 2022-May(2).
[9] Taming recurrent neural networks for better summarization. http://www.abigailsee.com/2017/04/16/taming-rnns-for-better- summarization.html, 2022-May(2).
[10] Abstractive text classification using sequence-to-convolution neural networks. https://arxiv.org/abs/1805.07745, 2022-May(2).
[11] The bahdanau attention mechanism. https://machinelearningmastery.com/the- bahdanau-attention-mechanism/, 2022-May(2).
[12] Как начать работать с datasphere. https://cloud.yandex.ru/docs/datasphere/qui 2022-May(2).
[13] Text pre-processing: Stop words removal using different libraries. https://towardsdatascience.com/text-pre-processing-stop-words-removal- using-different-libraries-f20bac19929a, 2022-May(2).


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ