Тип работы:
Предмет:
Язык работы:


Методы автоматического реферирования текстов на русском языке

Работа №141723

Тип работы

Магистерская диссертация

Предмет

филология

Объем работы88
Год сдачи2022
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
47
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Развитие методов автоматического реферирования текстов 8
1.1. История автоматического реферирования 8
1.1.1 Ранние работы 9
1.1.2 Методы машинного обучения по признакам 10
1.1.3 Методы на основе графов 12
1.1.4 Методы на основе нейронных сетей 12
1.2. Работы по реферированию текстов на русском языке .... 15
1.2.1 Статистический подход 15
1.2.2 Подход на основе риторических структур 16
1.2.3 Алгебраический подход 17
1.2.4 Подход на основе машинного обучения 17
1.2.5 Подход на основе тезауруса 18
1.2.6 Подход на основе симметричного реферирования . . . 19
1.2.7 Гибридный подход 20
1.3. Выводы 21
Глава 2. Нейронные сети 22
2.1. Рекуррентные нейронные сети 22
2.2. Архитектура Transformer 24
2.2.1 Механизм самовнимания 25
2.2.2 Позиционное кодирование 26
2.2.3 Нормализация по слою и нейронная сеть с прямой связью 27
2.2.4 Многоголовое внимание 28
2.3. Предварительно обученные языковые модели 28
2.4. Реферирование текстов при помощи нейронных сетей .... 30
2.4.1 Экстрактивный подход 30
2.4.2 Абстрактивный подход 31
2.5. Проблемы реализации систем автоматического рефериро­вания на основе нейронных сетей 34
2.6. Методы автоматической оценки работы систем рефериро­вания 37
2.6.1 Базовые модели автоматического реферирования . ... 37
2.6.2 Метрики оценки систем автоматического реферирования 38
2.7. Данные для обучения систем реферирования 40
2.8. Выводы 41
Глава 3. Реализация моделей для автоматического реферирования 43
3.1. Данные для обучения моделей реферирования 43
3.2. Модель для экстрактивного реферирования SummaRuNNer 46
3.2.1 Описание модели 46
3.2.2 Моделирование текста 48
3.2.3 Детали обучения 49
3.2.4 Результаты и оценка 50
3.3. Экстрактивное реферирование на базе предварительно обу­
ченной языковой модели ruBERT 52
3.3.1 Описание модели 53
3.3.2 Детали обучения 54
3.3.3 Результаты и анализ 55
3.4. Модель для абстрактивного реферирования Pointer-Generator
Network 56
3.4.1 Описание модели 57
3.4.2 Механизм покрывающего внимания 58
3.4.3 Детали обучения 60
3.4.4 Результаты и оценка 61
3.5. Абстрактивное реферирование на базе предварительно обу­
ченной языковой модели mBART 63
3.5.1 Описание модели 64
3.5.2 Детали обучения 65
3.5.3 Результаты и анализ 66
3.6. Выводы 68
Список литературы 75
Приложение 84

Актуальность:
Сегодня мы живем в эпоху «информационного взрыва». Данный фено­мен представляет собой экспоненциальное увеличение количества информа­ции во всех сферах деятельности человека (Эпштейн 1999). Столь быстрые темпы роста количества доступных данных приводят к информационной пе­регрузке, когда количество поступающей полезной информации превосходит объективные возможности ее восприятия человеком. Полезной считается та информация, которая необходима для решения задач, обеспечивающих жиз­недеятельность личности или социальной организации (Еляков 2005). В связи с этим, в сфере компьютерной лингвистики возникла задача автоматического реферирования, также известная как задача саммаризации текста (от англ. text summarization). Чтобы выполнить требования по эффективному состав­лению реферата документа, система автоматического реферирования должна выполнять множество различных задач, главными из которых являются из­влечение полезной информации из одного источника, извлечение связанной информации из нескольких источников и создание удобочитаемого и грамот­ного краткого текста, передающего всю смысловую информацию оригинала.
Реферат, по определению В. И. Соловьева, это семантически адекват­ное, ограниченное малым объемом и вместе с тем возможно полное изло­жение основного содержания первичного содержания документа (Соловьев 1975, с. 20).
Исходя из данного определения, можно сделать вывод, что реферат должен обладать следующими характеристиками:
1. Информативность: реферат должен содержать в себе самую важную информацию исходного текста (или текстов);
2. Краткость: реферат не должен содержать излишнюю информацию и должен иметь значительно меньший объем, чем исходный текст (или тексты).
Использование программ для автоматического создания рефератов в иноязычной литературе обычно называется задачей обобщения документов (англ. document summarization). Работы в данном направлении ведутся уже более полувека, начиная с методов, основанных на частотности слов (Luhn 1958; Baxendale 1958) и методов машинного обучения по признакам (Aone и др. 1997; Lin 1999). В последнее время модели на основе нейронных се­тей достигли заметных успехов во многих областях обработки естественного языка (Collobert и др. 2011; Devlin и др. 2018). В нейросетевых моделях слова сначала моделируются при помощи векторных представлений, образуя так называемые «вложения слов» (англ. word embeddings), а затем подвергаются нелинейным преобразованиям. Таким образом, одним из преимуществ ней­ронных сетей является их гибкость. Различные нейронные архитектуры могут быть спроектированы для решения множества разных задач, а несколько сло­ев нейронной сети могут быть объединены и сформированы в единую боль­шую сеть, которая может извлекать еще большее количество признаков. Для настройки параметров сети обычно используются методы оптимизации на ос­нове градиентного спуска. Кроме того, благодаря архитектуре кодировщик- декодировщик (англ. encoder-decoder) (Bahdanau и др. 2014), модели нейрон­ных сетей показали впечатляющую эффективность при выполнении таких задач компьютерной лингвистики, как машинный перевод (Bahdanau и др. 2014), генерация описаний изображений (Xu и др. 2015) и упрощение пред­ложений (Zhang и Lapata 2017). Потенциал нейросетевых моделей для созда­ния краткого и грамотного текста привел ко многим достижениям в задачах генерации естественного языка, в том числе и в задаче автоматического ре­ферирования текста. Несмотря на то, что исследования в данной области имеют довольно долгую историю, подавляющее большинство работ в данном направлении рассматривают резюмирование текстов на английском языке. Таким образом, вопрос о применении существующих нейронных систем ре­ферирования к текстам на русском языке приобретает особую актуальность и требует проведения глубокого исследования.
Объектом исследования являются методы автоматического рефери­рования текстов.
Предмет исследования - применение нейросетевых методов для ре­шения задачи автоматического реферирования текстов на русском языке.
Практическая значимость состоит в реализации нейросетевых ме­тодов автоматического реферирования текстов на русском языке и анализе результатов их применения.
Цель данной работы состоит в изучении методов автоматического ре­ферирования текстов и написании программного кода для реализации таких нейросетевых моделей как SummaRuNNer (Nallapati и др. 2016) и Pointer­Generator Network (See и др. 2017), а также для настройки предварительно обученных языковых моделей ruBERT (Kuratov и Arkhipov 2019) и mBART (Liu и др. 2020), и применения их к задаче обобщения текстов на русском языке.
Исходя из поставленной цели, были сформулированы следующие зада­чи:
1. Провести обзор исследований методов автоматического реферирования текстов;
2. Изучить архитектуру нейросетевых моделей, применяющихся для ав­томатического реферирования текстов;
3. Построить несколько систем автоматического обобщения русскоязыч­ных текстов на основе нейросетевых моделей;
4. Осуществить оценку применения данных систем к русскоязычным тек­стам;
5. Идентифицировать ошибки в реферировании текстов данными метода­ми и предложить возможное объяснение их появлению....

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Целью настоящего исследования было изучение методов автоматиче­ского реферирования текстов на русском языке, применение архитектур ней­ронных сетей с последующим сравнением результатов их работы на русско­язычных текстах, а также проведение анализа ошибок и объяснение возмож­ных причин их появления.
В ходе первой главы теоретической части работы были рассмотрены основные подходы к реферированию текстов, в также различные методики автоматического обобщения текстов начиная от более ранних и заканчивая современными. Отдельно были рассмотрены различные подходы к рефериро­ванию текстов на русском языке.
Исходя из обзора исследований было принято решение о реализации нескольких систем нейронной саммаризации текстов, поэтому во второй ча­сти исследования приведены теоретические основы, лежащие в архитектурах нейронных сетей. В частности, были рассмотрены основы рекуррентных ней­ронных сетей и архитектуры Transformer. Были также исследованы методы реализации экстрактивного и абстрактивного подхода к реферированию с ис­пользованием нейронных сетей, а также связанные с ними трудности. Были приведены примеры доступных данных для реализации моделей автоматиче­ского реферирования и рассмотрены методы автоматической оценки данных систем.
В практической части исследования описываются реализованные нами модели, а также детали их имплементации. Были проведены эксперименты с обучением моделей как на уровне целых токенов, так и на уровне подслов. Для решения задачи экстрактивного реферирования нами была реализована модель SummaruNNer (Nallapati и др. 2017), а также была настроена предва­рительно обученная языковая модель ruBERT (Kuratov и Arkhipov 2019). Для абстрактивного подхода мы реализовали модель Pointer-Generator Network (See и др. 2017) и провели тонкую настройку предобученной языковой модели mBART (Liu и др. 2020). Для оценки разработанных нами систем обобщения текстов была использована распространенная метрика для оценки качества машинного перевода BLEU и метрика ROUGE, специально предназначенная для оценки автоматического составления рефератов, помимо прочего мы про­вели оценку по метрике chrF, которая анализирует реферат на уровне подслов. Таким образом, один из первых методов нейронного реферирования текстов - SummaRuNNer - продемонстрировал результаты сравнимые с экстрактивной системой на основе предварительно обученной модели ruBERT. Несмотря на то, что результаты автоматической оценки экстрактивных систем разитель­но хуже, чем абстрактивных, предложения, отобранные данными системами, передают основную суть оригинала в большинстве случаев. Реализованные модели для абстрактивного обобщения - Pointer-Generator Network и модель на основе mBART- значительно превосходят экстрактивные системы по всем метрикам и в целом способны генерировать краткие и грамотные резюме.
По результатам анализа полученных сводок новостных статей и их оши­бок были сделаны следующие выводы:
1. Модели экстрактивного реферирования, как обученные с нуля, так и на основе предварительно обученных моделей, способны выявлять пред­ложения, содержащие основной посыл оригинального текста. Данные модели так же не имеют проблем с соблюдением грамматических норм русского языка, так как данный подход не задействует генерации тек­ста как таковой. Минусами данного подхода является сравнительная избыточность текста (подход не подразумевает любого рода модифика­ций выбранных предложений) и необходимость в наличии размеченного исходного текста.
2. В рефератах моделей абстрактивного типа, в частности Pointer-Generator Network (PGN), обнаруживаются различные грамматические ошибки. Так например, в текстах PGN, обученной на уровне слов, были замече­ны ошибки на синтаксическом и лексическом уровнях, а в рефератах PGN, обученной на уровне подслов, были обнаружены словообразова­тельные ошибки. Вместе с этим, модели PGN склонны к генерации по­вторяющихся цепочек токенов, которую мы успешно разрешили путем имплементации механизма покрывающего внимания.
3. Модель абстрактивной саммаризации, основанная на предобученной языковой модели mBART, показала наилучшие результаты рефериро­вания из всех рассмотренных моделей. Данные результаты объясняются переносом признаков, извлеченных системой при обучении на ориги­нальной задаче, а также наличием объемного обучающего словаря.
4. Возможными причинами ошибок экстрактивных моделей в основном могут являться тексты, носящие справочный характер (когда каждое предложение в исходном тексте имеет равную информационную цен­ность), недостаточный объем обучающего словаря, а также специфич­ность тренировочных данных.
5. Вероятными причинами ошибок абстрактивных моделей можно считать недостаточный объем обучающих данных, малый размер обучающего словаря и сравнительно упрощенная архитектура, связанная с ограни­ченными вычислительными ресурсами.
Данное исследование можно продолжить за счет увеличения количества тренировочных данных или же применения иного корпуса, содержащего более объемные исходные тексты и эталонные резюме, проведения оптимизации ги­перпараметров используемых нейронных сетей и усложнения их архитектуры. Для улучшения эффективности моделей SummaRuNNer и Pointer-Generator Network возможно также применение предобученных векторных представле­ний (например, word2vec (Mikolov и др.)...


1. Анисимов, А. В. и А. А. Марченко (2006). “Ассоциативное реферирование естественно-языковых текстов”. В: Штучний штелект 3-С, с. 488— 492.
2. Бакиева, А.М. и Т.В. Батура (2017). “Исследование применимости теории ри­торических структур для автоматической обработки научно-технических текстов”. В: Cloud of science 4.3, с. 450—464.
3. Браславский, Павел и Иван Колычев (2005). “Автоматическое реферирование веб-документов с учетом запроса”. В.
4. Еляков, Анатолий Дмитриевич (2005). “Информационная перегрузка людей”. В: Социологические исследования 5, с. 114—121.
5. Зубов, Александр Васильевич (2005). “Автоматическое построение таблич­ного реферата группы текстов одной тематики”. В: Материалы конфе­ренции «Диалог-2005». http://www. dialog-21. ru/Archive/2005/Zubov% 20A/ZubovA. htm.
6. Лукашевич, Н.В., Б.В. Добров и С.В. Штернов (2005). “Обработка потока новостей на основе больших лингвистических ресурсов”. В: Интернет- математика 2005: автоматическая обработка веб-данных.—М., 2005.
7. Осминин, Павел Григорьевич (2014). “Модель автоматического реферирова­ния на основе базы знаний, ориентированная на автоматический пере­вод”. В: Вестник Южно-Уральского государственного университета. Серия: Лингвистика 11.2, с. 65—69.
8. Осминин, Павел Григорьевич (2016). “Построение модели реферирования и аннотирования научно-технических текстов, ориентированной на авто­матический перевод”. Дис. ... док.
9. Попов, М. Ю., А. В. Заболеева-Зотова и С. А. Фоменков (2003). “Визуализация семантической структуры и реферирование текстов на естественном языке”. В: Труды международной конференции.
10. Соловьев, Виктор Иванович (1975). Составление и редактирование рефера­тов: Вопросы теории и практики. М., с. 104.
11. Ступин, Вячеслав Сергеевич (2004). “Система автоматического реферирова­ния методом симметричного реферирования”. В: Компьютерная линг­вистика и интеллектуальные технологии. Труды международной кон­ференции «Диалог, с. 579—591.
12. Тревгода, Сергей Александрович (2009). “Методы и алгоритмы автоматиче­ского реферирования текста на основе анализа функциональных отно­шений”. В: автореферат диссертации кандидата технических наук 5.01.
13. Шевчук, Антон Александровичи др. (2019). “Автоматическое реферирование текста при помощи нейронных сетей на примере генерации новостных заголовков”. В.
14. Эпштейн, Михаил (1999). “Информационный взрыв и травма постмодерна”. В: Звезда 11, с. 216—227.
15. Aone, Chinatsu и др. (1997). “A Scalable Summarization System Using Robust NLP”. В: url: https://aclanthology. org/W97-0711....106


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ