Введение 4
Глава 1. Развитие методов автоматического реферирования текстов 8
1.1. История автоматического реферирования 8
1.1.1 Ранние работы 9
1.1.2 Методы машинного обучения по признакам 10
1.1.3 Методы на основе графов 12
1.1.4 Методы на основе нейронных сетей 12
1.2. Работы по реферированию текстов на русском языке 15
1.2.1 Статистический подход 15
1.2.2 Подход на основе риторических структур 16
1.2.3 Алгебраический подход 17
1.2.4 Подход на основе машинного обучения 17
1.2.5 Подход на основе тезауруса 18
1.2.6 Подход на основе симметричного реферирования 19
1.2.7 Гибридный подход 20
1.3. Выводы 21
Глава 2. Нейронные сети 22
2.1. Рекуррентные нейронные сети 22
2.2. Архитектура Transformer 24
2.2.1 Механизм самовнимания 25
2.2.2 Позиционное кодирование 26
2.2.3 Нормализация по слою и нейронная сеть с прямой связью 27
2.2.4 Многоголовое внимание 28
2.3. Предварительно обученные языковые модели 28
2.4. Реферирование текстов при помощи нейронных сетей 30
2.4.1 Экстрактивный подход 30
2.4.2 Абстрактивный подход 31
2.5. Проблемы реализации систем автоматического реферирования на основе нейронных сетей 34
2.6. Методы автоматической оценки работы систем реферирования 37
2.6.1 Базовые модели автоматического реферирования 37
2.6.2 Метрики оценки систем автоматического реферирования 38
2.7. Данные для обучения систем реферирования 40
2.8. Выводы 41
Глава 3. Реализация моделей для автоматического реферирования 43
3.1. Данные для обучения моделей реферирования 43
3.2. Модель для экстрактивного реферирования SummaRuNNer 46
3.2.1 Описание модели 46
3.2.2 Моделирование текста 48
3.2.3 Детали обучения 49
3.2.4 Результаты и оценка 50
3.3. Экстрактивное реферирование на базе предварительно обученной языковой модели ruBERT 52
3.3.1 Описание модели 53
3.3.2 Детали обучения 54
3.3.3 Результаты и анализ 55
3.4. Модель для абстрактивного реферирования Pointer-Generator Network 56
3.4.1 Описание модели 57
3.4.2 Механизм покрывающего внимания 58
3.4.3 Детали обучения 60
3.4.4 Результаты и оценка 61
3.5. Абстрактивное реферирование на базе предварительно обученной языковой модели mBART 63
3.5.1 Описание модели 64
3.5.2 Детали обучения 65
3.5.3 Результаты и анализ 66
3.6. Выводы 68
Заключение 72
Список литературы 75
Приложение 84
Актуальность:
Сегодня мы живем в эпоху «информационного взрыва». Данный феномен представляет собой экспоненциальное увеличение количества информации во всех сферах деятельности человека (Эпштейн 1999). Столь быстрые темпы роста количества доступных данных приводят к информационной перегрузке, когда количество поступающей полезной информации превосходит объективные возможности ее восприятия человеком. Полезной считается та информация, которая необходима для решения задач, обеспечивающих жизнедеятельность личности или социальной организации (Еляков 2005). В связи с этим, в сфере компьютерной лингвистики возникла задача автоматического реферирования, также известная как задача саммаризации текста (от англ. text summarization). Чтобы выполнить требования по эффективному составлению реферата документа, система автоматического реферирования должна выполнять множество различных задач, главными из которых являются извлечение полезной информации из одного источника, извлечение связанной информации из нескольких источников и создание удобочитаемого и грамотного краткого текста, передающего всю смысловую информацию оригинала.
Реферат, по определению В. И. Соловьева, это семантически адекватное, ограниченное малым объемом и вместе с тем возможно полное изложение основного содержания первичного содержания документа (Соловьев 1975, с. 20).
Исходя из данного определения, можно сделать вывод, что реферат должен обладать следующими характеристиками:
1. Информативность: реферат должен содержать в себе самую важную информацию исходного текста (или текстов);
2. Краткость: реферат не должен содержать излишнюю информацию и должен иметь значительно меньший объем, чем исходный текст (или тексты).
Использование программ для автоматического создания рефератов в иноязычной литературе обычно называется задачей обобщения документов (англ. document summarization). Работы в данном направлении ведутся уже более полувека, начиная с методов, основанных на частотности слов (Luhn 1958; Baxendale 1958) и методов машинного обучения по признакам (Aone и др. 1997; Lin 1999). В последнее время модели на основе нейронных сетей достигли заметных успехов во многих областях обработки естественного языка (Collobert и др. 2011; Devlin и др. 2018). В нейросетевых моделях слова сначала моделируются при помощи векторных представлений, образуя так называемые «вложения слов» (англ. word embeddings), а затем подвергаются нелинейным преобразованиям. Таким образом, одним из преимуществ нейронных сетей является их гибкость. Различные нейронные архитектуры могут быть спроектированы для решения множества разных задач, а несколько слоев нейронной сети могут быть объединены и сформированы в единую большую сеть, которая может извлекать еще большее количество признаков. Для настройки параметров сети обычно используются методы оптимизации на основе градиентного спуска. Кроме того, благодаря архитектуре кодировщик- декодировщик (англ. encoder-decoder) (Bahdanau и др. 2014), модели нейронных сетей показали впечатляющую эффективность при выполнении таких задач компьютерной лингвистики, как машинный перевод (Bahdanau и др. 2014), генерация описаний изображений (Xu и др. 2015) и упрощение предложений (Zhang и Lapata 2017). Потенциал нейросетевых моделей для создания краткого и грамотного текста привел ко многим достижениям в задачах генерации естественного языка, в том числе и в задаче автоматического реферирования текста. Несмотря на то, что исследования в данной области имеют довольно долгую историю, подавляющее большинство работ в данном направлении рассматривают резюмирование текстов на английском языке. Таким образом, вопрос о применении существующих нейронных систем реферирования к текстам на русском языке приобретает особую актуальность и требует проведения глубокого исследования.
Объектом исследования являются методы автоматического реферирования текстов.
Предмет исследования - применение нейросетевых методов для решения задачи автоматического реферирования текстов на русском языке.
Практическая значимость состоит в реализации нейросетевых методов автоматического реферирования текстов на русском языке и анализе результатов их применения.
Цель данной работы состоит в изучении методов автоматического реферирования текстов и написании программного кода для реализации таких нейросетевых моделей как SummaRuNNer (Nallapati и др. 2016) и PointerGenerator Network (See и др. 2017), а также для настройки предварительно обученных языковых моделей ruBERT (Kuratov и Arkhipov 2019) и mBART (Liu и др. 2020), и применения их к задаче обобщения текстов на русском языке.
Исходя из поставленной цели, были сформулированы следующие задачи:
1. Провести обзор исследований методов автоматического реферирования текстов;
2. Изучить архитектуру нейросетевых моделей, применяющихся для автоматического реферирования текстов;
3. Построить несколько систем автоматического обобщения русскоязычных текстов на основе нейросетевых моделей;
4. Осуществить оценку применения данных систем к русскоязычным текстам;
5. Идентифицировать ошибки в реферировании текстов данными методами и предложить возможное объяснение их появлению.
Методы и материалы исследования:
Реализация выбранных в ходе исследования методов автоматического реферирования текста проводилась на языке программирования Python с использованием среды разработки Google Colab.
В качестве данных для обучения моделей были использован корпус новостных статей Rossiya Segodnya (Gavrilov и др. 2019).
Автоматическая оценка реализованных методов была проведена с использованием метрик BLEU, ROUGE и chrF.
Данная работа состоит из введения, трех глав, заключения, списка использованной литературы и приложения.
Во введении формулируется проблема, обосновывается актуальность работы, описывается практическая значимость исследования, определяются цель, задачи и методы данной работы, обозначаются предмет и объект исследования.
Первая глава работы представляет собой теоретическую часть исследования. В ней рассматриваются различные подходы к задаче автоматического реферирования, от самых ранних методов до современных. Отдельно рассматриваются подходы к реферированию текстов на русском языке.
Вторая глава также носит теоретический характер. В данной главе рассматриваются основы архитектур рекуррентных нейронных сетей и архитектуры глубоких нейронных сетей Transformer, применяющихся при решении задачи автоматического реферирования. В данной главе мы также рассматриваем подходы к автоматическому реферированию при помощи нейронных сетей и методы их автоматической оценки. Здесь же приводится список доступных корпусов, которые применимы для решения задачи автоматического обобщения текстов на русском языке.
Третья глава описывает практическую часть исследования, в ходе которой описываются алгоритмы работы созданных систем автоматического реферирования, детали их имплементации и приводятся результаты оценки качества их работы по метрикам BLEU, ROUGE и chrF. В данной главе также проводится исследование ошибок, допущенных системами автоматического реферирования и дается возможное объяснение их возникновению.
В заключении обобщаются теоретические и практические результаты работы, анализируются преимущества и недостатки использованных методов. Также приводятся перспективы будущих исследований.
В приложении приведены примеры сгенерированных системами рефератов.
Целью настоящего исследования было изучение методов автоматического реферирования текстов на русском языке, применение архитектур нейронных сетей с последующим сравнением результатов их работы на русскоязычных текстах, а также проведение анализа ошибок и объяснение возможных причин их появления.
В ходе первой главы теоретической части работы были рассмотрены основные подходы к реферированию текстов, в также различные методики автоматического обобщения текстов начиная от более ранних и заканчивая современными. Отдельно были рассмотрены различные подходы к реферированию текстов на русском языке.
Исходя из обзора исследований было принято решение о реализации нескольких систем нейронной саммаризации текстов, поэтому во второй части исследования приведены теоретические основы, лежащие в архитектурах нейронных сетей. В частности, были рассмотрены основы рекуррентных нейронных сетей и архитектуры Transformer. Были также исследованы методы реализации экстрактивного и абстрактивного подхода к реферированию с использованием нейронных сетей, а также связанные с ними трудности. Были приведены примеры доступных данных для реализации моделей автоматического реферирования и рассмотрены методы автоматической оценки данных систем.
В практической части исследования описываются реализованные нами модели, а также детали их имплементации. Были проведены эксперименты с обучением моделей как на уровне целых токенов, так и на уровне подслов. Для решения задачи экстрактивного реферирования нами была реализована модель SummaruNNer (Nallapati и др. 2017), а также была настроена предварительно обученная языковая модель ruBERT (Kuratov и Arkhipov 2019). Для абстрактивного подхода мы реализовали модель Pointer-Generator Network (See и др. 2017) и провели тонкую настройку предобученной языковой модели mBART (Liu и др. 2020). Для оценки разработанных нами систем обобщения текстов была использована распространенная метрика для оценки качества машинного перевода BLEU и метрика ROUGE, специально предназначенная для оценки автоматического составления рефератов, помимо прочего мы провели оценку по метрике chrF, которая анализирует реферат на уровне подслов. Таким образом, один из первых методов нейронного реферирования текстов - SummaRuNNer - продемонстрировал результаты сравнимые с экстрактивной системой на основе предварительно обученной модели ruBERT. Несмотря на то, что результаты автоматической оценки экстрактивных систем разительно хуже, чем абстрактивных, предложения, отобранные данными системами, передают основную суть оригинала в большинстве случаев. Реализованные модели для абстрактивного обобщения - Pointer-Generator Network и модель на основе mBART- значительно превосходят экстрактивные системы по всем метрикам и в целом способны генерировать краткие и грамотные резюме.
По результатам анализа полученных сводок новостных статей и их ошибок были сделаны следующие выводы:
1. Модели экстрактивного реферирования, как обученные с нуля, так и на основе предварительно обученных моделей, способны выявлять предложения, содержащие основной посыл оригинального текста. Данные модели так же не имеют проблем с соблюдением грамматических норм русского языка, так как данный подход не задействует генерации текста как таковой. Минусами данного подхода является сравнительная избыточность текста (подход не подразумевает любого рода модификаций выбранных предложений) и необходимость в наличии размеченного исходного текста.
2. В рефератах моделей абстрактивного типа, в частности Pointer-Generator Network (PGN), обнаруживаются различные грамматические ошибки. Так например, в текстах PGN, обученной на уровне слов, были замечены ошибки на синтаксическом и лексическом уровнях, а в рефератах PGN, обученной на уровне подслов, были обнаружены словообразовательные ошибки. Вместе с этим, модели PGN склонны к генерации повторяющихся цепочек токенов, которую мы успешно разрешили путем имплементации механизма покрывающего внимания.
3. Модель абстрактивной саммаризации, основанная на предобученной языковой модели mBART, показала наилучшие результаты реферирования из всех рассмотренных моделей. Данные результаты объясняются переносом признаков, извлеченных системой при обучении на оригинальной задаче, а также наличием объемного обучающего словаря.
4. Возможными причинами ошибок экстрактивных моделей в основном могут являться тексты, носящие справочный характер (когда каждое предложение в исходном тексте имеет равную информационную ценность), недостаточный объем обучающего словаря, а также специфичность тренировочных данных.
5. Вероятными причинами ошибок абстрактивных моделей можно считать недостаточный объем обучающих данных, малый размер обучающего словаря и сравнительно упрощенная архитектура, связанная с ограниченными вычислительными ресурсами.
Данное исследование можно продолжить за счет увеличения количества тренировочных данных или же применения иного корпуса, содержащего более объемные исходные тексты и эталонные резюме, проведения оптимизации гиперпараметров используемых нейронных сетей и усложнения их архитектуры. Для улучшения эффективности моделей SummaRuNNer и Pointer-Generator Network возможно также применение предобученных векторных представлений (например, word2vec (Mikolov и др. 2013) или GloVe (Pennington и др. 2014)). Более того, в качестве будущих исследований нам было бы интересно реализовать систему многодокументного реферирования, а также имплементировать способ обучения моделей без учителя, что позволило бы проводить обобщение текстов, не связанных с областью доступных обучающих данных, что является особенно актуальным в эпоху избыточности количества ежедневно поступающей информации.
Практическая значимость работы заключалась в реализации нейросетевых методов автоматического реферирования текстов на русском языке и анализе результатов их применения. Реализованные алгоритмы, а также полученные в результате их работы тексты, классификацию ошибок и выводы можно использовать для дальнейших исследований в данной области.
Таким образом, цель и задачи исследования можно считать достигнутыми.
Анисимов, А. В. и А. А. Марченко (2006). “Ассоциативное реферирование естественно-языковых текстов”. В: Штучний штелект 3-С, с. 488— 492.
Бакиева, А.М. и Т.В. Батура (2017). “Исследование применимости теории риторических структур для автоматической обработки научно-технических текстов”. В: Cloud of science 4.3, с. 450—464.
Браславский, Павел и Иван Колычев (2005). “Автоматическое реферирование веб-документов с учетом запроса”. В.
Еляков, Анатолий Дмитриевич (2005). “Информационная перегрузка людей”. В: Социологические исследования 5, с. 114—121.
Зубов, Александр Васильевич (2005). “Автоматическое построение табличного реферата группы текстов одной тематики”. В: Материалы конференции «Диалог-2005». http://www. dialog-21. ru/Archive/2005/Zubov% 20A/ZubovA. htm.
Лукашевич, Н.В., Б.В. Добров и С.В. Штернов (2005). “Обработка потока новостей на основе больших лингвистических ресурсов”. В: Интернет- математика 2005: автоматическая обработка веб-данных.—М., 2005.
Осминин, Павел Григорьевич (2014). “Модель автоматического реферирования на основе базы знаний, ориентированная на автоматический перевод”. В: Вестник Южно-Уральского государственного университета. Серия: Лингвистика 11.2, с. 65—69.
Осминин, Павел Григорьевич (2016). “Построение модели реферирования и аннотирования научно-технических текстов, ориентированной на автоматический перевод”. Дис. ... док.
Попов, М. Ю., А. В. Заболеева-Зотова и С. А. Фоменков (2003). “Визуализация семантической структуры и реферирование текстов на естественном языке”. В: Труды международной конференции.
Соловьев, Виктор Иванович (1975). Составление и редактирование рефератов: Вопросы теории и практики. М., с. 104.
Ступин, Вячеслав Сергеевич (2004). “Система автоматического реферирования методом симметричного реферирования”. В: Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог, с. 579—591.
Тревгода, Сергей Александрович (2009). “Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений”. В: автореферат диссертации кандидата технических наук 5.01.
Шевчук, Антон Александровичи др. (2019). “Автоматическое реферирование текста при помощи нейронных сетей на примере генерации новостных заголовков”. В.
Эпштейн, Михаил (1999). “Информационный взрыв и травма постмодерна”. В: Звезда 11, с. 216—227.
Aone, Chinatsu и др. (1997). “A Scalable Summarization System Using Robust NLP”. В: url: https://aclanthology. org/W97-0711.
...