Тип работы:
Предмет:
Язык работы:


Нейросетевые методы выделения сочинительных связей

Работа №126714

Тип работы

Бакалаврская работа

Предмет

нейронные сети

Объем работы31
Год сдачи2023
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
27
Не подходит работа?

Узнай цену на написание


1. Введение 2
1.1. Задача выделения сочинительных связей 2
1.2. Современные нейросетевые подходы к обработке текста как последовательности 4
1.3. Структура работы 10
2. Постановка задачи 11
3. Методология 11
3.1. Данные 11
3.2. Оценка качества 11
3.3. Модель 12
4. Эксперименты и результаты 13
4.1. Изначальное качество работы и процедура предобработки данных 13
4.2. Анализ ошибок 14
4.3. Предобработка данных — чанкинг 17
4.4. Архитектурные изменения и регуляризация 18
4.5. Изменение процедуры пост-обработки 21
4.6. Схема обучения и подбора гиперпараметров 23
4.7. Результаты экспериментов 25
5. Заключение 27
Список литературы 28

1.1. Задача выделения сочинительных связей. Задача выделения сочинительных свя­зей (Coordination Analysis, CA) состоит в том, чтобы научиться находить внутри предложений синтаксические структуры, соединяющие грамматически равноправные части предложений (такие структуры и называются в лингвистике “coordinations”) [31]. Например, в предложе­нии “Susan works [slowly] and [carefully]” такой структурой является “[slowly] and [carefully]”. В ней союз “and” связывают два независимых обстоятельства: “slowly” и “carefully” (см. Рис. 1).
Рис. 1. Пример предложения с сочинительной связью.
Решение этой задачи позволяет устанавливать потенциально ценные связи и отношения между определёнными частями предложения. В том числе поэтому выделение сочинитель­ных связей — важный инструмент предобработки текстов. Так, в работе [14] предложение с сочинительными связями преобразовывается в несколько «простых», и метод решения це­левой задачи (OpenIE) применяется уже к ним, что даёт значительный прирост в качестве. В работах [14, 28] показано, что этот этап подготовки значительно влияет на итог работы соответствующих методов.
1.1.1. Решение задачи CA методами машинного обучения. Одна из первых статей, в кото­рой задача выделения сочинительных связей решалась с помощью нейронных сетей, была опубликована Ficler и Goldberg в 2016 году [7]. Идея основана на двух лингвистических свойствах сочинительных структур: (1) отдельные части таких структур «похожи», выполня­ют сходную фунцию в предложении; (2) при замене всей структуры на любую из её составных частей предложения остаются осмысленными.
Для входного предложения строится дерево разбора (см. пример на Рис. 2).
Рис. 2. Построение дерева разбора входного предложения.
Подход к решению задачи, предложенный в статье, состоит в том, чтобы для каждого сочинительного союза (к ним авторы относят слова из списка: “and”, “nor”, “or” и “but”) опре­делить, задаёт ли он какую-либо сочинительную структуру, и, если задаёт, найти индексы начала и конца первой и второй частей данной структуры.
Алгоритм состоит из 3 шагов: сначала для каждого сочинительного союза с помощью би­нарного классификатора предсказывается, задаёт ли он некоторую сочинительную структу­ру. Если да, то на следующем шаге извлекается ранжированный список возможных структур, где кандидатом является пара промежутков вида ((i, j), (l,m)). Затем оцениваются кандида­ты, и пара, набравшая наибольшее количество очков, возвращается в качестве ответа.
Модель для подсчёта значений ранжирующей функции на парах промежутков состоит из 3 компонентов: компонент, связанный с первым свойством, вычисляет расстояние между вы­ходами модели LSTM (Long Short-Term Memory network) [10] по последовательностям часте­речных меток (“POS-тегов”) по пути от конъюнкта до вершины в дереве разбора. Компонент, учитывающий второе свойство, получает 2 вектора из выходов LSTM по последовательностям “POS-тегов” токенов предложения с предварительно удалёнными из него первым и вторым промежутком соответственно. Третий компонент подсчитывает дополнительные характери­стики, получаемые из синтаксического парсера. Обучение данной модели представляет собой минимизацию попарной функции потерь для задачи ранжирования на парах извлечённых связей-кандидатов.
Несмотря на то, что подход Ficler и Goldberg дал существенный прирост качества решения данной задачи, у него были недостатки, связанные с тем, что он сильно зависит от синтакси­ческого парсера: зависимость от внешней модели, замедление скорости работы и сохранение ошибок парсера.
В 2017 году появился новый метод, направленный на решение проблем выше. Он был опи­сан в статье [26] (здесь и далее будем обозначать его как “Teranishi-17”). Данный подход не строит синтаксических деревьев, использует только токены предложения и их частереч­ные метки (“POS-теги”). Модель состоит из 4 основных частей.
(1) Построение векторных представлений по токенам и их “POS-тегам”.
(2) Двунаправленная рекуррентная сеть, строящая по входной последовательности век­торные представления на уровне предложения.
(3) Подсчёт векторных представлений возможных сочинительных структур и векторов признаков 2 соединяемых данной структурой частей (вектора признаков основаны на свойствах сочинительных структур, сформулированных выше 1.1.1).
(4) Подсчёт очков по всем возможным парам соединяемых частей с помощью Многослой­ного перцептрона. Выбор пары с наибольшим количеством очков.
В 2019 году теми же авторами была опубликована статья [27] (здесь и далее “ Teranishi- 19”), в которой описанные выше идеи обобщались и улучшались. Во-первых, вместо одной модели, генерирующей пары соединяемых сочинительными структурами частей появляется 2: внутренняя и внешняя. Внутренняя модель генерирует индексы начала и конца ближайших слева и справа соединяемых частей, а внешняя — индексы начала и конца первой и последней соединяемых частей структуры. Таким образом данный подход способен предсказывать не только структуры, соединяющие 2 части, но и больше. Также внутренняя и внешняя модели подсчитывают очки для каждой из пар-кандидатов. Во-вторых, поверх описанных моделей запускается алгоритм Кока-Янгера-Касами [24] для построения дерева разбора в рамках осо­бой грамматики, задающей правила сочинительных структур. Это сделано для того, чтобы найти «наилучший» вариант сочинительной связи, исходя из структуры предложения.
В последнее время наиболее перспективные подходы к CA состоят в использовании моделей, решающих задачи, сходные с извлечением информации (Information extraction, IE). Так, одна из разновидностей задачи, Open Information Extraction, заключа­ется в извлечении троек вида «субъект, предикат, объект». Например, в предложении “John managed to open the door” такой тройкой является (John, managed to open, the door). Модель OpenIE для входного предложения должна выдавать набор «масок», где каждый токен будет помечен одним из 4 классов: «субъект», «объект», «отношение» (предикат) или «фон» (т.е. ни один из предыдущих классов). Аналогично можно сформулировать и задачу CA: для входно­го предложения модель должна научиться находить набор масок, где каждый токен помечен одним из 6 классов: CP_START, CP, CC, SEP, OTHERS или NONE (CP_START — токен, с которого начинается структура; CP — элементы, соединяемые союзом, CC — союз; SEP — разделители разных частей структуры, например, запятые, OTHERS — всё, что не относится к категориям выше, но присутствует в структуре; NONE — фоновые слова, не относящиеся к структуре).
Так, пример, приведённый выше, будет размечен как на Рис. 3:
Рис. 3. Пример предложения с сочинительной связью и соответствующей разметкой.
1.2. Современные нейросетевые подходы к обработке текста как последовательно­сти. В этом разделе будет приведён обзор нейросетевых методов, связанных с предлагаемым исследованием.
1.2.1. Архитектура Transformer. Для того, чтобы перейти к описанию последующих моде­лей, решающих задачу CA, рассмотрим подробнее важную часть их архитектуры — модель BERT [5], основанную на элементах архитектуры Transformer [29].
Изначально Transformer — нейросетевая архитектура «кодировщик-декодировщик» (encoder-decoder, см. Рис. 4), использующая механизм self-attention («само-внимание»), по­могающий кодировщику посмотреть на другие токены во входном предложении во время кодирования текущего токена. Причём архитектура данной модели устроена так, что все вы­числения для отдельных токенов происходят параллельно, что делает обучение Transformer и предсказания с их помощью очень производительными.
Рис. 4. Архитектура Transformer.
До публикации статьи [29], в которой впервые была представлена архитектура Transformer, достигающими лучшего качества в области обработки естественного языка моделями в за­дачах, рассматривающих текст как последовательность, как правило, были рекуррентные нейронные сети с механизмом внимания [2]. Однако у этих моделей был существенный недо­статок: вычисления в них авторегрессивны, то есть токены обрабатываются последователь­но, и для того, чтобы вычислить вектор состояния текущего токена, нужно проделать эту процедуру для всех предыдущих токенов. Архитектура из последовательных блоков рекур­рентной сети приводит к нескольким проблемам: во-первых, к затуханию градиентов при обработке длинных последовательностей, а во-вторых, к невозможности сделать вычисления параллельными, поэтому обучение данной модели получается достаточно долгим.
Трансформеры дали сразу ряд преимуществ: вычислительная производительность (каче­ство работы превзошло качество других моделей, то же верно для скорости работы), сокра­щение «максимальных путей» между словами (в трансформерах, в отличие от рекуррентных моделей, для формирования векторных представлений (эмбеддингов) необязательно учиты­вать абсолютно все токены последовательности, веса внимания позволяют убрать слишком далёкие слова, не влияющие на текущий токен [29]; в рекуррентных сетях каждый преды­дущий токен влияет на вектор состояния следующего), возможность построения контексто-зависимых векторных представлений, а также потенциальная интерпретируемость модели с помощью карт внимания.
Архитектура Transformer стала основой очень большого количества новых моделей. Например, появились модели, строящие позволившие добиться улучшения качества в большом числе задач контексто-зависимые векторные представления слов, основанные на кодировщике «трансформера»: Bidirectional Encoder Representations from Transformers (BERT) [5], Enhanced Representation through Knowledge Integration (ERNIE) [30], Lite BERT (ALBERT) [16], Robustly Optimized BERT (RoBERTa) [17] и т.п.
Также на основе декодировщика Transformer были предложены порождающие языковые модели — например, семейство моделей Generative Pre-trained Transformer (GPT) [21], кото­рые, в числе прочего, авторегрессионным способом могут генерировать новый текст.
1.2.2. Метод BERT. Как было сказано выше, метод BERT используется для построения хороших контексто-зависимых векторных представлений слов и основан на кодировщике Transformer.
Более ранние «популярные» архитектуры, решающие данную задачу, учились предсказы­вать следующий токен, опираясь только на предыдущие токены. Однако интуитивно контекст должен определяться не только предыдущими токенами, но и последующими. Для решения этой проблемы были придуманы двунаправленные модели, которые учитывают контекст и слева, и справа: например, модель Embeddings from Language Models, ELMo [20] обучает па­раллельно две вспомогательные модели, одна из которых предсказывает следующее слово по предыдущим, а вторая — текущее слово по последующим. Итоговое векторное представление представляет собой конкатенацию двух векторов левого и правого контекстов соответственно.
BERT [5] также можно отнести к «двунаправленным» моделям: она учитывает два направ­ления контекста, но делает это по-другому.
На вход подаются токенизированные пары предложений с некоторыми скрытыми (маски­рованными) токенами (см. Рис. 5). Одна из двух задач, на которых одновременно обучается модель, — это задача генерации пропущенного токена (Cloze task). Модель обучается пред­сказывать намеренно «пропущенное» в тексте слово. Вторая задача, на которой обучается данная модель, — это задача бинарной классификации. Она состоит в определении того, яв­ляется ли второе предложение на входе продолжением первого. Решая эту задачу, модель учится различать наличие связи между предложениями в тексте1.
1.2.3. OpenIE6. Достигающая в настоящий момент лучшего качества модель IGL-CA из ра­боты, посвящённой OpenIE6 [14], решает задачу CA, используя подход, описанный выше. Авторы подготовили новую модель для решения задачи OpenIE, а затем изменили количе­ство классов с 4 («объект», «субъект», «предикат», «пропуск») до 6 (CP_START, CP, CC, SEP, OTHERS, NONE; см. выше) и применили точно такой же подход к задаче CA.
Основная идея заключается в итеративном извлечении троек, Iterative Grid Labeling («раз­метка решётки»). Эта идея основана на архитектуре Iterative Memory-Based Joint Open Information Extraction (IMoJIE) [8], которая на момент 2020 года была лучшей по качеству моделью для решения задачи OpenlE. В IMoJIE тройки (триплеты) извлекаются последова­тельно, маска за маской, причём полученные моделью эмбеддинги на предыдущей итерации передаются на вход следующей.
Рис. 5. Обучение модели BERT.
Это сделано для того, чтобы не повторять извлечения с предыдущих шагов. Для извлечения векторных представлений исходных токенов входного предложения используется модель BERT [5]. Существенным недостатком IMoJIE является низкая скоростью работы. Поэтому для нахождения баланса между скоростью работы и ка­чеством предсказаний была разработана модель OpenIE6. В ней триплеты извлекаются также итеративно, а для ускорения работы первоначальные эмбеддинги слов последовательности рассчитываются с помощью BERT только один раз (в IMoJIE они считаются на каждом шаге извлечения маски).
Также для улучшения качества модели OpenIE добавляются регуляризаторы, учитыва­ющие различные лингвистические ограничения и включаемые как слагаемые в функцию потерь (невязку).
Например, одно из лингвистических ограничений в OpenIE6 — добавка POSC — отвечает за то, чтобы каждое слово, относящееся к части речи из заданного авторами списка (существи­тельное, глагол, прилагательное и наречие) было хотя бы в одном из извлечённых триплетов для данного входного предложения.
Формула регуляризатора POSC следующая:
Jposc
t=1
N
Prt = 1 - max max pk,t,n,
n=1 ke{S,R,O}
где pk,t,n — предсказанная моделью вероятность принадлежности токена t в маске n к классу к (в данном примере S — “subject”, R — “relation”, O — “object”); T — число токенов в маске, N — число извлекаемых масок; x(mp — индикатор токенов с интересующими частями речи, он равен 1, если токен t относится к части речи из списка, в ином случае равен 0. Jposc входит с определённымв весом как слагаемое в итоговую функцию потерь.
Рис. 6. Архитектура модели OpenIE6 [14].
1.2.4. DetlE как базовая модель. В феврале 2022 года была опубликована статья [28], пред­ставляющая новую модель для решения задачи OpenIE, вдохновлённую идеей одностадийных детекторов (one-stage) из компьютерного зрения.
В области компьютерного зрения детекторами называются модели, которые учатся нахо­дить определённые объекты на изображениях и выделять их, например, ограничивающими рамками (bounding boxes, bboxes; см. Рис. 7). Одностадийные детекторы за один проход од­новременно формируют признаки, предсказывают класс объекта внутри текущего bbox и «координаты» этого bbox на изображении.
Рис. 7. Пример предсказания одностадийного детектора YOLO [23].
Архитектура модели DetIE состоит из 3 основных частей: токенизация входного текста; из­влечение эмбеддингов при помощи BERT, последние слои которого «размораживаются» (то есть часть весов нейронной сети начинает обновляться в ходе обучения в рамках обратного распространения ошибок лишь начиная с некоторого шага/итерации) для того, чтобы иметь возможность «подкорректировать» (дообучить; fine-tuning) модель под задачу OpenIE; за­тем идёт полносвязный слой. На выходе моделью выдаётся фиксированное количество масок найденных структур N. Маски представляют собой тензор размера (T, N,C), в каждом эле­менте (t, n, с) которого записана вероятность p того, что токен t в маске n относится к классу с. Финальная маска структуры получается при помощи взятия argmax по всем классам.
Рисунок 8.
Функция потерь в DetIE аналогична той, что используется one-stage-детекторами: вводится оценка IoU (Intersection over Union — отношение пересечения ограничивающих прямоуголь­ников к площади их объединения) между триплетами, извлечёнными моделью, и реальными метками. IoU рассчитывается следующим образом: пусть n — это номер извлечённой маски, m — номер истинной бинарной маски, тогда значение оценки IoU между ними равно:
IU _ Znm
IoUnm -T-T
Unm
где ptnc — предсказанная моделью вероятность того, что токен t в маске n относится к клас­су c, ltmc — 0 или 1 в зависимости от того, относится ли токен t к классу c в истинной маске т.
На данном этапе есть матрица размера N х M со значениями IoU между истинны­ми метками и предсказанными моделью вероятностями. Для того, чтобы определить, ка­ким именно истинным маскам соответствует набор извлечённых вероятностей, используется Венгерский алгоритм [15], предназначенный для решения линейной задачи о назначениях (Linear Assignment problem, LAP). Эта задача заключается в максимизации или минимиза­ции Tr [P • C] для некоторой фиксированной неотрицательной квадратной матрицы стоимо­стей C по множеству её матриц перестановок P. Данную задачу можно обобщить и на случай неквадратной матрицы с помощью добавления фиктивных столбцов или строчек, состоящих из максимально возможных значений в случае максимизации и из нулей в случае мини­мизации. Для неотрицательной неквадратной матрицы IoU из DetIE с помощью решения LAP находится набор сопоставлений между истинными масками и извлечёнными, макси­мизирующий сумму IoU по соответствиям из набора. Так как M < N, то в матрицу IoU предварительно добавляются фиктивные столбцы, а в итоговом решении (N — M) предсказа­ний модели не будут сопоставлены ни одной из истинных масок. В коде DetIE используется реализация lapsolver [4].
В качестве функции потерь используется кросс-энтропия, вычисленная по полученному набору соответствий.
Преимуществами модели DetIE являются быстрый inference (предсказание), а также дан­ный подход на нескольких наборах данных для оценки качества OpenIE продемонстрировал качество более высокое, чем OpenIE6.
1.3. Структура работы. Последующее содержание состоит из 3 основных глав: «Постанов­ка задачи», «Методология» и «Эксперименты и результаты».
В первой из них сформулирована цель квалификационной работы. В главе «Методоло­гия» 3 описаны используемые данные, оценка качества и более подробно рассказано об ос­новных этапах работы модели DetIE, которую было решено использовать в качестве базо­вого подхода к решению задачи выделения сочинительных связей. В главе «Эксперименты и результаты» 4 проведён анализ ошибок базовой модели, описаны все апробированные но­вовведения в процедурах предобработки и пост-обработки данных и в архитектуре модели (они предложены на основе анализа ошибок, поэтому описаны в данной главе, а не в «Ме­тодологии»), а также степень их влияния на качество решения. В разделе «Заключение» 5 подведены итоги и предложены варианты дальнейшей работы над рассмотренной задачей.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной работе были исследованы различные подходы к улучшению нейросетевой архи­тектуры модели для решения задачи выделения сочинительных связей в предложениях на английском языке.
ТАБЛИЦА 4. Сравнение качества и производительности с актуальными совре­менными подходами. Уступая IGL-CA (bert-base-cased) 0.5% в Р1-мере, пред­лагаемая модель позволяет решать целевую задачу, обрабатывая в 3.45 раз больше предложений в секунду в условиях аналогичной вычислительной ин­фраструктуры.
Модель
Точность
Полнота
Fl-мера
Скорость
«на инференсе» фредл^ек.)
DetIE-CA + Beam Search (bert-base-multilingual-cased)
0.856
0.833
0.844
558
IGL-CA (bert-base-cased)
0.863
0.836
0.849
162
Teranishi-19 (BiLSTM)
0.753
0.756
0.755
-
Teranishi-19 (bert-base-cased)
0.831
0.832
0.831
-
Конец таблицы 4.
Существенного прироста в качестве удалось достичь с помощью разрабо­танного алгоритма агрегации наподобие Beam Search, значительное же число апробирован­ных подходов показали себя бесперспективными на основе экспериментов на доступных нам вычислительных ресурсах.
Также было проведено сравнение качества и производительности полученной модели с ак­туальными современными подходами к задаче, которое показало, что полученный в работе результат сопоставим по качеству с лучшими современными решениями и значительно пре­восходит их по скорости работы на инференсе, что позволяет говорить о возможности более эффективного использования нейросетевых подходов к извлечению сочинительных связей.
В дальнейшем, при наличии доступа к инфраструктуре, позволяющей эффективно прово­дить большее число экспериментов с моделями на основе значительно большего числа пара­метров, имеет смысл апробировать предложенный подход, взяв за базовую языковую модель из семейства bert-large. Пример IGL-CA [14] позволяет предполагать, что это может суще­ственно улучшить качество предсказаний.


[1] Spacy. https://github.com/explosion/spaCy, 2015.
[2] Dzmitry Bahdanau, Kyung Hyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. January 2015. 3rd International Conference on Learning Representations, ICLR 2015 ; Conference date: 07-05-2015 Through 09-05-2015.
[3] Noam Chomsky. On certain formal properties of grammars. Information and control, 2(2):137-167, 1959.
[4] Jack Valmadre Christoph Heindl. py-lapsolver. https://github.com/cheind/py-lapsolver, 2018.
[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina N. Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. 2018.
[6] Jessica Ficler and Yoav Goldberg. Coordination annotation extension in the penn tree bank. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 834-842, 2016.
[7] Jessica Ficler and Yoav Goldberg. A neural network for coordination boundary prediction. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 23-32, 2016.
[8] Shelley Gupta, Archana Singh, and Vivek Kumar. Emoji, text, and sentiment polarity detection using natural language processing. Information, 14(4), 2023.
[9] Ruidan He, Wee Sun Lee, Hwee Tou Ng, and Daniel Dahlmeier. An unsupervised neural attention model for aspect extraction. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 388-397, Vancouver, Canada, July 2017. Association for Computational Linguistics.
[10] Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735-1780, 1997.
[11] Zihang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, and Shuicheng Yan. Convbert: Improving BERT with span-based dynamic convolution. CoRR, abs/2008.02496, 2020.
[12] Yoon Kim. Convolutional neural networks for sentence classification. CoRR, abs/1408.5882, 2014.
[13] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1f12.6980, 2014.
[14] Keshav Kolluru, Vaibhav Adlakha, Samarth Aggarwal, Soumen Chakrabarti, et al. Openie6: Iterative grid labeling and coordination analysis for open information extraction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3748-3761, 2020.
[15] Harold W. Kuhn. The hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2:83-97, 1955.
...


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ