Тип работы:	Предмет:	Язык работы:

Нейросетевые методы выделения сочинительных связей

Работа №	126714
Тип работы	Бакалаврская работа
Предмет	нейронные сети
Объем работы	31
Год сдачи	2023
Стоимость	4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	27

Не подходит работа?

Узнай цену на написание

Содержание

1. Введение 2
1.1. Задача выделения сочинительных связей 2
1.2. Современные нейросетевые подходы к обработке текста как последовательности 4
1.3. Структура работы 10
2. Постановка задачи 11
3. Методология 11
3.1. Данные 11
3.2. Оценка качества 11
3.3. Модель 12
4. Эксперименты и результаты 13
4.1. Изначальное качество работы и процедура предобработки данных 13
4.2. Анализ ошибок 14
4.3. Предобработка данных — чанкинг 17
4.4. Архитектурные изменения и регуляризация 18
4.5. Изменение процедуры пост-обработки 21
4.6. Схема обучения и подбора гиперпараметров 23
4.7. Результаты экспериментов 25
5. Заключение 27
Список литературы 28

Введение

1.1. Задача выделения сочинительных связей. Задача выделения сочинительных связей (Coordination Analysis, CA) состоит в том, чтобы научиться находить внутри предложений синтаксические структуры, соединяющие грамматически равноправные части предложений (такие структуры и называются в лингвистике “coordinations”) [31]. Например, в предложении “Susan works [slowly] and [carefully]” такой структурой является “[slowly] and [carefully]”. В ней союз “and” связывают два независимых обстоятельства: “slowly” и “carefully” (см. Рис. 1).
Рис. 1. Пример предложения с сочинительной связью.
Решение этой задачи позволяет устанавливать потенциально ценные связи и отношения между определёнными частями предложения. В том числе поэтому выделение сочинительных связей — важный инструмент предобработки текстов. Так, в работе [14] предложение с сочинительными связями преобразовывается в несколько «простых», и метод решения целевой задачи (OpenIE) применяется уже к ним, что даёт значительный прирост в качестве. В работах [14, 28] показано, что этот этап подготовки значительно влияет на итог работы соответствующих методов.
1.1.1. Решение задачи CA методами машинного обучения. Одна из первых статей, в которой задача выделения сочинительных связей решалась с помощью нейронных сетей, была опубликована Ficler и Goldberg в 2016 году [7]. Идея основана на двух лингвистических свойствах сочинительных структур: (1) отдельные части таких структур «похожи», выполняют сходную фунцию в предложении; (2) при замене всей структуры на любую из её составных частей предложения остаются осмысленными.
Для входного предложения строится дерево разбора (см. пример на Рис. 2).
Рис. 2. Построение дерева разбора входного предложения.
Подход к решению задачи, предложенный в статье, состоит в том, чтобы для каждого сочинительного союза (к ним авторы относят слова из списка: “and”, “nor”, “or” и “but”) определить, задаёт ли он какую-либо сочинительную структуру, и, если задаёт, найти индексы начала и конца первой и второй частей данной структуры.
Алгоритм состоит из 3 шагов: сначала для каждого сочинительного союза с помощью бинарного классификатора предсказывается, задаёт ли он некоторую сочинительную структуру. Если да, то на следующем шаге извлекается ранжированный список возможных структур, где кандидатом является пара промежутков вида ((i, j), (l,m)). Затем оцениваются кандидаты, и пара, набравшая наибольшее количество очков, возвращается в качестве ответа.
Модель для подсчёта значений ранжирующей функции на парах промежутков состоит из 3 компонентов: компонент, связанный с первым свойством, вычисляет расстояние между выходами модели LSTM (Long Short-Term Memory network) [10] по последовательностям частеречных меток (“POS-тегов”) по пути от конъюнкта до вершины в дереве разбора. Компонент, учитывающий второе свойство, получает 2 вектора из выходов LSTM по последовательностям “POS-тегов” токенов предложения с предварительно удалёнными из него первым и вторым промежутком соответственно. Третий компонент подсчитывает дополнительные характеристики, получаемые из синтаксического парсера. Обучение данной модели представляет собой минимизацию попарной функции потерь для задачи ранжирования на парах извлечённых связей-кандидатов.
Несмотря на то, что подход Ficler и Goldberg дал существенный прирост качества решения данной задачи, у него были недостатки, связанные с тем, что он сильно зависит от синтаксического парсера: зависимость от внешней модели, замедление скорости работы и сохранение ошибок парсера.
В 2017 году появился новый метод, направленный на решение проблем выше. Он был описан в статье [26] (здесь и далее будем обозначать его как “Teranishi-17”). Данный подход не строит синтаксических деревьев, использует только токены предложения и их частеречные метки (“POS-теги”). Модель состоит из 4 основных частей.
(1) Построение векторных представлений по токенам и их “POS-тегам”.
(2) Двунаправленная рекуррентная сеть, строящая по входной последовательности векторные представления на уровне предложения.
(3) Подсчёт векторных представлений возможных сочинительных структур и векторов признаков 2 соединяемых данной структурой частей (вектора признаков основаны на свойствах сочинительных структур, сформулированных выше 1.1.1).
(4) Подсчёт очков по всем возможным парам соединяемых частей с помощью Многослойного перцептрона. Выбор пары с наибольшим количеством очков.
В 2019 году теми же авторами была опубликована статья [27] (здесь и далее “ Teranishi- 19”), в которой описанные выше идеи обобщались и улучшались. Во-первых, вместо одной модели, генерирующей пары соединяемых сочинительными структурами частей появляется 2: внутренняя и внешняя. Внутренняя модель генерирует индексы начала и конца ближайших слева и справа соединяемых частей, а внешняя — индексы начала и конца первой и последней соединяемых частей структуры. Таким образом данный подход способен предсказывать не только структуры, соединяющие 2 части, но и больше. Также внутренняя и внешняя модели подсчитывают очки для каждой из пар-кандидатов. Во-вторых, поверх описанных моделей запускается алгоритм Кока-Янгера-Касами [24] для построения дерева разбора в рамках особой грамматики, задающей правила сочинительных структур. Это сделано для того, чтобы найти «наилучший» вариант сочинительной связи, исходя из структуры предложения.
В последнее время наиболее перспективные подходы к CA состоят в использовании моделей, решающих задачи, сходные с извлечением информации (Information extraction, IE). Так, одна из разновидностей задачи, Open Information Extraction, заключается в извлечении троек вида «субъект, предикат, объект». Например, в предложении “John managed to open the door” такой тройкой является (John, managed to open, the door). Модель OpenIE для входного предложения должна выдавать набор «масок», где каждый токен будет помечен одним из 4 классов: «субъект», «объект», «отношение» (предикат) или «фон» (т.е. ни один из предыдущих классов). Аналогично можно сформулировать и задачу CA: для входного предложения модель должна научиться находить набор масок, где каждый токен помечен одним из 6 классов: CP_START, CP, CC, SEP, OTHERS или NONE (CP_START — токен, с которого начинается структура; CP — элементы, соединяемые союзом, CC — союз; SEP — разделители разных частей структуры, например, запятые, OTHERS — всё, что не относится к категориям выше, но присутствует в структуре; NONE — фоновые слова, не относящиеся к структуре).
Так, пример, приведённый выше, будет размечен как на Рис. 3:
Рис. 3. Пример предложения с сочинительной связью и соответствующей разметкой.
1.2. Современные нейросетевые подходы к обработке текста как последовательности. В этом разделе будет приведён обзор нейросетевых методов, связанных с предлагаемым исследованием.
1.2.1. Архитектура Transformer. Для того, чтобы перейти к описанию последующих моделей, решающих задачу CA, рассмотрим подробнее важную часть их архитектуры — модель BERT [5], основанную на элементах архитектуры Transformer [29].
Изначально Transformer — нейросетевая архитектура «кодировщик-декодировщик» (encoder-decoder, см. Рис. 4), использующая механизм self-attention («само-внимание»), помогающий кодировщику посмотреть на другие токены во входном предложении во время кодирования текущего токена. Причём архитектура данной модели устроена так, что все вычисления для отдельных токенов происходят параллельно, что делает обучение Transformer и предсказания с их помощью очень производительными.
Рис. 4. Архитектура Transformer.
До публикации статьи [29], в которой впервые была представлена архитектура Transformer, достигающими лучшего качества в области обработки естественного языка моделями в задачах, рассматривающих текст как последовательность, как правило, были рекуррентные нейронные сети с механизмом внимания [2]. Однако у этих моделей был существенный недостаток: вычисления в них авторегрессивны, то есть токены обрабатываются последовательно, и для того, чтобы вычислить вектор состояния текущего токена, нужно проделать эту процедуру для всех предыдущих токенов. Архитектура из последовательных блоков рекуррентной сети приводит к нескольким проблемам: во-первых, к затуханию градиентов при обработке длинных последовательностей, а во-вторых, к невозможности сделать вычисления параллельными, поэтому обучение данной модели получается достаточно долгим.
Трансформеры дали сразу ряд преимуществ: вычислительная производительность (качество работы превзошло качество других моделей, то же верно для скорости работы), сокращение «максимальных путей» между словами (в трансформерах, в отличие от рекуррентных моделей, для формирования векторных представлений (эмбеддингов) необязательно учитывать абсолютно все токены последовательности, веса внимания позволяют убрать слишком далёкие слова, не влияющие на текущий токен [29]; в рекуррентных сетях каждый предыдущий токен влияет на вектор состояния следующего), возможность построения контексто-зависимых векторных представлений, а также потенциальная интерпретируемость модели с помощью карт внимания.
Архитектура Transformer стала основой очень большого количества новых моделей. Например, появились модели, строящие позволившие добиться улучшения качества в большом числе задач контексто-зависимые векторные представления слов, основанные на кодировщике «трансформера»: Bidirectional Encoder Representations from Transformers (BERT) [5], Enhanced Representation through Knowledge Integration (ERNIE) [30], Lite BERT (ALBERT) [16], Robustly Optimized BERT (RoBERTa) [17] и т.п.
Также на основе декодировщика Transformer были предложены порождающие языковые модели — например, семейство моделей Generative Pre-trained Transformer (GPT) [21], которые, в числе прочего, авторегрессионным способом могут генерировать новый текст.
1.2.2. Метод BERT. Как было сказано выше, метод BERT используется для построения хороших контексто-зависимых векторных представлений слов и основан на кодировщике Transformer.
Более ранние «популярные» архитектуры, решающие данную задачу, учились предсказывать следующий токен, опираясь только на предыдущие токены. Однако интуитивно контекст должен определяться не только предыдущими токенами, но и последующими. Для решения этой проблемы были придуманы двунаправленные модели, которые учитывают контекст и слева, и справа: например, модель Embeddings from Language Models, ELMo [20] обучает параллельно две вспомогательные модели, одна из которых предсказывает следующее слово по предыдущим, а вторая — текущее слово по последующим. Итоговое векторное представление представляет собой конкатенацию двух векторов левого и правого контекстов соответственно.
BERT [5] также можно отнести к «двунаправленным» моделям: она учитывает два направления контекста, но делает это по-другому.
На вход подаются токенизированные пары предложений с некоторыми скрытыми (маскированными) токенами (см. Рис. 5). Одна из двух задач, на которых одновременно обучается модель, — это задача генерации пропущенного токена (Cloze task). Модель обучается предсказывать намеренно «пропущенное» в тексте слово. Вторая задача, на которой обучается данная модель, — это задача бинарной классификации. Она состоит в определении того, является ли второе предложение на входе продолжением первого. Решая эту задачу, модель учится различать наличие связи между предложениями в тексте1.
1.2.3. OpenIE6. Достигающая в настоящий момент лучшего качества модель IGL-CA из работы, посвящённой OpenIE6 [14], решает задачу CA, используя подход, описанный выше. Авторы подготовили новую модель для решения задачи OpenIE, а затем изменили количество классов с 4 («объект», «субъект», «предикат», «пропуск») до 6 (CP_START, CP, CC, SEP, OTHERS, NONE; см. выше) и применили точно такой же подход к задаче CA.
Основная идея заключается в итеративном извлечении троек, Iterative Grid Labeling («разметка решётки»). Эта идея основана на архитектуре Iterative Memory-Based Joint Open Information Extraction (IMoJIE) [8], которая на момент 2020 года была лучшей по качеству моделью для решения задачи OpenlE. В IMoJIE тройки (триплеты) извлекаются последовательно, маска за маской, причём полученные моделью эмбеддинги на предыдущей итерации передаются на вход следующей.
Рис. 5. Обучение модели BERT.
Это сделано для того, чтобы не повторять извлечения с предыдущих шагов. Для извлечения векторных представлений исходных токенов входного предложения используется модель BERT [5]. Существенным недостатком IMoJIE является низкая скоростью работы. Поэтому для нахождения баланса между скоростью работы и качеством предсказаний была разработана модель OpenIE6. В ней триплеты извлекаются также итеративно, а для ускорения работы первоначальные эмбеддинги слов последовательности рассчитываются с помощью BERT только один раз (в IMoJIE они считаются на каждом шаге извлечения маски).
Также для улучшения качества модели OpenIE добавляются регуляризаторы, учитывающие различные лингвистические ограничения и включаемые как слагаемые в функцию потерь (невязку).
Например, одно из лингвистических ограничений в OpenIE6 — добавка POSC — отвечает за то, чтобы каждое слово, относящееся к части речи из заданного авторами списка (существительное, глагол, прилагательное и наречие) было хотя бы в одном из извлечённых триплетов для данного входного предложения.
Формула регуляризатора POSC следующая:
Jposc
t=1
N
Prt = 1 - max max pk,t,n,
n=1 ke{S,R,O}
где pk,t,n — предсказанная моделью вероятность принадлежности токена t в маске n к классу к (в данном примере S — “subject”, R — “relation”, O — “object”); T — число токенов в маске, N — число извлекаемых масок; x(mp — индикатор токенов с интересующими частями речи, он равен 1, если токен t относится к части речи из списка, в ином случае равен 0. Jposc входит с определённымв весом как слагаемое в итоговую функцию потерь.
Рис. 6. Архитектура модели OpenIE6 [14].
1.2.4. DetlE как базовая модель. В феврале 2022 года была опубликована статья [28], представляющая новую модель для решения задачи OpenIE, вдохновлённую идеей одностадийных детекторов (one-stage) из компьютерного зрения.
В области компьютерного зрения детекторами называются модели, которые учатся находить определённые объекты на изображениях и выделять их, например, ограничивающими рамками (bounding boxes, bboxes; см. Рис. 7). Одностадийные детекторы за один проход одновременно формируют признаки, предсказывают класс объекта внутри текущего bbox и «координаты» этого bbox на изображении.
Рис. 7. Пример предсказания одностадийного детектора YOLO [23].
Архитектура модели DetIE состоит из 3 основных частей: токенизация входного текста; извлечение эмбеддингов при помощи BERT, последние слои которого «размораживаются» (то есть часть весов нейронной сети начинает обновляться в ходе обучения в рамках обратного распространения ошибок лишь начиная с некоторого шага/итерации) для того, чтобы иметь возможность «подкорректировать» (дообучить; fine-tuning) модель под задачу OpenIE; затем идёт полносвязный слой. На выходе моделью выдаётся фиксированное количество масок найденных структур N. Маски представляют собой тензор размера (T, N,C), в каждом элементе (t, n, с) которого записана вероятность p того, что токен t в маске n относится к классу с. Финальная маска структуры получается при помощи взятия argmax по всем классам.
Рисунок 8.
Функция потерь в DetIE аналогична той, что используется one-stage-детекторами: вводится оценка IoU (Intersection over Union — отношение пересечения ограничивающих прямоугольников к площади их объединения) между триплетами, извлечёнными моделью, и реальными метками. IoU рассчитывается следующим образом: пусть n — это номер извлечённой маски, m — номер истинной бинарной маски, тогда значение оценки IoU между ними равно:
IU _ Znm
IoUnm -T-T
Unm
где ptnc — предсказанная моделью вероятность того, что токен t в маске n относится к классу c, ltmc — 0 или 1 в зависимости от того, относится ли токен t к классу c в истинной маске т.
На данном этапе есть матрица размера N х M со значениями IoU между истинными метками и предсказанными моделью вероятностями. Для того, чтобы определить, каким именно истинным маскам соответствует набор извлечённых вероятностей, используется Венгерский алгоритм [15], предназначенный для решения линейной задачи о назначениях (Linear Assignment problem, LAP). Эта задача заключается в максимизации или минимизации Tr [P • C] для некоторой фиксированной неотрицательной квадратной матрицы стоимостей C по множеству её матриц перестановок P. Данную задачу можно обобщить и на случай неквадратной матрицы с помощью добавления фиктивных столбцов или строчек, состоящих из максимально возможных значений в случае максимизации и из нулей в случае минимизации. Для неотрицательной неквадратной матрицы IoU из DetIE с помощью решения LAP находится набор сопоставлений между истинными масками и извлечёнными, максимизирующий сумму IoU по соответствиям из набора. Так как M < N, то в матрицу IoU предварительно добавляются фиктивные столбцы, а в итоговом решении (N — M) предсказаний модели не будут сопоставлены ни одной из истинных масок. В коде DetIE используется реализация lapsolver [4].
В качестве функции потерь используется кросс-энтропия, вычисленная по полученному набору соответствий.
Преимуществами модели DetIE являются быстрый inference (предсказание), а также данный подход на нескольких наборах данных для оценки качества OpenIE продемонстрировал качество более высокое, чем OpenIE6.
1.3. Структура работы. Последующее содержание состоит из 3 основных глав: «Постановка задачи», «Методология» и «Эксперименты и результаты».
В первой из них сформулирована цель квалификационной работы. В главе «Методология» 3 описаны используемые данные, оценка качества и более подробно рассказано об основных этапах работы модели DetIE, которую было решено использовать в качестве базового подхода к решению задачи выделения сочинительных связей. В главе «Эксперименты и результаты» 4 проведён анализ ошибок базовой модели, описаны все апробированные нововведения в процедурах предобработки и пост-обработки данных и в архитектуре модели (они предложены на основе анализа ошибок, поэтому описаны в данной главе, а не в «Методологии»), а также степень их влияния на качество решения. В разделе «Заключение» 5 подведены итоги и предложены варианты дальнейшей работы над рассмотренной задачей.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

В данной работе были исследованы различные подходы к улучшению нейросетевой архитектуры модели для решения задачи выделения сочинительных связей в предложениях на английском языке.
ТАБЛИЦА 4. Сравнение качества и производительности с актуальными современными подходами. Уступая IGL-CA (bert-base-cased) 0.5% в Р1-мере, предлагаемая модель позволяет решать целевую задачу, обрабатывая в 3.45 раз больше предложений в секунду в условиях аналогичной вычислительной инфраструктуры.
Модель
Точность
Полнота
Fl-мера
Скорость
«на инференсе» фредл^ек.)
DetIE-CA + Beam Search (bert-base-multilingual-cased)
0.856
0.833
0.844
558
IGL-CA (bert-base-cased)
0.863
0.836
0.849
162
Teranishi-19 (BiLSTM)
0.753
0.756
0.755
-
Teranishi-19 (bert-base-cased)
0.831
0.832
0.831
-
Конец таблицы 4.
Существенного прироста в качестве удалось достичь с помощью разработанного алгоритма агрегации наподобие Beam Search, значительное же число апробированных подходов показали себя бесперспективными на основе экспериментов на доступных нам вычислительных ресурсах.
Также было проведено сравнение качества и производительности полученной модели с актуальными современными подходами к задаче, которое показало, что полученный в работе результат сопоставим по качеству с лучшими современными решениями и значительно превосходит их по скорости работы на инференсе, что позволяет говорить о возможности более эффективного использования нейросетевых подходов к извлечению сочинительных связей.
В дальнейшем, при наличии доступа к инфраструктуре, позволяющей эффективно проводить большее число экспериментов с моделями на основе значительно большего числа параметров, имеет смысл апробировать предложенный подход, взяв за базовую языковую модель из семейства bert-large. Пример IGL-CA [14] позволяет предполагать, что это может существенно улучшить качество предсказаний.

Литература

[1] Spacy. https://github.com/explosion/spaCy, 2015.
[2] Dzmitry Bahdanau, Kyung Hyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. January 2015. 3rd International Conference on Learning Representations, ICLR 2015 ; Conference date: 07-05-2015 Through 09-05-2015.
[3] Noam Chomsky. On certain formal properties of grammars. Information and control, 2(2):137-167, 1959.
[4] Jack Valmadre Christoph Heindl. py-lapsolver. https://github.com/cheind/py-lapsolver, 2018.
[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina N. Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. 2018.
[6] Jessica Ficler and Yoav Goldberg. Coordination annotation extension in the penn tree bank. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 834-842, 2016.
[7] Jessica Ficler and Yoav Goldberg. A neural network for coordination boundary prediction. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 23-32, 2016.
[8] Shelley Gupta, Archana Singh, and Vivek Kumar. Emoji, text, and sentiment polarity detection using natural language processing. Information, 14(4), 2023.
[9] Ruidan He, Wee Sun Lee, Hwee Tou Ng, and Daniel Dahlmeier. An unsupervised neural attention model for aspect extraction. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 388-397, Vancouver, Canada, July 2017. Association for Computational Linguistics.
[10] Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735-1780, 1997.
[11] Zihang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, and Shuicheng Yan. Convbert: Improving BERT with span-based dynamic convolution. CoRR, abs/2008.02496, 2020.
[12] Yoon Kim. Convolutional neural networks for sentence classification. CoRR, abs/1408.5882, 2014.
[13] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1f12.6980, 2014.
[14] Keshav Kolluru, Vaibhav Adlakha, Samarth Aggarwal, Soumen Chakrabarti, et al. Openie6: Iterative grid labeling and coordination analysis for open information extraction. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3748-3761, 2020.
[15] Harold W. Kuhn. The hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2:83-97, 1955.
...