1. Введение 2
1.1. Задача выделения сочинительных связей 2
1.2. Современные нейросетевые подходы к обработке текста как последовательности 4
1.3. Структура работы 10
2. Постановка задачи 11
3. Методология 11
3.1. Данные 11
3.2. Оценка качества 11
3.3. Модель 12
4. Эксперименты и результаты 13
4.1. Изначальное качество работы и процедура предобработки данных 13
4.2. Анализ ошибок 14
4.3. Предобработка данных — чанкинг 17
4.4. Архитектурные изменения и регуляризация 18
4.5. Изменение процедуры пост-обработки 21
4.6. Схема обучения и подбора гиперпараметров 23
4.7. Результаты экспериментов 25
5. Заключение 27
Список литературы 28
1.1. Задача выделения сочинительных связей. Задача выделения сочинительных связей (Coordination Analysis, CA) состоит в том, чтобы научиться находить внутри предложений синтаксические структуры, соединяющие грамматически равноправные части предложений (такие структуры и называются в лингвистике “coordinations”) [31]. Например, в предложении “Susan works [slowly] and [carefully]” такой структурой является “[slowly] and [carefully]”. В ней союз “and” связывают два независимых обстоятельства: “slowly” и “carefully” (см. Рис. 1).
Решение этой задачи позволяет устанавливать потенциально ценные связи и отношения между определёнными частями предложения. В том числе поэтому выделение сочинительных связей — важный инструмент предобработки текстов. Так, в работе [14] предложение с сочинительными связями преобразовывается в несколько «простых», и метод решения целевой задачи (OpenIE) применяется уже к ним, что даёт значительный прирост в качестве. В работах [14, 28] показано, что этот этап подготовки значительно влияет на итог работы соответствующих методов.
1.1.1. Решение задачи CA методами машинного обучения. Одна из первых статей, в которой задача выделения сочинительных связей решалась с помощью нейронных сетей, была опубликована Ficler и Goldberg в 2016 году [7]. Идея основана на двух лингвистических свойствах сочинительных структур: (1) отдельные части таких структур «похожи», выполняют сходную фунцию в предложении; (2) при замене всей структуры на любую из её составных частей предложения остаются осмысленными.
Для входного предложения строится дерево разбора (см. пример на Рис. 2).
Подход к решению задачи, предложенный в статье, состоит в том, чтобы для каждого сочинительного союза (к ним авторы относят слова из списка: “and”, “nor”, “or” и “but”) определить, задаёт ли он какую-либо сочинительную структуру, и, если задаёт, найти индексы начала и конца первой и второй частей данной структуры.
Алгоритм состоит из 3 шагов: сначала для каждого сочинительного союза с помощью бинарного классификатора предсказывается, задаёт ли он некоторую сочинительную структуру. Если да, то на следующем шаге извлекается ранжированный список возможных структур, где кандидатом является пара промежутков вида ((i, j), (l,m)). Затем оцениваются кандидаты, и пара, набравшая наибольшее количество очков, возвращается в качестве ответа...
В данной работе были исследованы различные подходы к улучшению нейросетевой архитектуры модели для решения задачи выделения сочинительных связей в предложениях на 27
ТАБЛИЦА 4. Сравнение качества и производительности с актуальными современными подходами. Уступая IGL-CA (bert-base-cased) 0.5% в Р1-мере, предлагаемая модель позволяет решать целевую задачу, обрабатывая в 3.45 раз больше предложений в секунду в условиях аналогичной вычислительной инфраструктуры.
Существенного прироста в качестве удалось достичь с помощью разработанного алгоритма агрегации наподобие Beam Search, значительное же число апробированных подходов показали себя бесперспективными на основе экспериментов на доступных нам вычислительных ресурсах.
Также было проведено сравнение качества и производительности полученной модели с актуальными современными подходами к задаче, которое показало, что полученный в работе результат сопоставим по качеству с лучшими современными решениями и значительно превосходит их по скорости работы на инференсе, что позволяет говорить о возможности более эффективного использования нейросетевых подходов к извлечению сочинительных связей.
В дальнейшем, при наличии доступа к инфраструктуре, позволяющей эффективно проводить большее число экспериментов с моделями на основе значительно большего числа параметров, имеет смысл апробировать предложенный подход, взяв за базовую языковую модель из семейства bert-large. Пример IGL-CA [14] позволяет предполагать, что это может существенно улучшить качество предсказаний.