Тема: Параметры лексических конструкций в предсказывающих языковых моделях для русского языка
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Лексические конструкции и сочетаемость единиц 7
1.1. Грамматика конструкций 7
1.2. Фразеологические единицы по В.В. Виноградову 9
1.3. Синтагматическое взаимодействие значений по В.Г. Гаку 11
1.4. Законы согласования значений по Ю.Д. Апресяну 13
1.5. Типы устойчивых конструкций по Л.Н. Иорданской и И.А. Мельчуку 15
1.6. Понятие лексической функции 18
Вывод к главе 1 19
2. Автоматическое выделение конструкций 21
2.1. Счетный, или статистический, подход 22
2.2. Гибридный, или лингвостатистический, подход 24
2.3. Предсказывающие модели 25
2.3.1. Модели семейства Word2Vec 26
2.3.2. Модели типа Трансформер 28
2.4. Способы оценки результатов обучения векторных моделей 31
Вывод к главе 2 33
3. Эксперименты по обучению моделей и анализ результатов 34
3.1. Лингвистические данные для разрешения задачи псевдодизамбигуации 34
3.2. Предобработка данных для обучения моделей 36
3.3. Отбор коллокатов для псевдодизамбигуации 37
3.4. Отбор параметров для обучения моделей 40
3.5. Оценка обученных моделей 41
3.5.1. Анализ результатов разрешения псевдодизамбигуации 42
3.6. Подготовка данных для предсказания конструкций и значений лексических
функций 51
3.7. Лингвистические особенности предсказанных конструкций 52
Выводы к главе 3 57
Заключение 58
Список литературы 61
Приложение 1. Список ассоциатов для процедуры псевдодизамбигуации 67
Приложение 2. Параметры обучения при наиболее высоких показателях точности 73
Приложение 3. Результаты предсказания именных словосочетаний 82
📖 Введение
Один из аспектов применения подобных моделей — предсказание парадигматических отношений, на котором акцентировали большое внимание русскоязычные исследователи. Синтагматика традиционно представляла меньший интерес, но в последнее время список задач, в которых требуются данные о лексических конструкциях, стал активно пополняться. Среди них можно выделить перифразирование, суммаризацию, анализ тональностей, упрощение, генерацию текстов (в частотности заголовков к ним) и создание диалоговых систем. Корректность выделения различных типов лексических конструкций может повлиять на результат выполнения задачи, и в связи с этим возникает потребность в изучении потенциала предсказывающих моделей применительно к этой задачи. В данной работе мы акцентируем внимание на именных словосочетаниях, параметрах обучения, которые позволяют выделить их наиболее точно, а также рассматриваем полученные сочетания на предмет устойчивости и композиционно сти.
Таким образом, актуальность работы обусловлена широким спектром задач, при решении которых нужно рассматривать лексические конструкции, и увеличением роли дистрибутивного подхода в них. Потенциал методов, главенствоваших в области ранее — подходов на основе правил и счетных алгоритмов — изучен достаточно хорошо, их недостатки описаны и существует ряд гибридных моделей, которые их компенсируют. Тем не менее, для предсказывающих моделей, пришедших в область около десяти лет назад и набирающих все большую популярность, подробных исследований не было. Определение их возможностей позволило бы улучшить качество выполнения задач, которые стоят перед лингвистами-исследователями и разработчиками.
Целью нашего исследования является определение оптимальных параметров обучения предсказывающих моделей и оценка их потенциала в выявлении лексических конструкций в текстах на русском языке. Для достижения данной цели требуется выполнение следующих задач:
1. Сформировать теоретический фундамент исследования, включающий в себя краткое изложение основных положений лингвистики конструкций и существующих классификаций;
2. Проанализировать существующие методы автоматического выделения конструкций и рассмотреть уже разработанные инструменты;
3. Выбрать языковые модели для исследования, а также определить параметры, с которыми будут обучены модели;
4. Провести эксперименты по обучению и применить полученные модели к задачам предсказания именных словосочетаний и значений лексических функций, а также описать свойства предсказанных конструкций;
Объектом в нашем исследовании выступают именные лексические конструкции, предсказанные дистрибутивными моделями Word2Vec и FastText. Предметом исследования являются параметры обучения моделей и способы выделения конструкций. Материалом для исследования служат сегменты русскоязычных корпусов «Тайга» и Lib.ru.sec. Нами были отобраны тексты художественного, поэтического, научно-популярного и новостного сегментов.
Теоретическая значимость данной работы разностороннем исследовании факторов, влияющих на качество обучения моделей и разработке алгоритма, который позволяет выделить оптимальные параметры обучения для модели. Практическая значимость работы заключается в возможности применения полученных результатов и сведений для решения задач обработки естественного языка, что было продемонстрировано нами на примере задач предсказания именных конструкций и значений лексических функций при заданном аргументе.
Наше исследование состоит из введения, трех глав, заключения, списка литературы и приложений. В первой главе мы рассматриваем свойства и классификации лексических конструкций. Во второй главе мы изучаем существующие методы извлечения лексических конструкций и работы, посвященные этой задаче. В третьей главе мы описываем эксперимент по поиску лучших условий для обучения моделей, рассматриваем влияние параметров на результаты, а также применяем их в задачах предсказания именных словосочетаний и поиска значения лексических функций.
✅ Заключение
В рамках теоретической части данного исследования нами были проанализированы различные классификации конструкций и их особенности. Большинством исследователей подчеркивается то, что синтаксис и семантика взаимосвязаны, и нельзя обойтись без обращения к какой-либо из этих двух областей при анализе сочетаний и явления сочетаемости как такового. Так, Грамматика конструкций стала основной теорией, которая отталкивается от понятия конструкции как базового компонента языка; при этом еще ее создатель Ч. Филлмор отмечает, что конструкции обладают и синтаксическим, и семантическим элементами значения [Fillmore 1985; Fillmore 1988]. В.В. Виноградовым описываются устойчивые сочетания с точки зрения композиционности и степени идиоматичности [Виноградов 1977]. Помимо исследования непосредственно семантики конструкций, исследователь показывает, для каких сочетаний их синтаксическая форма важна, и не может быть изменена, а также рассматривает ряд факторов, которые влияют на фиксацию выражений в речи, например, эмоционально-экспрессивный фактор. В.Г. Гак рассматривает законы сочетаемости и проводит зависимость между сочетаемостью и наличием или отсутствием определенных компонентов семантического значения в обоих элементах конструкции [Гак 1998]. Его идеи развивает Ю.Д. Апресян [Апресян 1995]. Л.Н. Иорданская и И.А. Мельчук в свою очередь рассматривают лексико-синтаксические конструкции с точки зрения регулярности их образования и произвольности компонентов в них, а также описывают лексические функции [Мельчук, Иорданская 2007].
Так, например, функция лексико-семантического поиска реализована во многих корпусах (НКРЯ и т.д.). К счетным алгоритмам можно отнести определение конструкций при помощи мер ассоциации (PMI, log-likelihood, критерий Хи-квадрат и т.д.), а также языковые модели, использующие данные о совместной встречаемости слов: например, LSA [Landauer и др. 1998] и HAL [Lund, Burgess 1996]. Данные о семантике используют также предсказывающие языковые модели: Word2Vec [Mikolov и др. 2013a; Mikolov и др. 2013b], FastText [Joulin и др. 2018; Bojanowski и др. 2017], BERT [Devlin и др. 2018] и их разновидности. Различие между дистрибутивными счетных моделей и дистрибутивными предсказывающими моделей связано с интерпретируемостью векторов с точки зрения соответствия их координат контекстным элементам,, — у предсказывающих моделей с высокой обобщающей способностью эта способность выражена слабо.. Наконец, можно выделить лингвостатистические алгоритмы, такие как RAKE [Rose и др. 2009] и YAKE [Campos и др. 2020].
В экспериментальной части исследования мы выбрали архитектуры и данные для обучения языковых моделей и рассмотрели ряд параметров, таких как мера измерения сходства векторов, контекстное окно, ограничение на размер словаря, порог частоты слова, сортировка корпуса, а также способ подсчета целевого вектора. Были обучены модели Word2Vec и FastText, а материалом для исследования послужили корпусы «Тайга» [Shavrina, Shapovalova 2017] и lib.ru.sec [Panchenko и др. 2017]. Для проверки качества обучения применялась процедура псевдодизамбигуации, и был выявлен ряд следующих наблюдений, например:
• FastText лучше предсказывает парадигматические отношения в корпусе и намного хуже — синтагматические;
• среди метрик, оказывающих наибольшее влияние на предсказания, можно выделить меру измерения сходства векторов, их размерность, минимальную частоту слов для их учета моделью, а также способ сортировки словаря; помимо этого при обучении относительно больших корпусов (от 5 млн токенов) влияние может оказывать параметр, отвечающий за ограничение количество единиц в словаре модели;
• для вычисления степени сходства между векторами предпочтительнее использовать косинусную меру или вычислять коэффициент их корреляции;
• незначительные погрешности при разметке корпуса могут сильно снизить качество обучения, поэтому важно проверять разметку корпуса.
Наконец, мы применили результаты работы для предсказания именных словосочетаний и значений лексических функций. Для оценки качества предсказаний именных словосочетаний мы провели два эксперимента: оценка согласованности предсказаний моделей и сравнение моделей с эталонными данными. Результаты экспериментов отражают стилистические различия между корпусами, на которых были обучены рассматриваемые модели.
Эмпирические данные, полученные в рамках представленного проекта, будут применены в совершенствовании ДСМ-калькулятора и в разработке дистрибутивно-семантических моделей для лингводидактических целей.



