Аннотация 2
Введение 4
1. Лексические конструкции и сочетаемость единиц 7
1.1. Грамматика конструкций 7
1.2. Фразеологические единицы по В.В. Виноградову 9
1.3. Синтагматическое взаимодействие значений по В.Г. Гаку 11
1.4. Законы согласования значений по Ю.Д. Апресяну 13
1.5. Типы устойчивых конструкций по Л.Н. Иорданской и И.А. Мельчуку 15
1.6. Понятие лексической функции 18
Вывод к главе 1 19
2. Автоматическое выделение конструкций 21
2.1. Счетный, или статистический, подход 22
2.2. Гибридный, или лингвостатистический, подход 24
2.3. Предсказывающие модели 25
2.3.1. Модели семейства Word2Vec 26
2.3.2. Модели типа Трансформер 28
2.4. Способы оценки результатов обучения векторных моделей 31
Вывод к главе 2 33
3. Эксперименты по обучению моделей и анализ результатов 34
3.1. Лингвистические данные для разрешения задачи псевдодизамбигуации 34
3.2. Предобработка данных для обучения моделей 36
3.3. Отбор коллокатов для псевдодизамбигуации 37
3.4. Отбор параметров для обучения моделей 40
3.5. Оценка обученных моделей 41
3.5.1. Анализ результатов разрешения псевдодизамбигуации 42
3.6. Подготовка данных для предсказания конструкций и значений лексических
функций 51
3.7. Лингвистические особенности предсказанных конструкций 52
Выводы к главе 3 57
Заключение 58
Список литературы 61
Приложение 1. Список ассоциатов для процедуры псевдодизамбигуации 67
Приложение 2. Параметры обучения при наиболее высоких показателях точности 73
Приложение 3. Результаты предсказания именных словосочетаний 82
С появлением Word2Vec в 2013 году дистрибутивные языковые модели стали все чаще применяться исследователями и разработчиками для решения лингвистических задач. Дистрибутивно-семантические модели показали свою эффективность в тех случаях, когда требуется выявить семантические отношениями между лексическими единицами, а также обработать большие массивы данных — Word2Vec оказался быстрее, чем счетные модели. Помимо этого, появились предобученные дистрибутивные модели, которые позволили напрямую делать запросы для извлечения нужных данных без предварительной подготовки и обработки больших корпусов самими исследователями, что позволило сэкономить время.
Один из аспектов применения подобных моделей — предсказание парадигматических отношений, на котором акцентировали большое внимание русскоязычные исследователи. Синтагматика традиционно представляла меньший интерес, но в последнее время список задач, в которых требуются данные о лексических конструкциях, стал активно пополняться. Среди них можно выделить перифразирование, суммаризацию, анализ тональностей, упрощение, генерацию текстов (в частотности заголовков к ним) и создание диалоговых систем. Корректность выделения различных типов лексических конструкций может повлиять на результат выполнения задачи, и в связи с этим возникает потребность в изучении потенциала предсказывающих моделей применительно к этой задачи. В данной работе мы акцентируем внимание на именных словосочетаниях, параметрах обучения, которые позволяют выделить их наиболее точно, а также рассматриваем полученные сочетания на предмет устойчивости и композиционно сти.
Таким образом, актуальность работы обусловлена широким спектром задач, при решении которых нужно рассматривать лексические конструкции, и увеличением роли дистрибутивного подхода в них. Потенциал методов, главенствоваших в области ранее — подходов на основе правил и счетных алгоритмов — изучен достаточно хорошо, их недостатки описаны и существует ряд гибридных моделей, которые их компенсируют. Тем не менее, для предсказывающих моделей, пришедших в область около десяти лет назад и набирающих все большую популярность, подробных исследований не было. Определение их возможностей позволило бы улучшить качество выполнения задач, которые стоят перед лингвистами-исследователями и разработчиками.
Целью нашего исследования является определение оптимальных параметров обучения предсказывающих моделей и оценка их потенциала в выявлении лексических конструкций в текстах на русском языке...
В результате исследования нами была достигнута поставленная цель: выявлены закономерности, влияющие на параметры обучения предсказывающих языковых моделей, а также оценено то, насколько они могут быть полезны в задачах, требующих выявления лексических конструкций в русскоязычных текстах.
В рамках теоретической части данного исследования нами были проанализированы различные классификации конструкций и их особенности. Большинством исследователей подчеркивается то, что синтаксис и семантика взаимосвязаны, и нельзя обойтись без обращения к какой-либо из этих двух областей при анализе сочетаний и явления сочетаемости как такового. Так, Грамматика конструкций стала основной теорией, которая отталкивается от понятия конструкции как базового компонента языка; при этом еще ее создатель Ч. Филлмор отмечает, что конструкции обладают и синтаксическим, и семантическим элементами значения [Fillmore 1985; Fillmore 1988]. В.В. Виноградовым описываются устойчивые сочетания с точки зрения композиционности и степени идиоматичности [Виноградов 1977]. Помимо исследования непосредственно семантики конструкций, исследователь показывает, для каких сочетаний их синтаксическая форма важна, и не может быть изменена, а также рассматривает ряд факторов, которые влияют на фиксацию выражений в речи, например, эмоционально-экспрессивный фактор. В.Г. Гак рассматривает законы сочетаемости и проводит зависимость между сочетаемостью и наличием или отсутствием определенных компонентов семантического значения в обоих элементах конструкции [Гак 1998]. Его идеи развивает Ю.Д. Апресян [Апресян 1995]. Л.Н. Иорданская и И.А. Мельчук в свою очередь рассматривают лексико-синтаксические конструкции с точки зрения регулярности их образования и произвольности компонентов в них, а также описывают лексические функции [Мельчук, Иорданская 2007]...
1. Апресян Ю.Д. Избранные труды. В 2 т. Том I. Лексическая семантика: синонимические средства языка // Ю. Д. Апресян. - М.: Языки славянских культур,
1995. -480 с.
2. Балли Ш. Общая лингвистика и вопросы французского языка // Ш. Балли. - М.: Издательство иностранной литературы, 1955. - 416 с.
3. Букия Г.Т., Протопопова Е.В., Митрофанова О.А. Корпусная оценка степени
близости единиц в лексических конструкциях. // Структурная и прикладная лингвистика. 2015. № 11. - С. 252-270. - [Электронный реусурс] URL:
https://elibrary.ru/item.asp?id=25849112&ysclid=l9v2yxqhkw846091732 (дата
обращения: 31.05.2023).
4. Виноградов В.В. Избранные труды. Лексикология и лексикография. // М.: Наука, 1977.-322 с.
5. Гак В.Г. К проблеме семантической синтагматики // Языковые преобразования. - М.: Языки русской культуры, 1998. - С. 272-297.
6. Жолковский А.К. О принципиальном использовании смысла при машинном переводе / А.К. Жолковский, Н.Н. Леонтьева, Ю.С. Мартемьянов // Мартемьянов Ю.С. Логика ситуаций. Строение текста. Терминологичность слов. - М.: Языки славянской культуры, 2004. - С. 84-99.
7. Иорданская Л.Н., Мельчук И.А. Смысл и сочетаемость в словаре. // Л.Н. Иорданская, И.А. Мельчук - М.: Языки славянских культур, 2007 - 665 с.
8. Лингвистический энциклопедический словарь. // Институт языкознания АН СССР, [под редакцией В.Н. Ярцевой и др.] - М.: Советская энциклопедия, 1990.
9. Паничева П.В. Анализ параметров семантической связности с помощью дистрибутивных семантических моделей: на материале русского языка: диссертация кандидата филологических наук: // Паничева Полина Вадимовна; [Место защиты: Рос. гос. пед. ун-т им. А.И. Герцена]. - Санкт-Петербург, 2019.
10. Baroni M., Dinu G., Kruszewski G. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). - Baltimore, Maryland: Association for Computational Linguistics, 2014. - С. 238-247. - [Электронный ресурс] URL: https://aclanthology.org/P14-1023/ (дата обращения: 28.05.2023).
11. Belyi A.V , Mitrofanova O.A., Dubinina N.A. Distributive Semantic Models in Language Learning: Automatic Generation of Lexical-Grammatical Tests for Russian as
a Foreign Language. // Corpus Linguistics, 2023 Proceedings. - Санкт-Петербург, 2023.
- In press.
12. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information. // Transactions of the Association for Computational Linguistics, Volume 5.
— Cambridge, MA: MIT Press, 2017. - С. 135-146. - [Электронный ресурс] URL: https://aclanthology.org/Q17-1010/ (дата обращения: 28.05.2023).
13. Buchholz S., Marsi E. CoNLL-X shared task on Multilingual Dependency Parsing. // Proceedings of the Tenth Conference on Computational Natural Language Learning (CoNLL-X). - New York City: Association for Computational Linguistics, 2006. - С. 149-164. - [Электронный ресурс] URL: https://aclanthology.org/W06-2920/ (дата обращения: 28.05.2023).
14. Bukia G., Protopopova E., Panicheva P., Mitrofanova O. Estimating Syntagmatic Association Strength Using Distributional Word Representations. // Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference «Dialogue» (2016). - Issue 15 - Москва: РГГУ, 2016 - С. 112-122.
15. Campos R., Mangaravite V., Pasquali A., Jatowt A., Jorge A., Nunes C., Jatowt A., YAKE! Keyword Extraction from Single Documents using Multiple Local Features. // Information Sciences Journal, 2020. - С. 257-289...53