Введение 4
1. Лексические конструкции и сочетаемость единиц 7
1.1. Грамматика конструкций 7
1.2. Фразеологические единицы по В.В. Виноградову 9
1.3. Синтагматическое взаимодействие значений по В.Г. Гаку 11
1.4. Законы согласования значений по Ю.Д. Апресяну 13
1.5. Типы устойчивых конструкций по Л.Н. Иорданской и И.А. Мельчуку 15
1.6. Понятие лексической функции 18
Вывод к главе 1 19
2. Автоматическое выделение конструкций 21
2.1. Счетный, или статистический, подход 22
2.2. Гибридный, или лингвостатистический, подход 24
2.3. Предсказывающие модели 25
2.3.1. Модели семейства Word2Vec 26
2.3.2. Модели типа Трансформер 28
2.4. Способы оценки результатов обучения векторных моделей 31
Вывод к главе 2 33
3. Эксперименты по обучению моделей и анализ результатов 34
3.1. Лингвистические данные для разрешения задачи псевдодизамбигуации 34
3.2. Предобработка данных для обучения моделей 36
3.3. Отбор коллокатов для псевдодизамбигуации 37
3.4. Отбор параметров для обучения моделей 40
3.5. Оценка обученных моделей 41
3.5.1. Анализ результатов разрешения псевдодизамбигуации 42
3.6. Подготовка данных для предсказания конструкций и значений лексических
функций 51
3.7. Лингвистические особенности предсказанных конструкций 52
Выводы к главе 3 57
Заключение 58
Список литературы 61
Приложение 1. Список ассоциатов для процедуры псевдодизамбигуации 67
Приложение 2. Параметры обучения при наиболее высоких показателях точности 73
Приложение 3. Результаты предсказания именных словосочетаний 82
С появлением Word2Vec в 2013 году дистрибутивные языковые модели стали все чаще применяться исследователями и разработчиками для решения лингвистических задач. Дистрибутивно-семантические модели показали свою эффективность в тех случаях, когда требуется выявить семантические отношениями между лексическими единицами, а также обработать большие массивы данных — Word2Vec оказался быстрее, чем счетные модели. Помимо этого, появились предобученные дистрибутивные модели, которые позволили напрямую делать запросы для извлечения нужных данных без предварительной подготовки и обработки больших корпусов самими исследователями, что позволило сэкономить время.
Один из аспектов применения подобных моделей — предсказание парадигматических отношений, на котором акцентировали большое внимание русскоязычные исследователи. Синтагматика традиционно представляла меньший интерес, но в последнее время список задач, в которых требуются данные о лексических конструкциях, стал активно пополняться. Среди них можно выделить перифразирование, суммаризацию, анализ тональностей, упрощение, генерацию текстов (в частотности заголовков к ним) и создание диалоговых систем. Корректность выделения различных типов лексических конструкций может повлиять на результат выполнения задачи, и в связи с этим возникает потребность в изучении потенциала предсказывающих моделей применительно к этой задачи. В данной работе мы акцентируем внимание на именных словосочетаниях, параметрах обучения, которые позволяют выделить их наиболее точно, а также рассматриваем полученные сочетания на предмет устойчивости и композиционно сти.
Таким образом, актуальность работы обусловлена широким спектром задач, при решении которых нужно рассматривать лексические конструкции, и увеличением роли дистрибутивного подхода в них. Потенциал методов, главенствоваших в области ранее — подходов на основе правил и счетных алгоритмов — изучен достаточно хорошо, их недостатки описаны и существует ряд гибридных моделей, которые их компенсируют. Тем не менее, для предсказывающих моделей, пришедших в область около десяти лет назад и набирающих все большую популярность, подробных исследований не было. Определение их возможностей позволило бы улучшить качество выполнения задач, которые стоят перед лингвистами-исследователями и разработчиками.
Целью нашего исследования является определение оптимальных параметров обучения предсказывающих моделей и оценка их потенциала в выявлении лексических конструкций в текстах на русском языке. Для достижения данной цели требуется выполнение следующих задач:
1. Сформировать теоретический фундамент исследования, включающий в себя краткое изложение основных положений лингвистики конструкций и существующих классификаций;
2. Проанализировать существующие методы автоматического выделения конструкций и рассмотреть уже разработанные инструменты;
3. Выбрать языковые модели для исследования, а также определить параметры, с которыми будут обучены модели;
4. Провести эксперименты по обучению и применить полученные модели к задачам предсказания именных словосочетаний и значений лексических функций, а также описать свойства предсказанных конструкций;
Объектом в нашем исследовании выступают именные лексические конструкции, предсказанные дистрибутивными моделями Word2Vec и FastText. Предметом исследования являются параметры обучения моделей и способы выделения конструкций. Материалом для исследования служат сегменты русскоязычных корпусов «Тайга» и Lib.ru.sec. Нами были отобраны тексты художественного, поэтического, научно-популярного и новостного сегментов.
Теоретическая значимость данной работы разностороннем исследовании факторов, влияющих на качество обучения моделей и разработке алгоритма, который позволяет выделить оптимальные параметры обучения для модели. Практическая значимость работы заключается в возможности применения полученных результатов и сведений для решения задач обработки естественного языка, что было продемонстрировано нами на примере задач предсказания именных конструкций и значений лексических функций при заданном аргументе.
Наше исследование состоит из введения, трех глав, заключения, списка литературы и приложений. В первой главе мы рассматриваем свойства и классификации лексических конструкций. Во второй главе мы изучаем существующие методы извлечения лексических конструкций и работы, посвященные этой задаче. В третьей главе мы описываем эксперимент по поиску лучших условий для обучения моделей, рассматриваем влияние параметров на результаты, а также применяем их в задачах предсказания именных словосочетаний и поиска значения лексических функций.
В результате исследования нами была достигнута поставленная цель: выявлены закономерности, влияющие на параметры обучения предсказывающих языковых моделей, а также оценено то, насколько они могут быть полезны в задачах, требующих выявления лексических конструкций в русскоязычных текстах.
В рамках теоретической части данного исследования нами были проанализированы различные классификации конструкций и их особенности. Большинством исследователей подчеркивается то, что синтаксис и семантика взаимосвязаны, и нельзя обойтись без обращения к какой-либо из этих двух областей при анализе сочетаний и явления сочетаемости как такового. Так, Грамматика конструкций стала основной теорией, которая отталкивается от понятия конструкции как базового компонента языка; при этом еще ее создатель Ч. Филлмор отмечает, что конструкции обладают и синтаксическим, и семантическим элементами значения [Fillmore 1985; Fillmore 1988]. В.В. Виноградовым описываются устойчивые сочетания с точки зрения композиционности и степени идиоматичности [Виноградов 1977]. Помимо исследования непосредственно семантики конструкций, исследователь показывает, для каких сочетаний их синтаксическая форма важна, и не может быть изменена, а также рассматривает ряд факторов, которые влияют на фиксацию выражений в речи, например, эмоционально-экспрессивный фактор. В.Г. Гак рассматривает законы сочетаемости и проводит зависимость между сочетаемостью и наличием или отсутствием определенных компонентов семантического значения в обоих элементах конструкции [Гак 1998]. Его идеи развивает Ю.Д. Апресян [Апресян 1995]. Л.Н. Иорданская и И.А. Мельчук в свою очередь рассматривают лексико-синтаксические конструкции с точки зрения регулярности их образования и произвольности компонентов в них, а также описывают лексические функции [Мельчук, Иорданская 2007].
Так, например, функция лексико-семантического поиска реализована во многих корпусах (НКРЯ и т.д.). К счетным алгоритмам можно отнести определение конструкций при помощи мер ассоциации (PMI, log-likelihood, критерий Хи-квадрат и т.д.), а также языковые модели, использующие данные о совместной встречаемости слов: например, LSA [Landauer и др. 1998] и HAL [Lund, Burgess 1996]. Данные о семантике используют также предсказывающие языковые модели: Word2Vec [Mikolov и др. 2013a; Mikolov и др. 2013b], FastText [Joulin и др. 2018; Bojanowski и др. 2017], BERT [Devlin и др. 2018] и их разновидности. Различие между дистрибутивными счетных моделей и дистрибутивными предсказывающими моделей связано с интерпретируемостью векторов с точки зрения соответствия их координат контекстным элементам,, — у предсказывающих моделей с высокой обобщающей способностью эта способность выражена слабо.. Наконец, можно выделить лингвостатистические алгоритмы, такие как RAKE [Rose и др. 2009] и YAKE [Campos и др. 2020].
В экспериментальной части исследования мы выбрали архитектуры и данные для обучения языковых моделей и рассмотрели ряд параметров, таких как мера измерения сходства векторов, контекстное окно, ограничение на размер словаря, порог частоты слова, сортировка корпуса, а также способ подсчета целевого вектора. Были обучены модели Word2Vec и FastText, а материалом для исследования послужили корпусы «Тайга» [Shavrina, Shapovalova 2017] и lib.ru.sec [Panchenko и др. 2017]. Для проверки качества обучения применялась процедура псевдодизамбигуации, и был выявлен ряд следующих наблюдений, например:
• FastText лучше предсказывает парадигматические отношения в корпусе и намного хуже — синтагматические;
• среди метрик, оказывающих наибольшее влияние на предсказания, можно выделить меру измерения сходства векторов, их размерность, минимальную частоту слов для их учета моделью, а также способ сортировки словаря; помимо этого при обучении относительно больших корпусов (от 5 млн токенов) влияние может оказывать параметр, отвечающий за ограничение количество единиц в словаре модели;
• для вычисления степени сходства между векторами предпочтительнее использовать косинусную меру или вычислять коэффициент их корреляции;
• незначительные погрешности при разметке корпуса могут сильно снизить качество обучения, поэтому важно проверять разметку корпуса.
Наконец, мы применили результаты работы для предсказания именных словосочетаний и значений лексических функций. Для оценки качества предсказаний именных словосочетаний мы провели два эксперимента: оценка согласованности предсказаний моделей и сравнение моделей с эталонными данными. Результаты экспериментов отражают стилистические различия между корпусами, на которых были обучены рассматриваемые модели.
Эмпирические данные, полученные в рамках представленного проекта, будут применены в совершенствовании ДСМ-калькулятора и в разработке дистрибутивно-семантических моделей для лингводидактических целей.
1. Апресян Ю.Д. Избранные труды. В 2 т. Том I. Лексическая семантика: синонимические средства языка // Ю. Д. Апресян. - М.: Языки славянских культур,
1995. -480 с.
2. Балли Ш. Общая лингвистика и вопросы французского языка // Ш. Балли. - М.: Издательство иностранной литературы, 1955. - 416 с.
3. Букия Г.Т., Протопопова Е.В., Митрофанова О.А. Корпусная оценка степени
близости единиц в лексических конструкциях. // Структурная и прикладная лингвистика. 2015. № 11. - С. 252-270. - [Электронный реусурс] URL:
https://elibrary.ru/item.asp?id=25849112&ysclid=l9v2yxqhkw846091732 (дата
обращения: 31.05.2023).
4. Виноградов В.В. Избранные труды. Лексикология и лексикография. // М.: Наука, 1977.-322 с.
5. Гак В.Г. К проблеме семантической синтагматики // Языковые преобразования. - М.: Языки русской культуры, 1998. - С. 272-297.
6. Жолковский А.К. О принципиальном использовании смысла при машинном переводе / А.К. Жолковский, Н.Н. Леонтьева, Ю.С. Мартемьянов // Мартемьянов Ю.С. Логика ситуаций. Строение текста. Терминологичность слов. - М.: Языки славянской культуры, 2004. - С. 84-99.
7. Иорданская Л.Н., Мельчук И.А. Смысл и сочетаемость в словаре. // Л.Н. Иорданская, И.А. Мельчук - М.: Языки славянских культур, 2007 - 665 с.
8. Лингвистический энциклопедический словарь. // Институт языкознания АН СССР, [под редакцией В.Н. Ярцевой и др.] - М.: Советская энциклопедия, 1990.
9. Паничева П.В. Анализ параметров семантической связности с помощью дистрибутивных семантических моделей: на материале русского языка: диссертация кандидата филологических наук: // Паничева Полина Вадимовна; [Место защиты: Рос. гос. пед. ун-т им. А.И. Герцена]. - Санкт-Петербург, 2019.
10. Baroni M., Dinu G., Kruszewski G. Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors. // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). - Baltimore, Maryland: Association for Computational Linguistics, 2014. - С. 238-247. - [Электронный ресурс] URL: https://aclanthology.org/P14-1023/(дата обращения: 28.05.2023).
11. Belyi A.V , Mitrofanova O.A., Dubinina N.A. Distributive Semantic Models in Language Learning: Automatic Generation of Lexical-Grammatical Tests for Russian as
a Foreign Language. // Corpus Linguistics, 2023 Proceedings. - Санкт-Петербург, 2023.
- In press.
12. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information. // Transactions of the Association for Computational Linguistics, Volume 5.
— Cambridge, MA: MIT Press, 2017. - С. 135-146. - [Электронный ресурс] URL: https://aclanthology.org/Q17-1010/(дата обращения: 28.05.2023).
13. Buchholz S., Marsi E. CoNLL-X shared task on Multilingual Dependency Parsing. // Proceedings of the Tenth Conference on Computational Natural Language Learning (CoNLL-X). - New York City: Association for Computational Linguistics, 2006. - С. 149-164. - [Электронный ресурс] URL: https://aclanthology.org/W06-2920/(дата обращения: 28.05.2023).
14. Bukia G., Protopopova E., Panicheva P., Mitrofanova O. Estimating Syntagmatic Association Strength Using Distributional Word Representations. // Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference «Dialogue» (2016). - Issue 15 - Москва: РГГУ, 2016 - С. 112-122.
15. Campos R., Mangaravite V., Pasquali A., Jatowt A., Jorge A., Nunes C., Jatowt A., YAKE! Keyword Extraction from Single Documents using Multiple Local Features. // Information Sciences Journal, 2020. - С. 257-289.
16. Dagan I., Marcus S., Markovitch S. Contextual Word Similarity and Estimation from
Sparse Data. // Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics. - Columbus, Ohio, USA: Association for Computational Linguistics, 1993. - С. 164-171. - [Электронный ресурс] URL:
https://aclanthology.org/P93-1022/(дата обращения: 28.05.2023).
17. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) - Minneapolis, Minnesota: Association for Computational Linguistics, 2018. - С. 4171-4186. - [Электронный ресурс] URL: https://aclanthology.org/N19-1423/(дата обращения: 28.05.2023).
18. Edmiston D. A Systematic Analysis of Morphological Content in BERT Models for
Multiple Languages, 2020. - [Электронный ресурс] URL:
https://arxiv.org/abs/2004.03032(дата обращения: 28.05.2023).
19. Enikeeva E.V., Mitrofanova O.A. Russian Collocation Extraction based on Word Embeddings. // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue». - Moscow, 2017. - С. 52-64.
20. Espinosa-Anke L., Codina-Filba J., Wanner L., Evaluating language models for the retrieval and categorization of lexical collocations. //Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. - Association for Computational Linguistics, 2021. - С. 1406-1417.
21. Fillmore C.J. Syntactic Intrusion and the Notion of Grammatical Construction /// Proceedings of the Eleventh Annual Meeting of the Berkeley Linguistics Society. - Berkeley, 1985. -C. 73-86.
22. Fillmore C.J., Kay P., O'Connor M. C. Regularity and Idiomaticity in Grammatical Constructions: The Case of Let Alone. // Linguistic Society of America (Vol. 64, No. 3), 1988.
23. Firth J.R. A Synopsis of Linguistic Theory, 1930-55. // Special Volume of the Philological Society. - Oxford: Blackwell, 1957. - С. 1-32.
24. Gage Ph. A New Algorithm for Data Compression. // The C Users Journal, 1994. - С.23-38.
25. Gale W.A., Church K.W., Yarowsky D. Work on Statistical Methods for Word Sense
Disambiguation. // AAAI Fall Symposium on Probabilistic Approaches to Natural Language: Proceedings of the 29th Annual Meeting on Association for Computational Linguistics. - Berkeley, 1992. - [Электронный ресурс] URL:
https://studylib.net/doc/13790396/work-on--statistical-methods-for--word-sense--disambiguation(дата обращения: 28.05.2023).
26. Goldberg A.E. Constructions: A Construction Grammar Approach to Argument Structure. // University of Chicago Press, 1995. - 271 с.
27. Goldberg, A.E. Construction Grammar. // Concise Encyclopedia of Syntactic Theories, - Oxford: Pergamon, 1996.
28. Goldberg A.E. Constructions at Work: The Nature of Generalization in Language. // Oxford University Press, 2006. - 290 с.
29. Goldberg A.E. Constructionist Approaches // The Oxford Handbook of Construction Grammar. - Oxford University Press, 2013. - С. 15-32.
30. Hartung M., Kaupmann F., Jebbara S., Cimiano Ph. Learning Compositionality Functions on Word Embeddings for Modelling Attribute Meaning in Adjective-Noun Phrases. // 15th Meeting of the European Chapter of the Association for Computational Linguistics (EACL). - Valencia, Spain: 2017. - 11 с. - [Электронный ресурс] URL: https://aclanthology.org/E17-1006/(дата обращения: 28.05.2023).
31. Joulin A., Bojanowski P., Mikolov T., Jegou H., Grave E. Loss in Translation: Learning
Bilingual Word Mapping with a Retrieval Criterion. // In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. - Berlin, Belgium: Association for Computational Linguistics, 2018. - С. 2979-2984. - [Электронный ресурс] URL: https://aclanthology.org/D18-1330/(дата обращения: 28.05.2023).
32. Kolesnikova O., Gelbukh A. A Study of Lexical Function Detection with Word2Vec and Supervised Machine Learning. // Journal of Intelligent and Fuzzy Systems, 2020. - С. 1-8.
33. Lan Zh., Chen M., Goodman S., Gimpel K., Sharma P., Soricut R. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. - 2019. - [Электронный ресурс] URL: https://arxiv.org/abs/1909.11942(даьа обращения: 28.05.2023).
34. Landauer T.K., Foltz P.W., Laham D. An Introduction to Latent Semantic Analysis. // Discourse Processes (Vol. 25), 1998. - С. 259-284.
35. Lenci A. Distributional Semantics in Linguistic and Cognitive research. // The Italian
Journal of Linguistics, 2008. - [Электронный ресурс] URL:
https://www.italian-journal-linguistics.com/app/uploads/2021/05/1 Lenci.pdf (дата
обращения: 28.05.2023).
36. Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L, Stoyanov V. RoBERTa: A Robustly Optimized BERT Pretraining Approach. - 2019. - [Электронный ресурс] URL: https://arxiv.org/abs/1907.11692(дата обращения: 28.05.2023).
37. Lund K., Burgess C. Producing High-Dimensional Semantic Spaces from Lexical Co-occurrence // Behavior Research Methods, Instruments, and Computers (Vol. 28),
1996. -С. 203-208.
38. Masterman M. The Thesaurus in Syntax and Semantics / M. Masterman // Mechanical Translation (Vol. 4), 1957. - С. 35-43.
39. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations
in Vector Space. - 2013a. - [Электронный ресурс] URL:
https://arxiv.org/abs/1301.3781(дата обращения: 28.05.2023).
40. Mikolov T., Yih W., Zweig G. Linguistic Regularities in Continuous Space Word Representations. // Proceedings of NAACL-HLT 2013. - Atlanta, Georgia, 2013b. - С. 746-751. - [Электронный ресурс] URL: https://aclanthology.org/N13-1090/(дата обращения: 28.05.2023).
41. Moskvina A.D., Yerofeyeva A.R., Mitrofanova O.A., Kharabet Ya.K. Automatic Selection of Keywords and Phrases from the Russian-language Corpus of Texts Using the RAKE Algorithm. // Proceedings of the International Conference "Corpus Linguistics-2017" (St. Petersburg, June 27-30, 2017). - Publishing house of St Petersburg State University, 2017. - С. 268-275.
42. Moskvina A., Sokolova E., Mitrofanova O. KeyPhrase Extraction from the Russian Corpus on Linguistics by means of KEA and RAKE Algorithm. // Data Analytics and Management in Data Intensive Domains: XX International Conference DAMDID/RCDL'2018 (October 9-12, 2018, Moscow, Russia): Conference Proceedings. - 2018. - [Электронный ресурс] URL: https://www.elibrary.ru/item.asp?id=41112843(дата обращения: 28.05.2023).
43. Osgood C.E. The Measurement of Meaning / C. E. Osgood, G. Suci, P Tannenbaum. // Urbana: University of Illinois Press, 1957. - 342 с.
44. Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstantinova N., Loukachevitch N., Biemann Ch. Human and Machine Judgements for Russian Semantic Relatedness. // Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016, Yekaterinburg, Russia, April 7-9, 2016, Revised Selected Papers. - Springer International Publishing, 2017.
45. Pereira F., Tishby N., Lee L. Distributional Clustering of English Words // Proceedings of the 31st Annual Meeting on Association for Computational Linguistics. - Columbus, Ohio: Association for Computational Linguistics, 1993. - С. 183-190.
46. Peters M.E., Neumann M., Iyyer M., Gardner M., Clark Ch., Lee K., Zettlemoyer L. Deep Contextualized Word Representations. // Proceedings of the 2018 Conference of the North American Chapter of the Association of the Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). - New Orleans, Louisiana, 2018. - С. 2227-2237. - [Электронный ресурс] URL: https://aclanthology.org/N18-1202/(дата обращения: 28.05.2023).
47. Rodriguez-Fernandez S., Espinosa-Anke L., Carlini R. Wanner L., Semantics-Driven Recognitin of Collocations Using Word Embeddings. // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). - Berlin, Germany: Association for Computational Linguistics, 2016. - С. 499-505. - [Электронный ресурс] URL: https://aclanthology.org/P16-2081(дата обращения: 30.05.2023).
48. Rohde D.L.T., Gonnerman L.M., Plaut D.C. An Improved Model of Semantic Similarity Based on Lexical Co-Occurrence. - 2005. - [Электронный ресурс] URL: https://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=07FDBBF67A990E3272E5F53FE4F2B195?doi=10.1.1.131.9401&rep=rep1&type=pdf(дата обращения: 28.05.2023).
49. Rose S.J, Cowley W.E., Crow V.L., Cramer N.O. Rapid Automatic Keyword Extraction for Information Retrieval and Analysis. - 2009. - [Электронный ресурс] URL: https://www.researchgate.net/publication/254994054 Rapid automatic keyword extraction for information retrieval and analysis(дата обращения: 28.05.2023)
50. Shavrina T., Shapovalova O. To the Methodology of Corpus Construction for Machine
Learning: «TAIGA» Syntax Tree Corpus and Parser. // CORPORA2017, International Conference, Saint-Petersburg, 2017. - [Электронный ресурс] URL:
https://publications.hse.ru/pubs/share/direct/228708458.pdf(дата обращения: 28.05.2023).
51. Stefanowitsch A., Gries S.Th. Collostructions: Investigating the Interaction of Words and
Constructions. // International Journal of Corpus Linguistics (Vol. 8), 2003. - С. 209-243. - [Электронный ресурс] URL:
https://www.researchgate.net/publication/37929828 Collostructions Investigating the interaction of words and constructions(дата обращения: 28.05.2023).
52. Tenney I., Xia P., Chen B., Wang A., Poliak A., McCoy R. T., Kim N., Van Durme B., Bowman S. R., Das D., Pavlick E. What Do You Learn from Context? Probing for Sentence Structure in Contextualized Word Representations. - 2019. - [Электронный ресурс] URL: https://arxiv.org/abs/1905.06316(дата обращения: 28.05.2023).
53. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones Ll., Gomez A.N., Kaiser E., Polosukhin I. Attention is All You Need. // In Proceedings of NIPS, 2017. - [Электронный ресурс] URL: https://arxiv.org/abs/1706.03762(дата обращения: 28.05.2023).