Введение 3
Глава 1. История развития языковых моделей 7
1.1 Языковые модели в языкознании 7
1.2 Обработка естественного языка до эпохи глубокого обучения 13
1.3 Обработка естественного языка в эпоху глубокого обучения 20
Глава 2. Векторное представление слов 25
2.1 Определение основных понятий 25
2.2 Счетные методы 29
2.3 Предсказывающие модели 33
2.3.1 Нейронные сети 33
2.3.2 Модель “непрерывного мешка слов” 35
2.3.3 Модель Skip-Gram 38
2.4 Контекстуализированные модели 41
Глава 3. Языковая модель BERT 45
3.1 Механизм само-внимания 46
3.2 "Многоголовочное" внимание 49
3.3 Архитектурное описание модели BERT 50
3.4 Представление входных данных 51
3.5 Параметры модели BERT 53
3.6 Процедура предобучения модели BERT 54
3.7 Обработка данных для предобучения 57
3.8 Из практики предобучения 58
3.8 Настройка языковой модели на конечные задачи 59
Глава 4. Адаптация предварительно обученных нейросетевых языковых
моделей к конечным задачам 63
Исследование 1. Языковой перенос для частеречной разметки корпуса
СКАТ 63
Исследование 2. Извлечение сущностей из медицинских назначений врачей 71
Исследование 3. Автоматическое распознавание парафраз 78
Заключение 80
Список использованной литературы 81
В настоящее время компьютерная лингвистика переживает смену научных парадигм, происходит переосмысление ключевых понятий этой области знаний, одним из которых является понятие языковой модели. Постепенно происходит переход от понимания модели языка как обобщенного формального представления языковой системы (Н.Н. Леонтьева (2006), И.А.Мельчук (1999), И.И.Ревзин (1962), Ю.А.Шрейдер (1982) и др.) к более узкой трактовке этого термина в случае отсылки к n-граммным языковым моделям, языковым моделям для машинного перевода, нейросетевым моделям распределенных векторов и т.д.
Создание нейросетевых языковых моделей является одной из важнейших процедур в современных реалиях обработки естественного языка. В течение минувшего десятилетия произошла стремительная эволюция предсказывающих моделей распределенных векторов, проявившаяся в смещении интереса разработчиков от статических нейросетевых моделей типа word2vec к контекстуализированным моделям, основанным на архитектурах типа Трансформер: BERT, ELMo, T5 и их модификациям, см. [Baroni et al., 2014; Le, Mikolov, 2014; Mikolov et al., 2013a,b; Devlin, 2019; Lample et al., 2019; McCann et al., 2017; Peters et al., 2018; Boyanowski et al., 2018; Arisoy et al., 2012; Baltesku et al., 2015]. Благодаря ним возможно решать целый спектр высокоуровневых задач, таких как распознавание речи и машинный перевод, что было сильно ограничено до их появления.
Несмотря на то, что для при обучении языковых моделей чаще всего используются общеязыковые корпусы текстов, в ряде работ было продемонстрировано, что использование специализированных корпусов повышает качество работы системы в конечных задачах [Lee et al., 2020; Gudkov et al., 2020].
Актуальность нашего исследования обусловлена необходимостью создания критериев отбора параметров для обучения и оценки нейросетевых моделей, создаваемых на основе ряда архитектур, применительно к конкретным практическим задачам. В этом отношении тезис о предметно-ориентированном языковом моделировании, выдвинутый и нашедший подтверждение в 1980-х-1990-х годах (А.С.Герд, В.В.Буторов, В.П.Захаров, И.В.Азарова и т.д. [Прикладное языкознание, 1995; Прикладная и компьютерная лингвистика, 2017]), находит свое развитие в современных проектах и подлежит уточнению в статусе рабочей гипотезы нашего исследования, которое сфокусировано на комбинировании общеязыковых лингвистических данных и данных из ресурсов (корпусов и баз данных) для частных предметных областей (медицина и биоинженерия, наука и техника, журналистика, юриспруденция и т.д.).
Новизна исследования заключается в разработке новой процедуры дообучения языковых моделей применительно к извлечению именованных сущностей на основе языковых моделей, включающего возможность присваивания нескольких классов одному токену, исследовании возможности языкового переноса на малоресурсные языки, а также в создании крупного корпуса для задач генерации парафраз.
Объектом исследования являются нейросетевые языковые модели, используемые для обработки естественного языка.
Предметом исследования являются методы настройки, оптимизации и адаптации языковых моделей для специализированных и малоресурсных языков.
Цель нашего исследования состоит в разработке методологии введения информации из узкоспециализированных корпусов текстов в предобученные общеязыковые модели.
Для достижения этой цели необходимо обеспечить решение следующих задач:
• исследовать и обобщить существующие методы и подходы к языковым моделям в контексте языкознания и истории обработки естественного языка;
• провести анализ векторного представления слов и изучить модель BERT, исследовать механизмы само-внимания и "многоголовочного" внимания;
• исследовать способности языковой модели к языковому переносу на малоресурсные языки на примере решения задачи частеречной разметки корпуса СКАТ;
• разработать и представить корпус размеченных медицинских назначений Drugrel, применив новый подход к извлечению именованных сущностей;
• исследовать возможности модели к автоматической агрегации больших наборов данных для последующих задач на основе создания корпуса для перефразирования.
Материалом исследования служат русскоязычные лингвистические данные (прежде всего, корпусы парафраз, тексты корпуса СКАТ, а также размеченные в ходе исследования медицинские данные). Важность проведения экспериментов на материале русского языка обусловлена востребованностью нейросетевых моделей в решении прикладных задач и одновременно недостаточной разработанностью вопроса роли дообучения общеязыковых моделей в отечественных разработках.
Теоретическая значимость данного исследования заключается в систематическом анализе современных методов обработки естественного языка, в определении особенностей и изучении механизмов работы новых нейросетевых архитектур типа Трансформер. Наблюдения, сделанные в ходе исследования, могут стать отправной точкой для разработки более совершенных моделей языка и приемов анализа языковых данных.
Практическим результатом исследования является формализованный набор данных и моделей, позволяющий использовать узкоспециализированные корпусы текстов для решения прикладных задач с помощью общих языковых моделей.
Практическая значимость исследования проявляется в возможности применения полученных данных в реальных задачах обработки естественного языка, включая перифразирование, извлечение именованных сущностей и частеречную разметку. Разработанный в ходе исследования корпус размеченных медицинских назначений Drugrel может быть использован в решении практических задач в области медицинской информатики и здравоохранения.
Результаты исследований были апробированы на международной конференции ассоциации по компьютерной лингвистике (Gudkov et al., 2020). Также опыт наших исследований представлен в статье, которая была принята в печать в журнале «Вестник Санкт-Петербургского университета. Язык и литература» (Gudkov et al., 2023).
В ходе нашего исследования в области настройки, оптимизации и адаптации языковых моделей в разных областях, таких как частеречная разметка текстов на малоресурсном языке, извлечение именованных сущностей и перифразирование, мы внесли вклад в следующих аспектах.
Во-первых, были продемонстрированы способности языковой модели к языковому переносу на малоресурсные языки на примере решения задачи частеречной разметки корпуса СКАТ.
Во-вторых, был разработан и представлен корпус размеченных медицинских назначений Drugrel. Мы представили новый подход к извлечению именованных сущностей, способный присваивать несколько классов токену, что позволило использовать многоуровневую разметку. Получившаяся модель, основанная на архитектуре BERT, способна определять медицинские сущности точнее и эффективнее человека.
В-третьих, были продемонстрированы способности модели к автоматической агрегации больших наборов данных для последующих задач на основе создания корпуса для перифразирования.
Наша работа подтвердила, что глубокое обучение и использование специализированных корпусов данных открывают значительный потенциал в области обработки естественного языка. Мы уверены, что наши исследования послужат важной основой для дальнейшего развития этого направления и помогут в создании еще более мощных и эффективных систем обработки естественного языка.
1. Апресян Ю. Д. Идеи и методы современной структурной лингвистики (краткий очерк). Издательство «Просвещение», М. 1966. - 304с.
2. Большой энциклопедический словарь. Языкознание / [гл. ред. В.Н. Ярцева]. - М.: БРЭ, 1998. - 685с
3. Грибова В. В., Шахгельдян К. И., Шалфеева Е. А., Окунь Д. Б., Гельцер Б. И., Горбач Т. А., Карпик О. В., Клышинский Э. С. Алгоритм автоматического выделения жалоб пациентов из историй болезни // В кн.: Новые информационные технологии в автоматизированных системах: материалы двадцать второго научно-технического семинара. М. : Институт прикладной математики им. М.В. Келдыша РАН, 2019. С. 204-209.
4. Житие Александра Свирского: Текст и словоуказатель / Сост. И. В. Азарова, Е. Л. Алексеева, Л. А. Захарова, К. Н. Лемешев; Под ред. А. С. Герда. СПб., 2002.
5. Жития Димитрия Прилуцкого, Дионисия Глушицкого и Григория Пельшемского: Текст и словоуказатель / Сост. И. В. Азарова, Е. Л. Алексеева, Л. А. Захарова, К. Н. Лемешев; Под ред. А. С. Герда. СПб., 2003.
6. Житие Кирилла Новоезерского: Текст и словоуказатель / Сост. И. В. Азарова, Е. Л. Алексеева, Л. А. Захарова, К. Н. Лемешев; Под ред. А. С. Герда. СПб., 2003.
7. Мельчук И. А., Жолковский А. К. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. — Вена: Wiener Slavistischer Almanach, 1984.
8. Мельчук И. А. Опыт теории лингвистических моделей «Смысл О Текст». М., 1974 (2-е изд., 1999).
9. Кравцова Ю.В. Моделирование в современной лингвистике / В1сник Житомирського державного ушверситету 1меш 1вана Франка. Вип. 5 (77). Ф1лолог1чн1 науки. / [гол. ред. П. Ю. Саух; в1дп. ред. Н. А. Сейко; в1дп. секр. Н. П. Б1рук]. - 2014 - с.181-189
10. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы. М., 2006.
11. Новый словарь методических терминов и понятий (теория и практика обучения языкам). — М.: Издательство ИКАР. Э. Г. Азимов, А. Н. Щукин. 2009.
12. Попов В.Г. Физическая реальность и язык. - СПб: Издательство С.-Перерб. ун-та, 2004. - 248 с.
13. Алексеев В.А., Алексеева Е.Л., Касьяненко С.Е. Грамматическая разметка в корпусе СКАТ // Труды международной конференции «Корпусная лингвистика — 2011». СПбГУ, Филологический факультет, 2011. С. 69-73.
14. Герд А.С., Азарова И.В., Алексеева Е.Л., Иванова Е.С. Корпус древнерусских агиографических текстов СКАТ: современное состояние и перспективы развития // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам. Материалы международной научной конференции. Ижевск: Изд-во ИжГТУ, 2006. С. 38-42.
15. Азарова И.В., Алексеева Е.Л. Особенности морфосинтаксической разметки древнерусских агиографических текстов // Труды международной конференции «Корпусная лингвистика — 2013». СПбГУ, Филологический факультет, 2013. C. 157-164.
16. Ревзин И.И. Метод моделирования и типология славянских языков. М.: «Наука», 1967. - 301 с.
17. Ревзин И.И. Модели языка. М.: Изд-во АН СССР, 1962. - 193 с
18. Сепир Э. Язык. Введение в изучение речи / Избр. труды по языкознанию и культурологи.
19. Шрейдер Ю.А. О понятии "математическая модель языка" - Москва: Знание, 1971.-63 с.
20. Шульгин Д.Н. Язык как модель человеческой культуры: Дис. ... канд. филос. наук: 09.00.01 - 1998. - М.: РГБ, 2005. - 185 с.
21. Alimova I, Solovyev V. Interactive attention network for adverse drug reaction classification//Communications in Computer and Information Science. - 2018. - Vol.930, Is.. - P.185-196.
22. Akbik A., Blythe D., Vollgraf R. Contextual String Embeddings for Sequence Labeling. Proceedings of COLING, 2018, pp. 1638-1649.
23. Arisoy E. et al. Deep neural network language models //Proceedings of the NAACL-HLT 2012 Workshop: Will We Ever Really Replace the N-gram Model? On the Future of Language Modeling for HLT. - 2012. - С. 20-28.
24. Association for Computational Linguistics, ACL 2014 - Proceedings of the Conference. 1.238-247.10.3115/v1/P14-1023. 2014.
25. Azarova I., Alekseeva E., Lavrentiev A., Rogozina E., Sipunin K. Content Structuring in the St Petersburg Corpus of Hagiographic Texts (SCAT). Scripta & e-Scripta. The Journal of Interdisciplinary Mediaeval Studies, 2021, No. 21, pp. 69-78.
26. Bach E. Informal Lectures on Formal Semantics. NY, 1989.
27. Bahdanau D., Cho K., Bengio Y. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
28. Bahl L. R., Brown P F., Souza P V., and Mercer R. L. A tree-based statistical language model for natural language speech recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, f[37(7):1001-1008, 1989.
29. Baltescu P., Blunsom P. Pragmatic Neural Language Modelling in Machine Translation //Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. - 2015. - С. 820-829.
30. Bannard C., Callison-Burch C. Paraphrasing with bilingual parallel corpora. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics - ACL '05, 2005.
31. Baroni M., Dinu G., Kruszewski G. Don't count, predict! A systematic comparison of context-couting vs. context-predicting semantic vectors. 52nd Annual Meeting of the
32. Barzilay R. Information Fusion for MultiDocument Summarization: Paraphrasing and Generation, PhD Thesis, 2003. C. 1-204.
33. Bengio Y., Ducharme R., Vincent P., Jauvin C. A neural probabilistic language model. Journal of machine learning research, 2003, Vol. 3, Feb, pp. 1137-1155.
34. Berger A. L., Della Pietra S. A., Della Pietra V. J. A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics, 1996. Vol. 22, No. 1,pp. 39-71.
35. Brown P. F., Cocke J., Pietra S. D., Pietra V. D., Jelinek F., Lafferty J., Mercer R. L., and Roossin P. S. A statistical approach to machine translation. Computational linguistics, 16(2):79-85, 1991.
36. Brill E., Magerman D., Marcus M., and Santorini B.. Deducing linguistic structure from the statistics of large corpora. In Proceedings of the 5th Jerusalem Conference on Information Technology, 1990.’Next Decade in Information Technology’, pages 380-389. IEEE, 1990.
37. Charniak E. Passing markers: A theory of contextual influence in language comprehension. Cognitive science, 7(3):171-190, 1983.
38. Chen S. F., Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling. Harvard Computer Science Group Technical Report TR-10-98, 1998.
39. Chitrao M. V. and Grishman R. Statistical parsing of messages. In Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27, 1990.
40. Chomsky N. Aspects of the theory of syntax. Cambridge: M.I.T. Press, 1965.
41. Chomsky N. Syntactic structures. The Hague: Mouton, 1957.
42. Collins A. M., Quillian M. R., et al. Retrieval time from semantic memory. Journal of Verbal Learning and Verbal Behavior, 1969. Vol. 8, No. 2, pp. 240-247.
43. Collobert R., Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning. Proceedings of the 25th international conference on Machine learning, 2008, pp. 160-167.
44. Creutz M. Open Subtitles Paraphrase Corpus for Six Languages // URL: https://helda.helsinki.fi/bitstream/handle/10138/237338/131.pdf?sequence=2
45. Daelemans W., Hothker A., Sang E. F. T. K. Automatic Sentence Simplification for Subtitling in Dutch and English. LREC, 2004.
46. Dai A. M., Le Q. V. Semi-supervised sequence learning. Advances in neural information processing systems, 2015, pp. 3079-3087.
47. Daniluk M., Rocktaschel T., Welbl J., Riedel S. Frustratingly short attention spans in neural language modeling. arXiv preprint arXiv:1702.04521, 2017.
48. Deleger L., Zweigenbaum P Extracting lay paraphrases of specialized expressions from monolingual comparable medical corpora. Proceedings of the 2nd Workshop on Building and Using Comparable Corpora: from Parallel to Non-parallel Corpora. Association for Computational Linguistics, 2009, pp. 2-10.
49. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // URL: https://arxiv.org/abs/1810.04805v2
50. Dostert L. E. The georgetown-ibm experiment. Machine translation of languages. John Wiley & Sons, New York, 1955, pp. 124-135.
51. Elhadad N., Sutaria K. Mining a lexicon of technical terms and lay equivalents. Biological, translational, and clinical language processing, 2007, pp. 49-56.
52. Elman J. L. Finding structure in time. Cognitive science, 1990, Vol. 14, No. 2, pp. 179-211.
53. Fillmore C. The case for case. In: Bach E., Harms R. (Eds.): Universals in Linguistic Theory, 1968.
54. Firth J. R. A synopsis of linguistic theory, 1930-1955. Studies in linguistic analysis, 1957.
55. Graves A. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.
56. Gudkov V., Mitrofanova O., Filippskikh E. Automatically Ranked Russian Paraphrase Corpus for Text Generation //Proceedings of the Fourth Workshop on Neural Generation and Translation. - 2020. - С. 54-59.
57. Harris Z. S. Distributional structure. Word, 1954, Vol. 10, Nos. 2-3, pp. 146-162.
58. Hirst G. Semantic interpretation and ambiguity. Artificial Intelligence, 34(2):131 - 177, 1987. ISSN 0004-3702.
59. Hochreiter S., Schmidhuber J. Long short-term memory. Neural computation, 1997, Vol. 9, No. 8, pp. 1735-1780.
60. Howard J., Ruder S. Universal language model fine-tuning for text classification. arXiv preprint arXiv: 1801.06146, 2018.
61. Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification, 2016.
62. Jurafsky D. and Martin J.H. Speech and Language Processing. 2019.
63. Kalchbrenner N., Grefenstette E., Blunsom P A convolutional neural network for modelling sentences. arXiv preprint arXiv:1404.2188, 2014.
64. Kauchak D., Barzilay R. Paraphrasing for automatic evaluation. Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. Association for Computational Linguistics, 2006, pp. 455-462.
65. Kim Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882, 2014.
66. Knight K., Marcu D. Summarization beyond sentence extraction: A probabilistic approach to sentence compression. Artificial Intelligence, 2002, Vol. 139, No. 1,pp. 91-107.
67. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. arXiv preprint arXiv:1905.07213, 2019.
68. Lample G., Conneau A. Cross-lingual Language Model Pretraining // URL: https://arxiv.org/abs/1901.07291
69. Landauer T. K., Dumais S. T. A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological review, 1997, Vol. 104, No. 2, p. 211.
70. LeCun Y., Haffner P., Bottou L., Bengio Y. Object recognition with gradient-based learning. In Shape, contour and grouping in computer vision. Springer, 1999, pp. 319-345.
71. Lebret R., Collobert R. Word emdeddings through hellinger pca. arXiv preprint arXiv:1312.5542, 2013.
72. Lee J. et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining //Bioinformatics. - 2020. - Т. 36. - №. 4. -С. 1234-1240.
73. Liddy E. D. Natural language processing. Encyclopedia of Library and Information Science, 2nd Ed. NY: Marcel Decker, Inc., 2001.
74. Lin D., Pantel P DIRT @SBT@discovery of inference rules from text. Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '01, 2001.
75. Lund K., Burgess C. Producing high-dimensional semantic spaces from lexical cooccurrence. Behavior research methods, instruments, & computers, 1996, Vol. 28, No. 2, pp. 203-208.
76. Marton Y., Callison-Burch C., Resnik P Improved statistical machine translation using monolingually-derived paraphrases. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Association for Computational Linguistics, 2009, pp. 381-390.
77. Martynov N., Krotova I., Logacheva V., Panchenko A., Kozlova O., Semenov N. (2022). "RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification". Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association. pp. 5683-5691.
78. McCann B., Bradbury J., Xiong C., Socher R. Learned in Translation: Contextualized Word Vectors // URL: https://arxiv.org/abs/1708.00107
79. Mikolov T., Chen K., Corrado G. S., Dean J. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013a.
80. Mikolov T., Chen K., Corrado G. S., Dean J. Distributed Representations of Words and Phrases and their Compositionality, 2013b.
81. Mikolov T., Karafiat M., Burget L., Cernock'y J., Khudanpur S. Recurrent neural network based language model. Eleventh annual conference of the international speech communication association, 2010.
82. Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J. Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, 2013, pp. 3111-3119.
83. Montague R. Formal Philosophy: Selected Papers of Richard Montague. Yale University Press, 1974. P 320—340.
84. Partee B.H., Ter Meulen A., Wall R.E. Mathematical Methods in Linguistics. Springer, 1990.
85. Peters M. E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. Deep contextualized word representations. arXiv preprint arXiv:1802.05365, 2018.
86. Pierce J. R., Carroll J. B., Hamp E. P., Hays D. G., Hockett C. F., Oettinger A. G., Perlis A. Language and machines — computers in translation and linguistics. ALPAC report, National Academy of Sciences, National Research Council, Washington, DC, 1966.
87. Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language models are unsupervised multitask learners. OpenAI Blog, 2019. Vol. 1, No. 8, p. 9.
88. Rohde D. L. T., Gonnerman L. M., Plaut D. C. An improved method for deriving word meaning from lexical co-occurrence. Cognitive Psychology, 2004, No. 7,pp. 573-605.
89. Riesbeck C. K. and Martin C. Direct memory access parsing. Experience, memory and reasoning, pages 209-226, 1986.
90.Schank R. C. Conceptual dependency: A theory of natural language understanding. Cognitive psychology, 1972, Vol. 3, No. 4, pp. 552-631.
91.Shannon C. E., Weaver W. The mathematical theory of information. Urbana: University of Illinois Press, 1949, 97 p.
92.Snover M., et al. A study of translation edit rate with targeted human annotation. Proceedings of association for machine translation in the Americas, 2006, Vol. 200, No. 6.
93.Socher R., Perelygin A., Wu J., Chuang J., Manning C. D., Ng A. Y., Potts C. Recursive deep models for semantic compositionality over a sentiment treebank. Proceedings of the 2013 conference on empirical methods in natural language processing, 2013, pp. 1631-1642.
94.Sutskever I., Vinyals O., Le Q. V. Sequence to sequence learning with neural networks. Advances in neural information processing systems, 2014, pp. 3104-3112.
95. Tutubalina E, Alimova I, Solovyev V., Biomedical entities impact on rating prediction for psychiatric drugs//Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). - 2019. - Vol.11832 LNCS, Is.. - P.97-104.
96. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser E., Polosukhin I. Attention is all you need. Advances in neural information processing systems, 2017, pp. 5998-6008.
97. Weizenbaum J. Eliza—a computer program for the study of natural language communication between man and machine. Communications of the ACM, 1966, Vol. 9, No. 1,pp. 36-45.
98. Winograd T. Procedures as a representation for data in a computer program for understanding natural language. Technical report, Massachusetts Institute of Technology, Cambrdige Project, 1971.
99. Woods W. A. Transition network grammars for natural language analysis. Communications of the ACM, 1970, Vol. 13, No. 10, pp. 591-606.
100. Woods W., Kaplan R., Nash-Webber B. The lunar sciences natural language information system: Final report (bolt, beranek and newman, cambridge, ma). Woods discusses the LUNAR program which answers scientist’s questions about the moon rocks, 1972.
101. Yalunin A., Nesterov A., Umerenkov D. RuBioRoBERTa: a pre-trained biomedical language model for Russian language biomedical text mining. arXiv preprint arXiv:arXiv:2204.03951, 2022.
102. Yang Z., Dai Z., Yang Y, Carbonell J., Salakhutdinov R. R., Le Q. V. Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 2019, pp. 5754-5764.