Аннотация 3
Введение 4
Глава 1. Валентность и её представление в словарях 6
1.1. Понятие валентности 6
1.2. Словари валентности 7
1.2.1. Английские словари валентности 8
1.2.2. Чешские словари валентности 11
1.2.3. Русские словари валентности 14
Глава 2. Корпусно-структурный анализ 18
2.1. История развития. Основные теоретические положения. 18
2.2. Понятие паттерна. Семантические типы и роли 20
2.3. Pattern Dictionary of English Verbs (PDEV) 22
2.4. Общее описание метода 24
2.5. Автоматизация 24
Глава 3. Создание словаря 26
3.1. Постановка задач 26
3.2. Выбор корпуса и разметки 26
3.3. Выбор глаголов 29
3.4. Подготовка разметки 31
3.5. Выделение паттернов 33
3.6. Размер выборки 36
3.6.1. Анализ насыщаемости 37
3.6.2. Дополнительная разметка 37
3.7. Проверка независимости от корпуса 39
3.8. Соотношение полученных паттернов и значений в толковых словарях русского языка 41
3.9. Классификация паттернов 43
3.10. Выводы 46
Заключение 48
Список литературы 50
Приложение А. Полученные паттерны 53
Приложение Б. Анализ словарных значений 63
Информация о значении слов и их семантической сочетаемости необходима во многих областях как теоретической, так и прикладной лингвистики. В теории это один из важных элементов описания системы и лексикона языка, на практике же подобные сведения могут пригодиться для разных задач, к примеру, машинный перевод, информационный поиск, выделение темы текста и др. Во всех случаях необходим ресурс, содержащий сведения о семантике слов. Для русского языка существует достаточное количество толковых словарей, описывающих значения и оттенки значений слов и частично – их сочетаемость, но, к сожалению, подобные словари почти бесполезны при автоматической обработке текста. Таким образом, возникает потребность в словаре другого типа, словаре, который можно было бы использовать в компьютерных технологиях. Подобный словарь должен содержать объективную, формализованную информацию о значении слова, его рамках валентности (и синтаксической, и семантической), о словах, часто встречающихся в его окружении, возможных идиомах.
На настоящее время создано и/или находится в разработке большое количество электронных ресурсов, полностью или частично отвечающих нашим целям. Для русского языка можно упомянуть Толково-комбинаторный словарь [7], семантический словарь Тузова, проектыRussNet [1], FrameBank. В данной работе мы решили воспользоваться опытом и методами создания словаря PatternDictionaryofEnglishVerbs . На данный момент в словаре описана семантическая сочетаемость и значения около 2000 английский глаголов. Словарь составляется на основе метода корпусно-структурного анализа (CorpusPatternAnalysis, CPA), который в свою очередь опирается на теорию норм и эксплуатация (TheoryofNormsandExploitations, TNE). Можно выделить главные особенности данного подхода:
• выделение значений на основе семантического контекста глаголов;
• анализ нормативных употреблений глагола.
Корпусно-структурный анализ позволяет по выборке из корпуса описать различные семантические валентности глагола, сопоставить их с его значениями, определить их относительную частоту. При этом итоговое описание легко представляется в форме, пригодной для автоматического анализа.
Целью данного исследования является адаптация для русского языка методики выделения значений и семантической валентности глаголов по корпусным данным путём создания прототипа словаря.
Для достижения поставленной цели было необходимо решить следующие теоретические и практические задачи:
1) описать основные понятия и теоретические основы корпусно-структурного анализа;
2) адаптировать метод для русского языка;
3) составить пробный словарь;
4) оценить эффективность метода.
Объектом исследования являются семантика глаголов русского языка. Предмет исследования – семантическая валентность глаголов и её связь с их значениями. Материалом исследования является корпус AraneumRussicumMinus и Национальный корпус русского языка .
Теоретическая значимость работы определяется подробным описанием методики, не используемой ранее на материале русского языка, и анализом её эффективности. Практическая значимость данного исследования заключается в том, что полученные результаты могут составить основу для создания словаря валентностей русского языка, пригодного для использования как в теоретических, так и в практических целях.
Данная работа состоит из введения, трёх глав, заключения, списка литературы из 40 названий и 2 приложений. В первой главе описываются теоретические вопросы, связанные с описанием семантики глаголов русского языка и существующие ресурсы для английского, чешского и русского языков. Вторая глава посвящена теоретическим основам корпусно-структурного анализа, его главным понятиям и «Словарю паттернов английских глаголов». В третьей главе описан эксперимент по составлению словарных статей методами корпусно-структурного анализа, отмечены основные особенности, связанные с системой русского языка, и представлена оценка полученных результатов.
В ходе данной работы мы провели анализ существующих на данный момент словарей валентности для трёх языков. Как один из возможных способов описания, нами был выбран метод анализа корпусного материала, используемый в «Словаре паттернов английских глаголов». Данный метод, корпусный анализ паттернов, основывается на теории норм и эксплуатаций, основные положения и понятия которой представлены во второй части работы.
Основной целью практической части нашего исследования была адаптация метода корпусного анализа паттернов для русского языка. Для этого мы создали пробную версию словаря для 16 глаголов с применением исследуемого метода. В ходе создания нашего словаря мы решили несколько практических проблем, в т.ч. выбрали корпус и способ разметки, определили оптимальный размер выборки. Полученные паттерны мы проанализировали в 2 аспектах: сравнение с размеченной выборкой из другого корпуса и с существующими словарями русского языка. В первом случае мы определили, что в среднем выделенные паттерны охватывают более 90-95% случайной корпусной выборки. Для второй задачи мы провели сопоставительный анализ 4 толковых словарей русского языка: толковый словарь русского языка под ред. Д.Н. Ушакова, словарь русского языка С.И. Ожегова, толковый словарь русского языка под ред. А.П. Евгеньевой и Большой толковый словарь русского языка под ред. С.А. Кузнецова. В результате оказалось, что для всех глаголов полученные паттерны покрывают значения, общие для всех словарей, а в половине случаев – и все словарные значения. С нашей точки зрения, данные результаты доказывают как и эффективность использованного метода применительно к материалу русского языка, так и то, что выбранного размера корпуса достаточно для выделения паттернов.
Более того, мы сделали несколько выводов относительно изменения метода корпусного анализа паттернов для русского языка, основываясь на проведенной работе. Наши замечания касаются как и способа описания, так и самого метода. Мы добавили несколько дополнительных обозначений для представления паттернов в более понятном и компактном виде. Также, с нашей точки зрения, определённые паттерны для русского языка не могут описываться без упоминания морфосинтаксических характеристик. Все предложенные изменения учитывались нами при описании полученных паттернов.
В дальнейшем мы видим несколько путей развития данного исследования. Естественно, можно продолжать работу над созданием словаря. Однако мы считаем, что это трудоемкий процесс, который займет слишком много времени, если продолжать работу вручную. Полезнее всего будет разработка способов автоматизации корпусного анализа паттернов. Во второй главе мы упомянули несколько работ, посвященных этой теме, но на материале английского языка. Мы предполагаем, что автоматизировать можно этап выделения паттернов, но в этом направлении возникает проблема нехватки семантически размеченного корпуса. Поэтому, по-видимому, перед проведением каких-либо экспериментов по автоматическому выделению паттернов необходимо разметить корпус семантическими типами, желательно, также не вручную.
1. Азарова, И.В. RussNet как база представления лексического блока в системах автоматизированного анализа текстов. СПб, 2015.
2. Апресян, Ю.Д. Избранные Труды. Том 1. Лексическая семантика. Синонимические средства языка. М., 1995.
3. Большой толковый словарь русского языка. / Гл. ред. С.А. Кузнецов. СПб, 1998. [Электронный ресурс] URL:http://www.gramota.ru/slovari/info/bts/(дата обращения: 17.04.2017).
4. Гак, В.Г. Валентность // Лингвистический энциклопедический словарь. [Электронный ресурс] URL: http://tapemark.narod.ru/les/079c.html (дата обращения: 17.04.2017).
5. Ляшевская, О.Н. Русский фреймнет: к задаче создания корпусного словаря конструкций / О.Н. Ляшевская, Ю.Л. Кузнецова // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009». Вып. 8 (15). М., 2009.сс. 306-312.
6. Мельчук, И.А. Опыт теории лингвистических моделей «Смысл-Текст». М., 1999.
7. Мельчук, И.А. Толково-комбинаторный словарь современного русского языка / И.А. Мельчук, А.К. Жолковский. Вена, 1984.
8. Национальный корпус русского языка. Семантика. [Электронный ресурс] URL: http://www.ruscorpora.ru/corpora-sem.html (дата доступа: 17.04.2017).
9. О словаре В.А. Тузова. [Электронный ресурс] URL: http://emi.nw.ru/INDEX.html?0/Voc.html (дата доступа: 17.04.2017).
10. Ожегов Сергей Иванович. Словарь русского языка / Гл. ред. С. П. Обнорский. М., 1949. [Электронный ресурс] URL: http://slovarozhegova.ru (дата обращения: 17.04.2017).
11. Русский семантический словарь. IV. Толковый словарь, систематизированный по классам слов и значений / Отв. Ред. Н.Ю. Шведова. М., 2007.
12. Словарь русского языка: В 4-х т. / Под ред. А. П. Евгеньевой. М., 1999. [Электронный ресурс] URL: http://feb-web.ru/feb/mas/mas-abc/default.asp (дата обращения: 17.04.2017).
13. Теньер, Л. Основы структурного синтаксиса. / Пер. с франц. Вступ. ст. и общ. ред. В. Г. Гака. М., 1988.
14. Тестелец, Я. Г. Введение в общий синтаксис. М., 2001.
15. Толковый словарь русских глаголов: Идеографичекое описание. Английские эквиваленты. Синонимы. Антонимы / Под ред. проф. Л.Г. Бабенко. М., 1999.
16. Толковый словарь русского языка: В 4 т. / Под ред. Д. Н. Ушакова. М., 1935—1940. [Электронный ресурс] URL: http://ushakovdictionary.ru (дата обращения: 17.04.2017).
17. Тузов, В.А. Компьютерная семантика русского языка. СПб, 2003.
18. Филлмор, Ч. Дело о падеже // Новое в зарубежной лингвистике. Вып. 10. М., 1981. сс. 369 495.
19. Baisa, V. Software and Data for Corpus Pattern Analysis / VitBaisa, Ismaile El Maarouf, Pavel Rychlý, Adam Rambousek // In Proceedings of the Ninth Workshop on Recent Advances in Slavonic Natural Language Processing. Brno, 2015. pp. 75-86.
20. Benko, V. Aranea: Yet Another Family of (Comparable) Web Corpora. In Petr Sojka, AlešHorák, Ivan Kopeček and Karel Pala (Eds.): Text, Speech and Dialogue. 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings. LNCS 8655.Springer International Publishing Switzerland, 2014. pp. 257-264.
21. Benko, V. Compatible Sketch Grammars for Comparable Corpora. In Andrea Abel, Chiara Vettori, NatasciaRalli (Eds.): Proceedings of the XVI EURALEX International Congress: The User In Focus. 15–19 July 2014. Bolzano/Bozen: Eurac Research, 2014. pp. 417-430.
22. Hanks, P. A Pattern Dictionary for Natural Language Processing / Patrick Hanks, James Pustejovsky // In: Revue Française de linguistiqueappliquée 2005/2 (Vol. X). pp. 63 82.
23. Hanks, P. Corpus Pattern Analysis // In Proceedings of Euralex 2004. Lorient, 2004. pp. 87 97.
24. Hanks, P. Corpus Pattern for Semantic Processing / Patrick Hanks, ElisabettaJezek, Daisuke Kawahara, Octavian Popescu. Beijing, 2015. pp. 12-15.
25. Hanks, P. Lexical analysis. Norms and Exploitations. London, 2013.
26. Hanks, P. The Linguistic Double Helix: Norms and Exploitations // In After Half a Century of Slavonic Natural Language Processing (Festschrift for Karel Pala). Brno, 2009. pp. 63-80.
27. Herbst, T. Detailed Introduction to Patternbank. [Электронный ресурс] URL: http://www.patternbank.uni-erlangen.de/cgi-bin/patternbank.cgi?do=introtxt(дата доступа: 17.04.2017).
28. Herbst, T. A Valency Dictionary of English: A Corpus-Based Analysis of the Complementation Patterns of English Verbs, Nouns and Adjectives. / Thomas Herbst, David Heath, Ian F. Roe, Dieter Götz (eds.). Berlin, 2004.
29. Hlaváčková, D. VerbaLex - New Comprehensive Lexicon of Verb Valencies for Czech / Dana Hlaváčková, AlešHorák // In Computer Treatment of Slavic and East European Languages. Bratislava, 2006. pp. 107-115.
30. Horák, A. Preparing VerbaLex Printed Edition. / AlešHorák, Dana Hlaváčková, Karel Pala // In Seventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013. Brno, 2013. pp. 3-11.
31. Pustejovsky, J. Automated induction of sense in context / James Pustejovsky, Anna Rumshisky, Patrick Hanks // In COLING 2004 Proceedings. Geneva, 2004. pp. 924-931.
32. Rumshisky, A. Constructing a Corpus-based Ontology using Model Bias / Anna Rumshisky, Patrick Hanks, Catherine Havasi, James Pustejovsky // In Proceedings of FLAIRS 2006. Menlo, 2006. pp.327-332.
33. Rumshisky, A. Inducing Sense-Discriminating Context Patterns from Sense-Tagged Corpora / Anna Rumshisky, James Pustejovsky // In Proceedings of LREC 2006. Genoa, 2006. pp. 837-840.
34. Ruppenhofer, J. FrameNet II: Extended Theory and Practice / Josef Ruppenhofer. Michael Ellsworth. Miriam R. L. Petruck. Christopher R. Johnson. Jan Scheffczyk. Berkeley, 2006.
35. WordNet.VerbFrames. [Электронный ресурс] URL: http://wordnet.princeton.edu/man/wninput.5WN.html (дата доступа: 17.04.2017).
36. Žabokrtský Z. Valency Information in VALLEX 2.0: Logical Structure of the Lexicon. / ZdeněkŽabokrtský, MarkétaLopatková. The Prague Bulletin of Mathematical Linguistics, No. 87, 2007. pp. 41-60.