Введение: 2
Глава 1. СИНТАКСИЧЕСКАЯ НЕОДНОЗНАЧНОСТЬ В КОНСТРУКЦИЯХ С
СИРКОНСТАНТАМИ 6
1.1 Подходы к синтаксическому компьютерному анализу предложения 7
1.2 Неоднозначные синтаксические конструкции 9
1.3 Омонимичные конструкции с сирконстантами 11
1.3.1 Стрелочная омонимия и ее типы 11
1.3.2 Сирконстанты в синтаксических конструкциях со стрелочной омонимией 12
1.3.3 Роль сирконстантов в неоднозначных синтаксических конструкциях 13
1.4 Онтологическая семантика в контексте разрешения синтаксической неоднозначности
15
1.4.1 Семантические словари для автоматического семантического анализа 16
1.4.2 Компьютерные лингвистические онтологии 17
1.5 Закон Парето в компьютерном моделировании значений лексических единиц в корпусе
текстов 19
Выводы к главе 1 20
Глава 2. МЕТОДЫ РАЗРЕШЕНИЯ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ 21
2.1 Виды методов разрешения синтаксической неоднозначности 22
2.2 Разрешение синтаксической неоднозначности средствами онтологической семантики
30
2.2.1 Инструменты и алгоритмы разработки онтологии 33
2.3 Метод построения выборки лексических единиц в соответствии с законом Парето .... 37
2.4 Метод оценки результатов 38
Выводы к главе 2 38
Глава 3. моделирование НЕОДНОЗНАЧНЫХ КОНСТРУКЦИЙ С СИРКОНСТАНТАМИ . 39
3.1Сбор данных из синтаксического подкорпуса НКРЯ 39
3.1.1 Составление запросов в соответствии с типами конструкций 40
3.1.2 Алгоритм автоматической выгрузки неоднозначных конструкций в из
синтаксического подкорпуса НКРЯ 61
3.2 Алгоритм для получения статистических данных по выбранным из корпуса
конструкциям 63
3.2.1 Построение выборки лексических единиц для компьютерного моделирования
лексических значений 64
3.2.2 Алгоритм построения выборки конструкций на основе выбранных лексических
единиц 65
3.2.3 Загрузка конструкций в корпус-менеджер 66
3.3 Компьютерное моделирование значений лексических единиц в составе неоднозначных
конструкций 67
3.4 Компьютерное моделирование семантических валентностей для разрешения
синтаксической неоднозначности в онтологии AIIRE 71
3.5 Оценка эффективности разрешения неоднозначности 72
Выводы к главе 3 74
Заключение 74
Литература 76
Электронные ресурсы 79
Приложения 81
Синтаксический анализ является важным этапом лингвистического анализа текста, так как именно на данном шаге осуществляется разбор структуры предложения. Вместе с тем, в некоторых случаях можно получить несколько вариантов структуры для одного предложения. Такое явления называется синтаксической неоднозначностью. Одна из основных проблем, связанных с этим явлением — проблема комбинаторного взрыва, суть которого в том, что количество версий возрастает в экспоненциальной зависимости от размера анализируемого текста, вследствие чего машинных ресурсов не хватает для построения и хранения всех версий. Кроме того, подобным образом может быть разобрано не одно и не два предложения, а значительно больше, и тогда производительность парсера снизится, что непосредственно отразится на общем результате обработки текстовых данных.
Если задача требует учета всех корректных версий синтаксического анализа, то необходимо исследовать способы разрешения неоднозначности путем устранения некорректных версий. В данной работе исследуется один из наиболее распространенных видов синтаксической неоднозначности — стрелочная омонимия в конструкциях с сирконстантами, которая разрешается средствами онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine).
Актуальность темы исследования обусловлена особым интересом исследователей к проблеме синтаксической неоднозначности и методам ее разрешения. Данная задача может решаться не только методами машинного обучения (статистическими или основанными на нейронных сетях, такими как, например, Syntaxnet или Gate, использующие как раз нейронные сети). Такие методы не предполагают участия лингвиста в определении правил, которыми руководствуется система при разрешении неоднозначности, и потому не позволяют ему корректировать их. С другой стороны, можно при¬менять методы компьютерной лингвистики, которые предполагают наличие семантического словаря, онтологии, базы знаний или какого-либо иного лингвистического обеспечения. Они используются семантическим компонентом системы при семантическом анализе и, в частности, обеспечивают выбор семантически допустимых версий синтаксического анализа. Методы компьютерной лингвистики в настоящей задаче востребованы в связи с необходимостью учета всех корректных версий синтаксического анализа в ряде задач автоматического понимания текстов (Natural Language Understanding). К числу этих задач относятся многовариантный машинный перевод, семантический поиск, извлечение фактической информации (fact extraction) и мнений (opinion mining), а также в области синтаксиса как такового и даже в некоторых задачах психолингвистики. Кроме того, задача разрешения синтаксической неоднозначности до сих пор решена лишь частично.
Целью данной работы является определение возможностей онтологической семантики в разрешении стрелочной омонимии в конструкциях с сирконстантами путем экспериментального исследования на материале синтаксически размеченного корпуса текстов на русском языке; оценка трудоемкости и эффективности данного метода. Для достижения данной цели решаются следующие задачи:
1. Создание на основе корпуса репрезентативной выборки употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы.
1.1. Выделение типов и подтипов неоднозначных конструкций с сирконстантами, составление их структурных схем и формулиро-вание на основе схем поисковых запросов к корпусу;
1.2. Разработка средств автоматической выгрузки синтаксически неоднозначных конструкций со стрелочной омонимией из синтаксического подкорпуса Национального Корпуса Русского Языка (далее — НКРЯ), как такого корпуса с синтаксической разметкой, где можно учитывать синтаксические связи и порядок слов при составлении поискового запроса и таким образом получать только те результаты, которые соответствуют цели поиска;
1.3. Обеспечение необходимого и достаточного объема и содержания выборки для исследования методов разрешения стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики; оценки качества работы таких методов: составление частотных словарей лемм каждой части речи из конструкций по каждому запросу, составление выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности.
2. Загрузка созданного репрезентативного корпуса конструкций в корпус- менеджер, обеспечивающий возможность автоматической синтаксичес кой и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначнос ти средствами онтологической семантики.
3. Моделирование понятий, соответствующих значениям лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. Анализ и оценка полученных результатов.
Решение данных задач основано на универсальном лингвистическом процессоре AIIRE, встроенной в него онтологии и инструментах ее редактирования. На основе полученных результатов определяется, в какой мере может быть разрешена неоднозначность данного вида с помощью имеющихся средств онтологической семантики. Объектом исследования являются возможности автоматического разрешения синтаксической неоднозначности в конструкциях со стрелочной омонимией, обусловленной факультативностью сирконстантов, средствами онтологической семантики. Предметом исследования являются характеристики эффективности методов разрешения стрелочной омонимии средствами онтологической семантики в конструкциях различных типов со стрелочной омонимией, обусловленной факультативностью сирконстантов.
Научная новизна полученных результатов заключается в том, что эффективность данного метода разрешения синтаксической неоднозначности средствами онтологической семантики впервые исследуется на репрезентативном корпусе конструкций со стрелочной омонимией, и экспериментально доказывается не только его эффективность, но и то, что в большинстве случаев для корректного автоматического разрешения неоднозначности может быть достаточно привязки концептов, стоящих за значениями лексических единиц, к корректным базовым классам концептов онтологии, и не требуется дополнительная корректировка онтологических отношений, регулирующих семантические валентности.
В процессе выполнения данной дипломной работы было проведено экспериментальное исследование возможностей онтологической семантики в разрешении стрелочной омонимии в конструкциях с сирконстантами на материале синтаксически размеченного корпуса текстов на русском языке и была дана оценка трудоемкости и эффективности данного метода. Поставленные цели были достигнуты путем последовательного выполнения ряда необходимых задач:
1. была сформирована репрезентативная выборка употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы
1.1. были выделены типы и подтипы неоднозначных конструкций со стрелочной омонимией с сирконстантами, составлены схемы и на основе них сформулированы поисковые запросы к синтаксическому подкорпусу НКРЯ, в котором осуществлялся поиск;
1.2. были разработаны средства автоматической выгрузки синтаксически неоднозначных конструкций, которые представляют собой алгоритм на языке Python
1.3. был разработан алгоритм на языке Python, который строит частотные словари лемм каждой части речи из конструкций по каждому запросу и составляет выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности и выдает таким образом репрезентативную выборку достаточного и необходимого объема
2. была осуществлена загрузка созданного репрезентативного корпуса конструкций в корпус-менеджер, обеспечивающий возможность автоматической синтаксической и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначности средствами онтологической семантики.
3. было выполнено моделирование понятий, соответствующих значениям
лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. в конце были приведены анализ и оценка полученных результатов.
Так же была обоснована актуальность исследования путей решения поставленной проблемы синтаксической неоднозначности в конструкциях с сирконстантами, было дано теоретическое описание исследуемой проблемы и выбранного метода ее решения так же, как и обзор других методов; были описаны вспомогательные методы для решения практических задач, был дан обзор различных ресурсов и обоснован выбор лингвистического процессора AIIRE, на базе которого было проведено исследование.
1. Чернова Д.А. моделирование синтаксически неоднозначных предложений: психолингвистическое исследование — Дисс. ...
кандидат филологические науки — Санкт-Петербург: Санкт-Петербургский государственный университет, 2016
2. Федорова О.В., Янович И.С. Разрешение синтаксической неоднозначности в русском языке: роль длины и структуры подчиненного. Диалог—2005. E.V.
3. Шкурко E. B. Синтаксическая омонимия и способы предупреждения ее возникновения. — Днепропетровский национальный университет 2007, УДК 811.161.1'367.332
4. Yusuke Miyao, Jun'ichi Tsujii «A model of syntactic disambiguation based on lexicalized grammars«. Department of Computer Science, University of Tokyo 2003
5. Khalil Sima'an «ON MAXIMIZING METRICS FOR SYNTACTIC DIS-AMBIGUATION». Language and Inference Technology Group Institute for Logic, Language and Computation (ILLC) University of Amsterdam, The Netherlands 2003
6. Jakub Zavrel, Walter Daelemans, Jorn Veenstra «Resolving PP attachment Ambiguities with Memory-Based Learning». Computational Linguistics, Tilburg University PO Box 90153, 5000 LE Tilburg, The Netherlands 1997
7. А. Добров. Коллективная монография «Прикладная и компьютерная лингвистика». ЛЕНАНД. 2016. 35-58.
8. Daniel Jurafsky A. Probabilistic Model of Lexical and Syntactic Access and Disambiguation. Cognitive science, 1996, 20 137-194
9. Richard Johansson, Pierre Nugue Dependency-based syntactic-semantic analysis with PropBank and NomBank. Proceeding CoNLL 08 Proceedings of the Twelfth Conference on Computational Natural Language Learning 183-187, 2008
10. Наталья Гаранина, Елена Сидорова Контекстно—зависимая лексико-синтаксическая неоднозначность в популяции идеологов Институт информатики им. А.П. Ершова, пр. Лаврентьева, 6, Новосибирск 630090, Россия, 2016
11. Philipp Cimiano, Uwe Reyle Ontology-based semantic construction, under-specification and disambiguation 2003
12. Alexander F. Gelbukh Lexical, Syntactic, and Referencial Disambiguation Using a Semantic Network Dictionary Natural Language Processing Labora¬tory, Centro de Investigacion en Computacion, Institute Politecnico Nacion- al. 07738 Mexico D.F. 1998
13. Tatu J Ylonen Joint disambiguation of syntactic and semantic ambiguity Clausal Computing Oy, Helsinki (FI) 2011
14. А. Добров. Автоматическая рубрикация новостных сообщений с помощью синтаксической семантики. Дисс. ... кандидат Филологические науки — СПб: СПбГУ, 2014
15.Окатьев В.В., Гергель В.П., Алексеев В.Е., Таланов В.А., Баркалов К.А., Скатов Д.С., Ерехинская Т.Н., Котов А.Е., Титова А.В., с. Отчет о выполнении НИОКР по теме: «Разработка пилотной версии системы синтаксического анализа русского языка» (инвентарный номер ВНТИЦ 02200803750) — М .: ВНТИЦ, 2008
16. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах связи — М .: Наука, 1985
17. Митренина О.В. Проблемы разбора неоднозначности. Дисс. ... кандидат Филологические науки — СПБ: СПбГУ, 2005
18. Добров А.В. Semantic and Ontological Relations in AIIRE Language Pro-cessor. Computational Models for Business and Engineering Domains. — ITHEA, Rzeszow-Sofia 2014
19. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы — М.: Academia, 2006
20. Алпатов В. М. История лингвистических учений. Учебное пособие. 2-е изд., испр. — М.: «Языки русской культуры» , 1999.
21. Теньер Л. Основы структурного синтаксиса—М.: «Прогресс» , 1988
22. Ярцева В.Н. Лингвистический энциклопедический словарь — М.: «Советская энциклопедия» , 1990
23. Neches R., Fikes R.E., Finin T., Gruber T.R. Patil, R. Senator T.,Swartout W.R. Enabling technology for knowledge sharing // AI Magazine. 1991. Vol. 12, №3, pp. 16-36
24. Nirenburg S., Raskin V. Ontological Semantics. Cambridge, MA, 2004
25. Gruber T.R. A translation approach to portable ontology specifications // Knowledge Acquisition, 5 (2), 1993
26. Мельчук И.А. Толково-комбинаторный словарь. — Russian Language Journal, 1984,38:129/130,189-198
27. Леонтьева Н.Н. Леонтьева Н.Н. Автоматическое понимание текстов Системы модели ресурсов — Академия, 2006. — 153 c. ISBN 5-7695¬1842-1
28. П. Л. Гроховский, А. В. Добров, А. Е. Доброва, Н. Л. Сомс Корпус- менеджер для морфосинтаксической разметки: опыт разработки корпуса тибетских грамматических сочинений — Труды международной конференции «Корпусная лингвистика-2017». — СПб.: Изд-во С.-Петерб. Ун-та, 2017. — 340 с.
29. Азарова И. В., Браславский П. И., Захаров В. П., Киселев Ю. А., Усталов Д. А., Хохлова М. В. Идентификация единиц тезаурусного описания при интеграции лексических ресурсов RussNet и YARN — Структурная и прикладная лингвистика: межвуз. сб. С83 Вып. 12: К 60- летию отделения прикладной, компьютерной и математической лингвистики СПбГУ / отв. ред. И. С. Николаев. — СПб.: Изд-во С.- Петерб. Ун-та, 2018. — 34 с.
30. Азарова И.В., Синопальникова А.А., Яворская М.В.Принципы
построения WordNet-тезауруса RussNet — материалы конференции Диалог 2004.
31. Годгильева М.М. Корпусно-структурный анализ как инструмент полуавтоматического явления значений и семантических валентностей глаголов русского языка — ВКР СПБГУ Санкт-Петербург 2017.
Электронные ресурсы
1. НКРЯ: Национальный корпус русского языка 2019[Электронный ресурс].
В. Дубнов Последний председатель URL: http://www.ruscorpora.ru (дата обращения 02.07.2019)
2. НКРЯ: Национальный корпус русского языка 2019 [Электронный ресурс]. Н. Добрецов На перекрестках всех миров URL: http: //www.ruscorpora.ru (дата обращения 02.07.2019)
3. НКРЯ: Национальный корпус русского языка 2019[Электронный ресурс]. Я. Е. Григорьевич Не в то ВТО URL: http://www.ruscorpora.ru (дата обращения 02.07.2019)
4. НКРЯ: Национальный корпус русского языка 2019[Электронный ресурс]. М. Ходорковский Левый поворот URL: http://www.ruscorpora.ru (дата обращения 02.07.2019)
5. НКРЯ: Национальный корпус русского языка 2019[Электронный ресурс]. Б. Руденко Все возрасты равны URL: http: //www.ruscorpora. ru (дата обращения 02.07.2019)
6. Конвенции и методики по работе с онтологией AIIRE [Электронный ресурс] URL: http: //ontology.aiire. org/static/conventions .html (дата обращения 05.09.2019)
7. Методика моделирования отношений в AIIRE [Электронный ресурс] URL:https://docs.google.com/document/d/1- 77ZqkCT0MfDV8zq6HkpSYWwM0S 8lpsNYta3gk5IbM/edit?skip itp2 ch eck=true#heading=h. g9ko9rpyn5gc (дата обращения 06.09.2019)
8. RussNet [Электронный ресурс] URL:http://ct05647.tmweb.ru/russnet/дата (обращения: 06.05.2020)
9. WordNet [Электронный ресурс] URL:www.wordnet.ru (дата обращения: 06.05.2020) и URL :https://wordnet.princeton.edu/obtain (дата обращения: 06.05.2020)
10. YARN [Электронный ресурс] URL : https: //russianword.net/ (дата
обращения 06.05.20) URL:https://russianword.net/yarn.xml (дата обращения 06.05.20)