Разрешение стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики
|
Введение: 2
Глава 1. СИНТАКСИЧЕСКАЯ НЕОДНОЗНАЧНОСТЬ В КОНСТРУКЦИЯХ С
СИРКОНСТАНТАМИ 6
1.1 Подходы к синтаксическому компьютерному анализу предложения 7
1.2 Неоднозначные синтаксические конструкции 9
1.3 Омонимичные конструкции с сирконстантами 11
1.3.1 Стрелочная омонимия и ее типы 11
1.3.2 Сирконстанты в синтаксических конструкциях со стрелочной омонимией 12
1.3.3 Роль сирконстантов в неоднозначных синтаксических конструкциях 13
1.4 Онтологическая семантика в контексте разрешения синтаксической неоднозначности
15
1.4.1 Семантические словари для автоматического семантического анализа 16
1.4.2 Компьютерные лингвистические онтологии 17
1.5 Закон Парето в компьютерном моделировании значений лексических единиц в корпусе
текстов 19
Выводы к главе 1 20
Глава 2. МЕТОДЫ РАЗРЕШЕНИЯ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ 21
2.1 Виды методов разрешения синтаксической неоднозначности 22
2.2 Разрешение синтаксической неоднозначности средствами онтологической семантики
30
2.2.1 Инструменты и алгоритмы разработки онтологии 33
2.3 Метод построения выборки лексических единиц в соответствии с законом Парето .... 37
2.4 Метод оценки результатов 38
Выводы к главе 2 38
Глава 3. моделирование НЕОДНОЗНАЧНЫХ КОНСТРУКЦИЙ С СИРКОНСТАНТАМИ . 39
3.1Сбор данных из синтаксического подкорпуса НКРЯ 39
3.1.1 Составление запросов в соответствии с типами конструкций 40
3.1.2 Алгоритм автоматической выгрузки неоднозначных конструкций в из
синтаксического подкорпуса НКРЯ 61
3.2 Алгоритм для получения статистических данных по выбранным из корпуса
конструкциям 63
3.2.1 Построение выборки лексических единиц для компьютерного моделирования
лексических значений 64
3.2.2 Алгоритм построения выборки конструкций на основе выбранных лексических
единиц 65
3.2.3 Загрузка конструкций в корпус-менеджер 66
3.3 Компьютерное моделирование значений лексических единиц в составе неоднозначных
конструкций 67
3.4 Компьютерное моделирование семантических валентностей для разрешения
синтаксической неоднозначности в онтологии AIIRE 71
3.5 Оценка эффективности разрешения неоднозначности 72
Выводы к главе 3 74
Заключение 74
Литература 76
Электронные ресурсы 79
Приложения 81
Глава 1. СИНТАКСИЧЕСКАЯ НЕОДНОЗНАЧНОСТЬ В КОНСТРУКЦИЯХ С
СИРКОНСТАНТАМИ 6
1.1 Подходы к синтаксическому компьютерному анализу предложения 7
1.2 Неоднозначные синтаксические конструкции 9
1.3 Омонимичные конструкции с сирконстантами 11
1.3.1 Стрелочная омонимия и ее типы 11
1.3.2 Сирконстанты в синтаксических конструкциях со стрелочной омонимией 12
1.3.3 Роль сирконстантов в неоднозначных синтаксических конструкциях 13
1.4 Онтологическая семантика в контексте разрешения синтаксической неоднозначности
15
1.4.1 Семантические словари для автоматического семантического анализа 16
1.4.2 Компьютерные лингвистические онтологии 17
1.5 Закон Парето в компьютерном моделировании значений лексических единиц в корпусе
текстов 19
Выводы к главе 1 20
Глава 2. МЕТОДЫ РАЗРЕШЕНИЯ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ 21
2.1 Виды методов разрешения синтаксической неоднозначности 22
2.2 Разрешение синтаксической неоднозначности средствами онтологической семантики
30
2.2.1 Инструменты и алгоритмы разработки онтологии 33
2.3 Метод построения выборки лексических единиц в соответствии с законом Парето .... 37
2.4 Метод оценки результатов 38
Выводы к главе 2 38
Глава 3. моделирование НЕОДНОЗНАЧНЫХ КОНСТРУКЦИЙ С СИРКОНСТАНТАМИ . 39
3.1Сбор данных из синтаксического подкорпуса НКРЯ 39
3.1.1 Составление запросов в соответствии с типами конструкций 40
3.1.2 Алгоритм автоматической выгрузки неоднозначных конструкций в из
синтаксического подкорпуса НКРЯ 61
3.2 Алгоритм для получения статистических данных по выбранным из корпуса
конструкциям 63
3.2.1 Построение выборки лексических единиц для компьютерного моделирования
лексических значений 64
3.2.2 Алгоритм построения выборки конструкций на основе выбранных лексических
единиц 65
3.2.3 Загрузка конструкций в корпус-менеджер 66
3.3 Компьютерное моделирование значений лексических единиц в составе неоднозначных
конструкций 67
3.4 Компьютерное моделирование семантических валентностей для разрешения
синтаксической неоднозначности в онтологии AIIRE 71
3.5 Оценка эффективности разрешения неоднозначности 72
Выводы к главе 3 74
Заключение 74
Литература 76
Электронные ресурсы 79
Приложения 81
Синтаксический анализ является важным этапом лингвистического анализа текста, так как именно на данном шаге осуществляется разбор структуры предложения. Вместе с тем, в некоторых случаях можно получить несколько вариантов структуры для одного предложения. Такое явления называется синтаксической неоднозначностью. Одна из основных проблем, связанных с этим явлением — проблема комбинаторного взрыва, суть которого в том, что количество версий возрастает в экспоненциальной зависимости от размера анализируемого текста, вследствие чего машинных ресурсов не хватает для построения и хранения всех версий. Кроме того, подобным образом может быть разобрано не одно и не два предложения, а значительно больше, и тогда производительность парсера снизится, что непосредственно отразится на общем результате обработки текстовых данных.
Если задача требует учета всех корректных версий синтаксического анализа, то необходимо исследовать способы разрешения неоднозначности путем устранения некорректных версий. В данной работе исследуется один из наиболее распространенных видов синтаксической неоднозначности — стрелочная омонимия в конструкциях с сирконстантами, которая разрешается средствами онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine).
Актуальность темы исследования обусловлена особым интересом исследователей к проблеме синтаксической неоднозначности и методам ее разрешения. Данная задача может решаться не только методами машинного обучения (статистическими или основанными на нейронных сетях, такими как, например, Syntaxnet или Gate, использующие как раз нейронные сети). Такие методы не предполагают участия лингвиста в определении правил, которыми руководствуется система при разрешении неоднозначности, и потому не позволяют ему корректировать их. С другой стороны, можно при¬менять методы компьютерной лингвистики, которые предполагают наличие семантического словаря, онтологии, базы знаний или какого-либо иного лингвистического обеспечения. Они используются семантическим компонентом системы при семантическом анализе и, в частности, обеспечивают выбор семантически допустимых версий синтаксического анализа. Методы компьютерной лингвистики в настоящей задаче востребованы в связи с необходимостью учета всех корректных версий синтаксического анализа в ряде задач автоматического понимания текстов (Natural Language Understanding). К числу этих задач относятся многовариантный машинный перевод, семантический поиск, извлечение фактической информации (fact extraction) и мнений (opinion mining), а также в области синтаксиса как такового и даже в некоторых задачах психолингвистики. Кроме того, задача разрешения синтаксической неоднозначности до сих пор решена лишь частично.
Целью данной работы является определение возможностей онтологической семантики в разрешении стрелочной омонимии в конструкциях с сирконстантами путем экспериментального исследования на материале синтаксически размеченного корпуса текстов на русском языке; оценка трудоемкости и эффективности данного метода. Для достижения данной цели решаются следующие задачи:
1. Создание на основе корпуса репрезентативной выборки употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы.
1.1. Выделение типов и подтипов неоднозначных конструкций с сирконстантами, составление их структурных схем и формулиро-вание на основе схем поисковых запросов к корпусу;
1.2. Разработка средств автоматической выгрузки синтаксически неоднозначных конструкций со стрелочной омонимией из синтаксического подкорпуса Национального Корпуса Русского Языка (далее — НКРЯ), как такого корпуса с синтаксической разметкой, где можно учитывать синтаксические связи и порядок слов при составлении поискового запроса и таким образом получать только те результаты, которые соответствуют цели поиска;
1.3. Обеспечение необходимого и достаточного объема и содержания выборки для исследования методов разрешения стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики; оценки качества работы таких методов: составление частотных словарей лемм каждой части речи из конструкций по каждому запросу, составление выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности.
2. Загрузка созданного репрезентативного корпуса конструкций в корпус- менеджер, обеспечивающий возможность автоматической синтаксичес кой и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначнос ти средствами онтологической семантики.
3. Моделирование понятий, соответствующих значениям лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. Анализ и оценка полученных результатов.
Решение данных задач основано на универсальном лингвистическом процессоре AIIRE, встроенной в него онтологии и инструментах ее редактирования. На основе полученных результатов определяется, в какой мере может быть разрешена неоднозначность данного вида с помощью имеющихся средств онтологической семантики. Объектом исследования являются возможности автоматического разрешения синтаксической неоднозначности в конструкциях со стрелочной омонимией, обусловленной факультативностью сирконстантов, средствами онтологической семантики. Предметом исследования являются характеристики эффективности методов разрешения стрелочной омонимии средствами онтологической семантики в конструкциях различных типов со стрелочной омонимией, обусловленной факультативностью сирконстантов.
Научная новизна полученных результатов заключается в том, что эффективность данного метода разрешения синтаксической неоднозначности средствами онтологической семантики впервые исследуется на репрезентативном корпусе конструкций со стрелочной омонимией, и экспериментально доказывается не только его эффективность, но и то, что в большинстве случаев для корректного автоматического разрешения неоднозначности может быть достаточно привязки концептов, стоящих за значениями лексических единиц, к корректным базовым классам концептов онтологии, и не требуется дополнительная корректировка онтологических отношений, регулирующих семантические валентности.
Если задача требует учета всех корректных версий синтаксического анализа, то необходимо исследовать способы разрешения неоднозначности путем устранения некорректных версий. В данной работе исследуется один из наиболее распространенных видов синтаксической неоднозначности — стрелочная омонимия в конструкциях с сирконстантами, которая разрешается средствами онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine).
Актуальность темы исследования обусловлена особым интересом исследователей к проблеме синтаксической неоднозначности и методам ее разрешения. Данная задача может решаться не только методами машинного обучения (статистическими или основанными на нейронных сетях, такими как, например, Syntaxnet или Gate, использующие как раз нейронные сети). Такие методы не предполагают участия лингвиста в определении правил, которыми руководствуется система при разрешении неоднозначности, и потому не позволяют ему корректировать их. С другой стороны, можно при¬менять методы компьютерной лингвистики, которые предполагают наличие семантического словаря, онтологии, базы знаний или какого-либо иного лингвистического обеспечения. Они используются семантическим компонентом системы при семантическом анализе и, в частности, обеспечивают выбор семантически допустимых версий синтаксического анализа. Методы компьютерной лингвистики в настоящей задаче востребованы в связи с необходимостью учета всех корректных версий синтаксического анализа в ряде задач автоматического понимания текстов (Natural Language Understanding). К числу этих задач относятся многовариантный машинный перевод, семантический поиск, извлечение фактической информации (fact extraction) и мнений (opinion mining), а также в области синтаксиса как такового и даже в некоторых задачах психолингвистики. Кроме того, задача разрешения синтаксической неоднозначности до сих пор решена лишь частично.
Целью данной работы является определение возможностей онтологической семантики в разрешении стрелочной омонимии в конструкциях с сирконстантами путем экспериментального исследования на материале синтаксически размеченного корпуса текстов на русском языке; оценка трудоемкости и эффективности данного метода. Для достижения данной цели решаются следующие задачи:
1. Создание на основе корпуса репрезентативной выборки употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы.
1.1. Выделение типов и подтипов неоднозначных конструкций с сирконстантами, составление их структурных схем и формулиро-вание на основе схем поисковых запросов к корпусу;
1.2. Разработка средств автоматической выгрузки синтаксически неоднозначных конструкций со стрелочной омонимией из синтаксического подкорпуса Национального Корпуса Русского Языка (далее — НКРЯ), как такого корпуса с синтаксической разметкой, где можно учитывать синтаксические связи и порядок слов при составлении поискового запроса и таким образом получать только те результаты, которые соответствуют цели поиска;
1.3. Обеспечение необходимого и достаточного объема и содержания выборки для исследования методов разрешения стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики; оценки качества работы таких методов: составление частотных словарей лемм каждой части речи из конструкций по каждому запросу, составление выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности.
2. Загрузка созданного репрезентативного корпуса конструкций в корпус- менеджер, обеспечивающий возможность автоматической синтаксичес кой и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначнос ти средствами онтологической семантики.
3. Моделирование понятий, соответствующих значениям лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. Анализ и оценка полученных результатов.
Решение данных задач основано на универсальном лингвистическом процессоре AIIRE, встроенной в него онтологии и инструментах ее редактирования. На основе полученных результатов определяется, в какой мере может быть разрешена неоднозначность данного вида с помощью имеющихся средств онтологической семантики. Объектом исследования являются возможности автоматического разрешения синтаксической неоднозначности в конструкциях со стрелочной омонимией, обусловленной факультативностью сирконстантов, средствами онтологической семантики. Предметом исследования являются характеристики эффективности методов разрешения стрелочной омонимии средствами онтологической семантики в конструкциях различных типов со стрелочной омонимией, обусловленной факультативностью сирконстантов.
Научная новизна полученных результатов заключается в том, что эффективность данного метода разрешения синтаксической неоднозначности средствами онтологической семантики впервые исследуется на репрезентативном корпусе конструкций со стрелочной омонимией, и экспериментально доказывается не только его эффективность, но и то, что в большинстве случаев для корректного автоматического разрешения неоднозначности может быть достаточно привязки концептов, стоящих за значениями лексических единиц, к корректным базовым классам концептов онтологии, и не требуется дополнительная корректировка онтологических отношений, регулирующих семантические валентности.
В процессе выполнения данной дипломной работы было проведено экспериментальное исследование возможностей онтологической семантики в разрешении стрелочной омонимии в конструкциях с сирконстантами на материале синтаксически размеченного корпуса текстов на русском языке и была дана оценка трудоемкости и эффективности данного метода. Поставленные цели были достигнуты путем последовательного выполнения ряда необходимых задач:
1. была сформирована репрезентативная выборка употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы
1.1. были выделены типы и подтипы неоднозначных конструкций со стрелочной омонимией с сирконстантами, составлены схемы и на основе них сформулированы поисковые запросы к синтаксическому подкорпусу НКРЯ, в котором осуществлялся поиск;
1.2. были разработаны средства автоматической выгрузки синтаксически неоднозначных конструкций, которые представляют собой алгоритм на языке Python
1.3. был разработан алгоритм на языке Python, который строит частотные словари лемм каждой части речи из конструкций по каждому запросу и составляет выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности и выдает таким образом репрезентативную выборку достаточного и необходимого объема
2. была осуществлена загрузка созданного репрезентативного корпуса конструкций в корпус-менеджер, обеспечивающий возможность автоматической синтаксической и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначности средствами онтологической семантики.
3. было выполнено моделирование понятий, соответствующих значениям
лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. в конце были приведены анализ и оценка полученных результатов.
Так же была обоснована актуальность исследования путей решения поставленной проблемы синтаксической неоднозначности в конструкциях с сирконстантами, было дано теоретическое описание исследуемой проблемы и выбранного метода ее решения так же, как и обзор других методов; были описаны вспомогательные методы для решения практических задач, был дан обзор различных ресурсов и обоснован выбор лингвистического процессора AIIRE, на базе которого было проведено исследование.
1. была сформирована репрезентативная выборка употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы
1.1. были выделены типы и подтипы неоднозначных конструкций со стрелочной омонимией с сирконстантами, составлены схемы и на основе них сформулированы поисковые запросы к синтаксическому подкорпусу НКРЯ, в котором осуществлялся поиск;
1.2. были разработаны средства автоматической выгрузки синтаксически неоднозначных конструкций, которые представляют собой алгоритм на языке Python
1.3. был разработан алгоритм на языке Python, который строит частотные словари лемм каждой части речи из конструкций по каждому запросу и составляет выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности и выдает таким образом репрезентативную выборку достаточного и необходимого объема
2. была осуществлена загрузка созданного репрезентативного корпуса конструкций в корпус-менеджер, обеспечивающий возможность автоматической синтаксической и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначности средствами онтологической семантики.
3. было выполнено моделирование понятий, соответствующих значениям
лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. в конце были приведены анализ и оценка полученных результатов.
Так же была обоснована актуальность исследования путей решения поставленной проблемы синтаксической неоднозначности в конструкциях с сирконстантами, было дано теоретическое описание исследуемой проблемы и выбранного метода ее решения так же, как и обзор других методов; были описаны вспомогательные методы для решения практических задач, был дан обзор различных ресурсов и обоснован выбор лингвистического процессора AIIRE, на базе которого было проведено исследование.



