Тема: Разрешение стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. СИНТАКСИЧЕСКАЯ НЕОДНОЗНАЧНОСТЬ В КОНСТРУКЦИЯХ С
СИРКОНСТАНТАМИ 6
1.1 Подходы к синтаксическому компьютерному анализу предложения 7
1.2 Неоднозначные синтаксические конструкции 9
1.3 Омонимичные конструкции с сирконстантами 11
1.3.1 Стрелочная омонимия и ее типы 11
1.3.2 Сирконстанты в синтаксических конструкциях со стрелочной омонимией 12
1.3.3 Роль сирконстантов в неоднозначных синтаксических конструкциях 13
1.4 Онтологическая семантика в контексте разрешения синтаксической неоднозначности
15
1.4.1 Семантические словари для автоматического семантического анализа 16
1.4.2 Компьютерные лингвистические онтологии 17
1.5 Закон Парето в компьютерном моделировании значений лексических единиц в корпусе
текстов 19
Выводы к главе 1 20
Глава 2. МЕТОДЫ РАЗРЕШЕНИЯ СИНТАКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ 21
2.1 Виды методов разрешения синтаксической неоднозначности 22
2.2 Разрешение синтаксической неоднозначности средствами онтологической семантики
30
2.2.1 Инструменты и алгоритмы разработки онтологии 33
2.3 Метод построения выборки лексических единиц в соответствии с законом Парето .... 37
2.4 Метод оценки результатов 38
Выводы к главе 2 38
Глава 3. моделирование НЕОДНОЗНАЧНЫХ КОНСТРУКЦИЙ С СИРКОНСТАНТАМИ . 39
3.1Сбор данных из синтаксического подкорпуса НКРЯ 39
3.1.1 Составление запросов в соответствии с типами конструкций 40
3.1.2 Алгоритм автоматической выгрузки неоднозначных конструкций в из
синтаксического подкорпуса НКРЯ 61
3.2 Алгоритм для получения статистических данных по выбранным из корпуса
конструкциям 63
3.2.1 Построение выборки лексических единиц для компьютерного моделирования
лексических значений 64
3.2.2 Алгоритм построения выборки конструкций на основе выбранных лексических
единиц 65
3.2.3 Загрузка конструкций в корпус-менеджер 66
3.3 Компьютерное моделирование значений лексических единиц в составе неоднозначных
конструкций 67
3.4 Компьютерное моделирование семантических валентностей для разрешения
синтаксической неоднозначности в онтологии AIIRE 71
3.5 Оценка эффективности разрешения неоднозначности 72
Выводы к главе 3 74
Заключение 74
Литература 76
Электронные ресурсы 79
Приложения 81
📖 Введение
Если задача требует учета всех корректных версий синтаксического анализа, то необходимо исследовать способы разрешения неоднозначности путем устранения некорректных версий. В данной работе исследуется один из наиболее распространенных видов синтаксической неоднозначности — стрелочная омонимия в конструкциях с сирконстантами, которая разрешается средствами онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine).
Актуальность темы исследования обусловлена особым интересом исследователей к проблеме синтаксической неоднозначности и методам ее разрешения. Данная задача может решаться не только методами машинного обучения (статистическими или основанными на нейронных сетях, такими как, например, Syntaxnet или Gate, использующие как раз нейронные сети). Такие методы не предполагают участия лингвиста в определении правил, которыми руководствуется система при разрешении неоднозначности, и потому не позволяют ему корректировать их. С другой стороны, можно при¬менять методы компьютерной лингвистики, которые предполагают наличие семантического словаря, онтологии, базы знаний или какого-либо иного лингвистического обеспечения. Они используются семантическим компонентом системы при семантическом анализе и, в частности, обеспечивают выбор семантически допустимых версий синтаксического анализа. Методы компьютерной лингвистики в настоящей задаче востребованы в связи с необходимостью учета всех корректных версий синтаксического анализа в ряде задач автоматического понимания текстов (Natural Language Understanding). К числу этих задач относятся многовариантный машинный перевод, семантический поиск, извлечение фактической информации (fact extraction) и мнений (opinion mining), а также в области синтаксиса как такового и даже в некоторых задачах психолингвистики. Кроме того, задача разрешения синтаксической неоднозначности до сих пор решена лишь частично.
Целью данной работы является определение возможностей онтологической семантики в разрешении стрелочной омонимии в конструкциях с сирконстантами путем экспериментального исследования на материале синтаксически размеченного корпуса текстов на русском языке; оценка трудоемкости и эффективности данного метода. Для достижения данной цели решаются следующие задачи:
1. Создание на основе корпуса репрезентативной выборки употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы.
1.1. Выделение типов и подтипов неоднозначных конструкций с сирконстантами, составление их структурных схем и формулиро-вание на основе схем поисковых запросов к корпусу;
1.2. Разработка средств автоматической выгрузки синтаксически неоднозначных конструкций со стрелочной омонимией из синтаксического подкорпуса Национального Корпуса Русского Языка (далее — НКРЯ), как такого корпуса с синтаксической разметкой, где можно учитывать синтаксические связи и порядок слов при составлении поискового запроса и таким образом получать только те результаты, которые соответствуют цели поиска;
1.3. Обеспечение необходимого и достаточного объема и содержания выборки для исследования методов разрешения стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики; оценки качества работы таких методов: составление частотных словарей лемм каждой части речи из конструкций по каждому запросу, составление выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности.
2. Загрузка созданного репрезентативного корпуса конструкций в корпус- менеджер, обеспечивающий возможность автоматической синтаксичес кой и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначнос ти средствами онтологической семантики.
3. Моделирование понятий, соответствующих значениям лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. Анализ и оценка полученных результатов.
Решение данных задач основано на универсальном лингвистическом процессоре AIIRE, встроенной в него онтологии и инструментах ее редактирования. На основе полученных результатов определяется, в какой мере может быть разрешена неоднозначность данного вида с помощью имеющихся средств онтологической семантики. Объектом исследования являются возможности автоматического разрешения синтаксической неоднозначности в конструкциях со стрелочной омонимией, обусловленной факультативностью сирконстантов, средствами онтологической семантики. Предметом исследования являются характеристики эффективности методов разрешения стрелочной омонимии средствами онтологической семантики в конструкциях различных типов со стрелочной омонимией, обусловленной факультативностью сирконстантов.
Научная новизна полученных результатов заключается в том, что эффективность данного метода разрешения синтаксической неоднозначности средствами онтологической семантики впервые исследуется на репрезентативном корпусе конструкций со стрелочной омонимией, и экспериментально доказывается не только его эффективность, но и то, что в большинстве случаев для корректного автоматического разрешения неоднозначности может быть достаточно привязки концептов, стоящих за значениями лексических единиц, к корректным базовым классам концептов онтологии, и не требуется дополнительная корректировка онтологических отношений, регулирующих семантические валентности.
✅ Заключение
1. была сформирована репрезентативная выборка употреблений русскоязычных конструкций с сирконстантами, характеризующихся стрелочной омонимией, необходимого и достаточного по содержанию и объему для исследования методов и оценки качества их работы
1.1. были выделены типы и подтипы неоднозначных конструкций со стрелочной омонимией с сирконстантами, составлены схемы и на основе них сформулированы поисковые запросы к синтаксическому подкорпусу НКРЯ, в котором осуществлялся поиск;
1.2. были разработаны средства автоматической выгрузки синтаксически неоднозначных конструкций, которые представляют собой алгоритм на языке Python
1.3. был разработан алгоритм на языке Python, который строит частотные словари лемм каждой части речи из конструкций по каждому запросу и составляет выборки конструкций всех типов, содержащих наиболее частотные леммы, необходимой и достаточной по объему для обеспечения статистической достоверности выводов об исследуемых показателях эффективности автоматического разрешения неоднозначности и выдает таким образом репрезентативную выборку достаточного и необходимого объема
2. была осуществлена загрузка созданного репрезентативного корпуса конструкций в корпус-менеджер, обеспечивающий возможность автоматической синтаксической и семантической разметки корпуса при помощи лингвистического процессора, выполняющего разрешение синтаксической неоднозначности средствами онтологической семантики.
3. было выполнено моделирование понятий, соответствующих значениям
лексических единиц, употребляемых в корпусе, в онтологии, с учетом их семантических валентностей, ограничивающих возможности синтаксической интерпретации неоднозначных конструкций; обеспечение корректности версий автоматической синтаксической разметки конструкций лингвистическим процессором путем корректировки и задания семантических отношений на базовых классах концептов онтологии.
4. в конце были приведены анализ и оценка полученных результатов.
Так же была обоснована актуальность исследования путей решения поставленной проблемы синтаксической неоднозначности в конструкциях с сирконстантами, было дано теоретическое описание исследуемой проблемы и выбранного метода ее решения так же, как и обзор других методов; были описаны вспомогательные методы для решения практических задач, был дан обзор различных ресурсов и обоснован выбор лингвистического процессора AIIRE, на базе которого было проведено исследование.



