Введение 3
Глава 1 Моделирование лексического компонента предметной
онтологии 6
1.1 Онтология 6
1.2 Корпусы текстов 6
1.3 Лексический компонент 7
Выводы по главе 1 12
Глава 2 Моделирование лексического компонента предметной
области 15
2.1 Концептуальное пространство 15
2.2 Сочетаемость концептов на уровне предложения 18
Выводы по главе 2 40
Заключение 41
Библиографический список 44
В настоящее время все больший интерес проявляется к проблеме построения лексического компонента онтологии. Это необходимо для обеспечения возможности автоматизации идентификации понятийного содержания текстов предметной области. Для решения этой задачи необходимо создание «золотого стандарта» - концептуально размеченного вручную корпуса текстов, и с этой задачей способен справиться прикладной лингвист.
Актуальность исследования обусловлена несколькими факторами.
Во-первых, поскольку лексический компонент является основой баз знаний для систем автоматической обработки текстов, поэтому мы и будем заниматься его построением.
Во-вторых, функционирование лексического компонента может способствовать улучшению работы систем автоматической обработки текста
Функционирование лексического компонента может способствовать улучшению работы систем автоматической обработки текста
Нами были определены объект и предмет исследования, а также цель и задачи.
В качестве объекта исследования выступают лексические единицы, выражающие релевантные для предметной области «Практическая философия» концепты.
Предметом исследования является особенности распределения единиц лексического компонента в корпусе текстов исследуемой предметной области.
Целью данного исследования является моделирование концептуального пространства текста посредством определения распределения концептов онтологии предметной области «Философская практика» в корпусе научных текстов.
Для достижения поставленной цели решаются следующие задачи:
1. Определение понятий, связанных с исследованием
2. Составление частотных словарей лексических единиц корпуса
3. Полуавтоматизированная разметка корпуса текстов
4. Создание корпуса текстов «золотой стандарт»
5. Анализ распределения концептов в «золотом стандарте»
6. Распределение концептов онтологии по уровням значимости на основании частот их использования соотносимых с ними лексических единиц в корпусе текстов
7. Выявление совместной встречаемости концептов на уровне предложения.
Использованные в работе методы научного исследования обусловлены
поставленными задачами. В частности, были применены следующие методы:
1. Метод сплошной выборки;
2. Моделирование
3. Элементы статистического анализа
4. Онтологический анализ
5. Частотно-дистрибутивный анализ
В качестве материала послужил корпус текстов предметной области «Философская практика», жанр - научная монография, время создания- 2019г.
Для создания золотого стандарта был отобран подкорпус методом сплошной выборки объемом более 24 тыс. словоупотреблений.
Новизна исследования заключается в том, что впервые составлено распределение лексических единиц для моделирования концептуального пространства предметной области «Философская практика», с помощью онтологического анализа была выявлен распределение концептов предметной области «Философская практика», определена расширенная методика онтологического анализа для выявления степени связности концептов между собой
Теоретическая значимость заключается в том, что разработанная методика способствует расширению теории онтологического анализа.
Практическая значимость - полученные результаты можно использовать для составления автоматических лексиконов предметной онтологии, применяемых для работы систем автоматической обработки текстов, а также преподавания технологий корпусной лингвистики и лингвистического программирования.
В первой главе предъявляется и рассматривается репертуар внешних и внутренних, собственных и несобственных функций лексических единиц, также рассматривается корпусный подход к построению концептуального пространства с применением онтологий на примере предметной области «Философская практика». Подход основан на применении частотно-дистрибутивного анализа к лексическим единицам, отображенным на концепты онтологии предметной области, с целью определения значимости и степени связности концептов по их встречаемости в корпусе
Во второй главе концепты онтологии были распределены по уровням значимости на основании частоты их использования в корпусе текстов, была выявлена совместная встречаемость концептов на уровне предложения.
Для достижения поставленной цели, а именно - моделирование концептуального пространства текста посредством определения распределения концептов онтологии предметной области «Философская практика» в корпусе научных текстов, в полном объеме были решены следующие задачи:
- определение понятий, связанных с исследованием;
- составление частотных словарей лексических единиц корпуса;
- полуавтоматизированная разметка текста с целью создания «золотого стандарта»;
- анализ распределения концептов в «золотом стандарте»;
- создание корпуса текстов «золотой стандарт»;
-распределение концептов онтологии по уровням значимости на основании частоты их использования в корпусе текстов;
-выявление совместной встречаемости концептов на уровне предложения.
Результатом проделанной работы стал «золотой стандарт», включающий 4668 размеченные лексические единицы.
Построено распределение лексических единиц, отображаемых на 13 концептов предметной области «Философская практика» ,которые разнятся по уровню значимости и по этому основанию могут быть распределены по зонам : ядерная, приядерная и периферийная.
На основе анализа сочетаемости концептов выявлена корреляция между концептами; по данным корпуса определено, что концепты отличаются по степени связности, сочетаемость концептов обусловлена научной ориентированностью текста.
Предложенная методика построения лексического распределения может быть применена для моделирования концептуального пространства предметной области, и полученные таким образом модели могут быть положены в основу баз знаний для систем автоматической обработки текстов.
Разработанный онтологический ресурс может быть использован переводчиками в качестве справочного материала, а также при обучении переводу.
Собранные данные в будущем могут быть использованы для разработки инструмента машинного перевода и в других задачах, связанных
с автоматической обработкой текста на естественном языке.