КОРПУСНО-СТРУКТУРНЫЙ АНАЛИЗ КАК ИНСТРУМЕНТ ПОЛУАВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ ЗНАЧЕНИЙ И СЕМАНТИЧЕСКИХ ВАЛЕНТНОСТЕЙ ГЛАГОЛОВ РУССКОГО ЯЗЫКА
|
Введение
Глава 1. Валентность и её представление в словарях
Глава 2. Корпусно-структурный анализ
Глава 3. Создание словаря
Заключение
Список литературы
Приложение
Глава 1. Валентность и её представление в словарях
Глава 2. Корпусно-структурный анализ
Глава 3. Создание словаря
Заключение
Список литературы
Приложение
Информация о значении слов и их семантической сочетаемости необходима во многих областях как теоретической, так и прикладной лингвистики. В теории это один из важных элементов описания системы и лексикона языка, на практике же подобные сведения могут пригодиться для разных задач, к примеру, машинный перевод, информационный поиск, выделение темы текста и др. Во всех случаях необходим ресурс, содержащий сведения о семантике слов. Для русского языка существует достаточное количество толковых словарей, описывающих значения и оттенки значений слов и частично - их сочетаемость, но, к сожалению, подобные словари почти бесполезны при автоматической обработке текста. Таким образом, возникает потребность в словаре другого типа, словаре, который можно было бы использовать в компьютерных технологиях. Подобный словарь должен содержать объективную, формализованную информацию о значении слова, его рамках валентности (и синтаксической, и семантической), о словах, часто встречающихся в его окружении, возможных идиомах.
На настоящее время создано и/или находится в разработке большое количество электронных ресурсов, полностью или частично отвечающих нашим целям. Для русского языка можно упомянуть Толково-комбинаторный словарь [7], семантический словарь Тузова, проекты RussNet [1], FrameBank. В данной работе мы решили воспользоваться опытом и методами создания словаря Pattern Dictionary of English Verbs . На данный момент в словаре описана семантическая сочетаемость и значения около 2000 английский глаголов. Словарь составляется на основе метода корпусно-структурного анализа (Corpus Pattern Analysis, CPA), который в свою очередь опирается на теорию норм и эксплуатация (Theory of Norms and Exploitations, TNE). Можно выделить главные особенности данного подхода:
• выделение значений на основе семантического контекста глаголов;
• анализ нормативных употреблений глагола.
Корпусно-структурный анализ позволяет по выборке из корпуса описать различные семантические валентности глагола, сопоставить их с его значениями, определить их относительную частоту. При этом итоговое описание легко представляется в форме, пригодной для автоматического анализа.
Целью данного исследования является адаптация для русского языка методики выделения значений и семантической валентности глаголов по корпусным данным путём создания прототипа словаря.
Для достижения поставленной цели было необходимо решить следующие теоретические и практические задачи:
1) описать основные понятия и теоретические основы корпусно-структурного анализа;
2) адаптировать метод для русского языка;
3) составить пробный словарь;
4) оценить эффективность метода.
Объектом исследования являются семантика глаголов русского языка. Предмет исследования - семантическая валентность глаголов и её связь с их значениями. Материалом исследования является корпус Araneum Russicum Minus и Национальный корпус русского языка.
Теоретическая значимость работы определяется подробным описанием методики, не используемой ранее на материале русского языка, и анализом её эффективности. Практическая значимость данного исследования заключается в том, что полученные результаты могут составить основу для создания словаря валентностей русского языка, пригодного для использования как в теоретических, так и в практических целях.
Данная работа состоит из введения, трёх глав, заключения, списка литературы из 40 названий и 2 приложений. В первой главе описываются теоретические вопросы, связанные с описанием семантики глаголов русского языка и существующие ресурсы для английского, чешского и русского языков. Вторая глава посвящена теоретическим основам корпусно-структурного анализа, его главным понятиям и «Словарю паттернов английских глаголов». В третьей главе описан эксперимент по составлению словарных статей методами корпусно-структурного анализа, отмечены основные особенности, связанные с системой русского языка, и представлена оценка полученных результатов.
На настоящее время создано и/или находится в разработке большое количество электронных ресурсов, полностью или частично отвечающих нашим целям. Для русского языка можно упомянуть Толково-комбинаторный словарь [7], семантический словарь Тузова, проекты RussNet [1], FrameBank. В данной работе мы решили воспользоваться опытом и методами создания словаря Pattern Dictionary of English Verbs . На данный момент в словаре описана семантическая сочетаемость и значения около 2000 английский глаголов. Словарь составляется на основе метода корпусно-структурного анализа (Corpus Pattern Analysis, CPA), который в свою очередь опирается на теорию норм и эксплуатация (Theory of Norms and Exploitations, TNE). Можно выделить главные особенности данного подхода:
• выделение значений на основе семантического контекста глаголов;
• анализ нормативных употреблений глагола.
Корпусно-структурный анализ позволяет по выборке из корпуса описать различные семантические валентности глагола, сопоставить их с его значениями, определить их относительную частоту. При этом итоговое описание легко представляется в форме, пригодной для автоматического анализа.
Целью данного исследования является адаптация для русского языка методики выделения значений и семантической валентности глаголов по корпусным данным путём создания прототипа словаря.
Для достижения поставленной цели было необходимо решить следующие теоретические и практические задачи:
1) описать основные понятия и теоретические основы корпусно-структурного анализа;
2) адаптировать метод для русского языка;
3) составить пробный словарь;
4) оценить эффективность метода.
Объектом исследования являются семантика глаголов русского языка. Предмет исследования - семантическая валентность глаголов и её связь с их значениями. Материалом исследования является корпус Araneum Russicum Minus и Национальный корпус русского языка.
Теоретическая значимость работы определяется подробным описанием методики, не используемой ранее на материале русского языка, и анализом её эффективности. Практическая значимость данного исследования заключается в том, что полученные результаты могут составить основу для создания словаря валентностей русского языка, пригодного для использования как в теоретических, так и в практических целях.
Данная работа состоит из введения, трёх глав, заключения, списка литературы из 40 названий и 2 приложений. В первой главе описываются теоретические вопросы, связанные с описанием семантики глаголов русского языка и существующие ресурсы для английского, чешского и русского языков. Вторая глава посвящена теоретическим основам корпусно-структурного анализа, его главным понятиям и «Словарю паттернов английских глаголов». В третьей главе описан эксперимент по составлению словарных статей методами корпусно-структурного анализа, отмечены основные особенности, связанные с системой русского языка, и представлена оценка полученных результатов.
В ходе данной работы мы провели анализ существующих на данный момент словарей валентности для трёх языков. Как один из возможных способов описания, нами был выбран метод анализа корпусного материала, используемый в «Словаре паттернов английских глаголов». Данный метод, корпусный анализ паттернов, основывается на теории норм и эксплуатаций, основные положения и понятия которой представлены во второй части работы.
Основной целью практической части нашего исследования была адаптация метода корпусного анализа паттернов для русского языка. Для этого мы создали пробную версию словаря для 16 глаголов с применением исследуемого метода. В ходе создания нашего словаря мы решили несколько практических проблем, в т.ч. выбрали корпус и способ разметки, определили оптимальный размер выборки. Полученные паттерны мы проанализировали в 2 аспектах: сравнение с размеченной выборкой из другого корпуса и с существующими словарями русского языка. В первом случае мы определили, что в среднем выделенные паттерны охватывают более 90-95% случайной корпусной выборки. Для второй задачи мы провели сопоставительный анализ 4 толковых словарей русского языка: толковый словарь русского языка под ред. Д.Н. Ушакова, словарь русского языка С.И. Ожегова, толковый словарь русского языка под ред. А.П. Евгеньевой и Большой толковый словарь русского языка под ред. С.А. Кузнецова. В результате оказалось, что для всех глаголов полученные паттерны покрывают значения, общие для всех словарей, а в половине случаев - и все словарные значения. С нашей точки зрения, данные результаты доказывают как и эффективность использованного метода применительно к материалу русского языка, так и то, что выбранного размера корпуса достаточно для выделения паттернов.
Более того, мы сделали несколько выводов относительно изменения метода корпусного анализа паттернов для русского языка, основываясь на проведенной работе. Наши замечания касаются как и способа описания, так и самого метода. Мы добавили несколько дополнительных обозначений для представления паттернов в более понятном и компактном виде. Также, с нашей точки зрения, определённые паттерны для русского языка не могут описываться без упоминания морфосинтаксических характеристик. Все предложенные изменения учитывались нами при описании полученных паттернов.
В дальнейшем мы видим несколько путей развития данного исследования. Естественно, можно продолжать работу над созданием словаря. Однако мы считаем, что это трудоемкий процесс, который займет слишком много времени, если продолжать работу вручную. Полезнее всего будет разработка способов автоматизации корпусного анализа паттернов. Во второй главе мы упомянули несколько работ, посвященных этой теме, но на материале английского языка. Мы предполагаем, что автоматизировать можно этап выделения паттернов, но в этом направлении возникает проблема нехватки семантически размеченного корпуса. Поэтому, по-видимому, перед проведением каких- либо экспериментов по автоматическому выделению паттернов необходимо разметить корпус семантическими типами, желательно, также не вручную.
Основной целью практической части нашего исследования была адаптация метода корпусного анализа паттернов для русского языка. Для этого мы создали пробную версию словаря для 16 глаголов с применением исследуемого метода. В ходе создания нашего словаря мы решили несколько практических проблем, в т.ч. выбрали корпус и способ разметки, определили оптимальный размер выборки. Полученные паттерны мы проанализировали в 2 аспектах: сравнение с размеченной выборкой из другого корпуса и с существующими словарями русского языка. В первом случае мы определили, что в среднем выделенные паттерны охватывают более 90-95% случайной корпусной выборки. Для второй задачи мы провели сопоставительный анализ 4 толковых словарей русского языка: толковый словарь русского языка под ред. Д.Н. Ушакова, словарь русского языка С.И. Ожегова, толковый словарь русского языка под ред. А.П. Евгеньевой и Большой толковый словарь русского языка под ред. С.А. Кузнецова. В результате оказалось, что для всех глаголов полученные паттерны покрывают значения, общие для всех словарей, а в половине случаев - и все словарные значения. С нашей точки зрения, данные результаты доказывают как и эффективность использованного метода применительно к материалу русского языка, так и то, что выбранного размера корпуса достаточно для выделения паттернов.
Более того, мы сделали несколько выводов относительно изменения метода корпусного анализа паттернов для русского языка, основываясь на проведенной работе. Наши замечания касаются как и способа описания, так и самого метода. Мы добавили несколько дополнительных обозначений для представления паттернов в более понятном и компактном виде. Также, с нашей точки зрения, определённые паттерны для русского языка не могут описываться без упоминания морфосинтаксических характеристик. Все предложенные изменения учитывались нами при описании полученных паттернов.
В дальнейшем мы видим несколько путей развития данного исследования. Естественно, можно продолжать работу над созданием словаря. Однако мы считаем, что это трудоемкий процесс, который займет слишком много времени, если продолжать работу вручную. Полезнее всего будет разработка способов автоматизации корпусного анализа паттернов. Во второй главе мы упомянули несколько работ, посвященных этой теме, но на материале английского языка. Мы предполагаем, что автоматизировать можно этап выделения паттернов, но в этом направлении возникает проблема нехватки семантически размеченного корпуса. Поэтому, по-видимому, перед проведением каких- либо экспериментов по автоматическому выделению паттернов необходимо разметить корпус семантическими типами, желательно, также не вручную.



