Тема: КОРПУСНО-СТРУКТУРНЫЙ АНАЛИЗ КАК ИНСТРУМЕНТ ПОЛУАВТОМАТИЧЕСКОГО ВЫЯВЛЕНИЯ ЗНАЧЕНИЙ И СЕМАНТИЧЕСКИХ ВАЛЕНТНОСТЕЙ ГЛАГОЛОВ РУССКОГО ЯЗЫКА
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 4
Глава 1. Валентность и её представление в словарях 6
1.1. Понятие валентности 6
1.2. Словари валентности 7
1.2.1. Английские словари валентности 8
1.2.2. Чешские словари валентности 11
1.2.3. Русские словари валентности 14
Глава 2. Корпусно-структурный анализ 18
2.1. История развития. Основные теоретические положения. 18
2.2. Понятие паттерна. Семантические типы и роли 20
2.3. Pattern Dictionary of English Verbs (PDEV) 22
2.4. Общее описание метода 24
2.5. Автоматизация 24
Глава 3. Создание словаря 26
3.1. Постановка задач 26
3.2. Выбор корпуса и разметки 26
3.3. Выбор глаголов 29
3.4. Подготовка разметки 31
3.5. Выделение паттернов 33
3.6. Размер выборки 36
3.6.1. Анализ насыщаемости 37
3.6.2. Дополнительная разметка 37
3.7. Проверка независимости от корпуса 39
3.8. Соотношение полученных паттернов и значений в толковых словарях русского языка 41
3.9. Классификация паттернов 43
3.10. Выводы 46
Заключение 48
Список литературы 50
Приложение А. Полученные паттерны 53
Приложение Б. Анализ словарных значений 63
📖 Введение
На настоящее время создано и/или находится в разработке большое количество электронных ресурсов, полностью или частично отвечающих нашим целям. Для русского языка можно упомянуть Толково-комбинаторный словарь [7], семантический словарь Тузова, проектыRussNet [1], FrameBank. В данной работе мы решили воспользоваться опытом и методами создания словаря PatternDictionaryofEnglishVerbs . На данный момент в словаре описана семантическая сочетаемость и значения около 2000 английский глаголов. Словарь составляется на основе метода корпусно-структурного анализа (CorpusPatternAnalysis, CPA), который в свою очередь опирается на теорию норм и эксплуатация (TheoryofNormsandExploitations, TNE). Можно выделить главные особенности данного подхода:
• выделение значений на основе семантического контекста глаголов;
• анализ нормативных употреблений глагола.
Корпусно-структурный анализ позволяет по выборке из корпуса описать различные семантические валентности глагола, сопоставить их с его значениями, определить их относительную частоту. При этом итоговое описание легко представляется в форме, пригодной для автоматического анализа.
Целью данного исследования является адаптация для русского языка методики выделения значений и семантической валентности глаголов по корпусным данным путём создания прототипа словаря.
Для достижения поставленной цели было необходимо решить следующие теоретические и практические задачи:
1) описать основные понятия и теоретические основы корпусно-структурного анализа;
2) адаптировать метод для русского языка;
3) составить пробный словарь;
4) оценить эффективность метода.
Объектом исследования являются семантика глаголов русского языка. Предмет исследования – семантическая валентность глаголов и её связь с их значениями. Материалом исследования является корпус AraneumRussicumMinus и Национальный корпус русского языка .
Теоретическая значимость работы определяется подробным описанием методики, не используемой ранее на материале русского языка, и анализом её эффективности. Практическая значимость данного исследования заключается в том, что полученные результаты могут составить основу для создания словаря валентностей русского языка, пригодного для использования как в теоретических, так и в практических целях.
Данная работа состоит из введения, трёх глав, заключения, списка литературы из 40 названий и 2 приложений. В первой главе описываются теоретические вопросы, связанные с описанием семантики глаголов русского языка и существующие ресурсы для английского, чешского и русского языков. Вторая глава посвящена теоретическим основам корпусно-структурного анализа, его главным понятиям и «Словарю паттернов английских глаголов». В третьей главе описан эксперимент по составлению словарных статей методами корпусно-структурного анализа, отмечены основные особенности, связанные с системой русского языка, и представлена оценка полученных результатов.
✅ Заключение
Основной целью практической части нашего исследования была адаптация метода корпусного анализа паттернов для русского языка. Для этого мы создали пробную версию словаря для 16 глаголов с применением исследуемого метода. В ходе создания нашего словаря мы решили несколько практических проблем, в т.ч. выбрали корпус и способ разметки, определили оптимальный размер выборки. Полученные паттерны мы проанализировали в 2 аспектах: сравнение с размеченной выборкой из другого корпуса и с существующими словарями русского языка. В первом случае мы определили, что в среднем выделенные паттерны охватывают более 90-95% случайной корпусной выборки. Для второй задачи мы провели сопоставительный анализ 4 толковых словарей русского языка: толковый словарь русского языка под ред. Д.Н. Ушакова, словарь русского языка С.И. Ожегова, толковый словарь русского языка под ред. А.П. Евгеньевой и Большой толковый словарь русского языка под ред. С.А. Кузнецова. В результате оказалось, что для всех глаголов полученные паттерны покрывают значения, общие для всех словарей, а в половине случаев – и все словарные значения. С нашей точки зрения, данные результаты доказывают как и эффективность использованного метода применительно к материалу русского языка, так и то, что выбранного размера корпуса достаточно для выделения паттернов.
Более того, мы сделали несколько выводов относительно изменения метода корпусного анализа паттернов для русского языка, основываясь на проведенной работе. Наши замечания касаются как и способа описания, так и самого метода. Мы добавили несколько дополнительных обозначений для представления паттернов в более понятном и компактном виде. Также, с нашей точки зрения, определённые паттерны для русского языка не могут описываться без упоминания морфосинтаксических характеристик. Все предложенные изменения учитывались нами при описании полученных паттернов.
В дальнейшем мы видим несколько путей развития данного исследования. Естественно, можно продолжать работу над созданием словаря. Однако мы считаем, что это трудоемкий процесс, который займет слишком много времени, если продолжать работу вручную. Полезнее всего будет разработка способов автоматизации корпусного анализа паттернов. Во второй главе мы упомянули несколько работ, посвященных этой теме, но на материале английского языка. Мы предполагаем, что автоматизировать можно этап выделения паттернов, но в этом направлении возникает проблема нехватки семантически размеченного корпуса. Поэтому, по-видимому, перед проведением каких-либо экспериментов по автоматическому выделению паттернов необходимо разметить корпус семантическими типами, желательно, также не вручную.



