Тип работы:
Предмет:
Язык работы:


АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КОЛИЧЕСТВЕННОЙ ИНФОРМАЦИИ ИЗ КОРПУСА РУССКОЯЗЫЧНЫХ ТЕКСТОВ

Работа №68801

Тип работы

Магистерская диссертация

Предмет

филология

Объем работы132
Год сдачи2016
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
209
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Лингвистические основания автоматического выделения русских количественных конструкций 6
1.1. Основные идеи грамматики конструкций 6
1.2. Понятия компьютерной морфологии, важные для исследования
количественных конструкций 7
Глава 2. методологические основания исследования количественных конструкций в русском языке 17
2.1. Определение количественной конструкции 17
2.2. Лингвистические данные: экспериментальные корпусы текстов
19
2.3. Томита-парсер — инструмент для извлечения конструкций на
основе контекстно-свободных грамматик 20
Глава 3. Разарботка контекстно-свободных правил для выделения
количественных конструкций 22
3.1. Предварительные наблюдения о типах конструкций 22
3.2. Описание контекстно-свободных правил для Томита-парсера ... 30
3.3. Сложные случаи анализа количественных конструкций 33
Глава 4. Эксперименты по автоматическому выделению конструкций и обсуждение их результатов 48
4.1. Эксперименты: серия I 48
4.2. Эксперименты: серия II 51
Заключение 53
Литература 54
Приложения 57


Сегодня одной из самых востребованных процедур автоматической обработки текста является извлечение информации (знаний, фактов, сущностей, отношений и т.д.). При работе со специальными текстами, особенно представляющими точные знания, лингвистам особенно важно иметь в своем распоряжении автоматические инструменты выделения и анализа количественной информации (технические параметры, размер, даты, географические координаты и т.п.). Тем самым, выбранное нами направление исследования является актуальным.
Тем самым, целью нашей работы было произвести лингвистический анализ особого класса лексико-грамматических конструкций, а именно, количественных конструкций, которые характеризуют научные и научно-популярные тексты. В текстах данного типа наряду с конструкциями, включающими модификаторы «много», «мало», «значительно», часто встречаются контексты, содержащие выражение количественных показателей с указанием точных величин («находиться в 5 км от Х», «полоса шириной 30 мм» и т.д.).
Достижение указанной цели требует решения ряда задач, основными из которых являются:
1) сбор и предобработка корпусов текстов, содержащих количественные конструкции,
2) автоматический анализ корпусов текстов для выявления содержащихся в них количественных конструкций,
3) систематизация данных о русских количественных конструкциях из корпусных источников и их лингвистическая интерпретация,
4) анализ отрицательного материала (разбор нестандартных случаев и ошибочных решений анализатора).
Материалом нашего исследования являются все конструкции, использующие меры длины в системе си (нм, мкм, мм, м, км). Далее, с помощью автоматизированных средств следует выделить конструкции с обозначением размера, например: «маскируемого медного цилиндра с радиусом 25 мм» или «атмосфера, толщиной 200 - 300 мкм», при этом учесть следующие элементы сущности:
• количество (обозначается числовым выражением);
• единицы измерения;
• измеряемый предмет;
• параметр, по которому измеряется предмет (например, длина).
Также возможно выделение лексических модификаторов, находящихся перед числовым выражением («примерно», «вплоть до», «около», «свыше» и т.п.).
Источниками лингвистических данных являются корпусы русских текстов, прежде всего веб-корпус RuTenTen, а также корпус научно-популярных статей, собранный автором самостоятельно.
В ходе работы мы использовали компьютерные инструменты автоматического обработки естественного языка: это прежде всего морфологический анализатор mystem (https://tech.yandex.ru/mystem/) и инструмент извлечения конструкций с фактами Томита-парсер (https: //tech.yandex.ru/tomita/).
Теоретическая значимость исследования заключается в том, что нами были получены новые данные о свойствах количественных конструкциях в русском языке. Нами показано, что исследуемые конструкции различаются наличием или отсутствием определенных элементов, а также их линейным порядком.
Представленные в работе средства автоматического извлечения и анализа количественных конструкций дают возможность ответить и на другие вопросы о языке, например:
• Как идея количества выражается в текстах разных жанров?
• Какого вида конструкции встречаются в реальных текстах?
Какова частотность отдельных видов?
• Как лексические единицы сочетаются с теми или иным видами конструкций?
Несмотря на то, что освещение этих вопросов не входит в цели и задачи данной работы, представленный нами инструментарий может быть весьма полезен при их изучении.
Результаты нашего исследования характеризуются высокой практической значимостью. Нахождение в текстах выражений с точным указанием величин позволяет извлекать факты о предметах реального мира. Особая ценность таких конструкций в том, что они зачастую содержат «твердые», установленные факты. Рассматриваемые нами виды конструкций встречаются в основном в текстах научного, научно-популярного и технического жанров, в биографиях и исторических справках (если говорить не только о единицах длины, но и о других величинах), а также объявлениях о купле-продаже или аренде, вакансиях (указание денежных сумм), описаниях путешествий (время поездки, маршрут с указанием пунктов, расстояния между ними) и т.д. Тем самым, полученные сведения могут в дальнейшем применяться для информационного поиска, построения онтологий, автоматического реферирования и других практических задач.
Основные идеи и результаты нашего исследования освещены в статьях и докладах на конференциях [Харабет 2015 a, 2015b].

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В работе была успешно разработана и испытана система автоматического нахождения и интерпретации количественных конструкций с использованием числовых выражений и единиц длины.
Для этой цели был освоен «Томита-парсер» — инструмент для извлечения фактов из текстов на русском языке, работающий на основе контекстно-свободных грамматик. Попутно были изучены и описаны технологии и научные понятия, на которых основана эта программа: разобраны проблемы компьютерной морфологии, определено понятие контекстно-свободной грамматики, описаны особенности автоматического извлечения фактов, основанного на правилах.
Также для решения поставленных задач проведен разносторонний анализ исследуемого явления — количественной конструкции. Дана справка о том, что такое грамматика конструкций в лингвиситке. Описана семантика количественных конструкций с числовыми выражениями. Предложена семантическая структура для описания количественной информации.
В практической части мы описали процесс сбора лингвистических данных, а именно двух экспериментальных корпусов. Затем была предложена классификация конструкций и даны описания отдельных видов. Далее, мы описали процесс разработки контекстно-свободных грамматик, отражающих синтаксическую структуру этих конструкций. На примерах была показана необходимость принятия тех или иных решений в процессе разработки.
Показана высокая эффективность полученных нами правил при извлечении количественной информации из корпусов.



Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. М., 1967.
Буторов В.Д. Моделирование синтаксиса естественного языка // При-кладное языкознание. СПб., 1996. С. 142-160.
Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985.
Иорданская Л.Н. Автоматический синтаксический анализ. Новосиюбирск, 1967.
Кронгауз М.А. Семантика. - М., 2005. - 352 с.
Камынина А.А. Современный русский язык. Морфология. - М., 1999. - 240 с.
Коваль С.А.Лингвистические пролемы компьютерной морфологии. СПб., 2005.
Копотев М.В. Неоднозначность и пути ее решения в хельсинском аннотированном корпусе «ХАНКО» // Труды международной конфперенции «Корпусная лингвистика 2004». СПб., 2004.
http://corpora.phil. spbu.ru/Works2004/Kopotev art.pdf (последнее обращение 24.05.2016)
Ландо Т.М. Многоаспектный анализ квантификации в русском языке средствами формальной семантики: Дипломная работа. СПбГУ,
Филологический факультет, Кафедра математической лингвистики. СПб., 2007.
Лапшин В.А. Лекции по математической лингвистике. М., 2010.
Мельчук И.А. Автоматический синтаксический анализ. Новосибирск, 1964.
Мельчук И А. Опыт теории лингвистических моделей Смысл ^ Текст. М.: Языки русской культуры, 1974/1999.
Пентус А. Е., Пентус М. Р. Теория формальных языков: Учебное пособие. — М.: Изд-во ЦПИ при механико-математическом ф-те МГУ, 2004.
— 80 с.
Плунгян В.А. Введение в грамматическую семантику: грамматические значения и грамматические системы языков мира. М., 2011. - 672 с.
Плунгян В.А. Общая морфология: Введение в проблематику. М., 2003.
- 384 с.
Рахилина Е.В. (ред.) Лингвистика конструкций. М., 2010.
Рубашкин В.Ш. Онтологическая семантика. Знания. Онтологии. Онтологически ориентированные методы информационного анализа текстов. М., 2012.
Рубашкин В.Ш., Чуприн Б.Ю. Распознавание количественной информации в ЕЯ-текстах // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог 2006". - М.: Изд- во РГГУ, 2006. С. 456 - 458.
Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. Киев, 1981
Семенова С.Ю. Параметризация как метод познания и как языковой механизм // Логический анализ языка. Квантификативный анализ языка / Отв. ред. Н.Д.Арутюнова. М., 2005.
Татевосов С.Г. Семантика составляющих именной группы: кванторные слова. М., 2002.
Фитиалов С.Я. Формальные грамматики и языки. Л., 1984.
Харабет Я.К. Автоматическое выделение количественных конструкций в русскоязычных научно-популярных текстах // XVIII Объединенная научная конференция «Интернет и современное общество» (IMS - 2015), Санкт- Петербург, 23-25 июня 2015 г.: Сборник тезисов докладов. — СПб., 2015. — С. 100-102.
Харабет Я.К. Автоматическое выделение количественных конструкций в русскоязычных научно-популярных текстах // XVIII Международная конференция студентов-филологов СПбГУ, Санкт-Петербург, 6-11 апреля 2015 г.: Тезисы докладов / Отв. ред. Д. Н. Чердаков. — СПб.:
Филологический факультет СПбГУ, 2015. — С. 248-249.
Хомский Н. Аспекты теории синтаксиса М., 1972.
Шведова Н.Ю. (гл. ред.). Русская грамматика. Т. 1. Фонетика. Фонология. Ударение. Интонация. Словообразование. Морфология. М.:
Наука, 1980. — 789 с.
Шведова Н.Ю. (гл. ред.). Русская грамматика. Т. 2. Синтаксис. М.: Наука, 1980. — 710 с.
Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. http://cache-
default05h.cdn.yandex.net/download.yandex.ru/company/iseg-las-vegas.pdf (последнее обращение 24.05.2016)
Fillmore Ch., Kay P., O’Connor M.C. Regularity and idiomaticity in grammatical constructions: the case of ‘let alone.’ // Language 63(3). 1988. - C. 501-538.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ