Введение......................................................................................................... 3
Глава 1. Лингвистические основания автоматического выделения
русских количественных конструкций ................................................................. 6
1.1. Основные идеи грамматики конструкций ........................................ 6
1.2. Понятия компьютерной морфологии, важные для исследования
количественных конструкций............................................................................. 7
Глава 2. методологические основания исследования количественных
конструкций в русском языке .............................................................................. 17
2.1. Определение количественной конструкции .................................. 17
2.2. Лингвистические данные: экспериментальные корпусы текстов
.............................................................................................................................. 19
2.3. Томита-парсер — инструмент для извлечения конструкций на
основе контекстно-свободных грамматик ....................................................... 20
Глава 3. Разарботка контекстно-свободных правил для выделения
количественных конструкций .............................................................................. 22
3.1. Предварительные наблюдения о типах конструкций ................... 22
3.2. Описание контекстно-свободных правил для Томита-парсера ... 30
3.3. Сложные случаи анализа количественных конструкций ............. 33
Глава 4. Эксперименты по автоматическому выделению конструкций и
обсуждение их результатов .................................................................................. 48
4.1. Эксперименты: серия I ..................................................................... 48
4.2. Эксперименты: серия II .................................................................... 51
Заключение .................................................................................................. 53
Литература ................................................................................................... 54
Приложения ............................................................................................... 57
Сегодня одной из самых востребованных процедур автоматической
обработки текста является извлечение информации (знаний, фактов,
сущностей, отношений и т.д.). При работе со специальными текстами,
особенно представляющими точные знания, лингвистам особенно важно
иметь в своем распоряжении автоматические инструменты выделения и
анализа количественной информации (технические параметры, размер, даты,
географические координаты и т.п.). Тем самым, выбранное нами направление
исследования является актуальным.
Тем самым, целью нашей работы было произвести лингвистический
анализ особого класса лексико-грамматических конструкций, а именно,
количественных конструкций, которые характеризуют научные и научно-
популярные тексты. В текстах данного типа наряду с конструкциями,
включающими модификаторы «много», «мало», «значительно», часто
встречаются контексты, содержащие выражение количественных
показателей с указанием точных величин («находиться в 5 км от Х», «полоса
шириной 30 мм» и т.д.).
Достижение указанной цели требует решения ряда задач, основными
из которых являются:
1) сбор и предобработка корпусов текстов, содержащих
количественные конструкции,
2) автоматический анализ корпусов текстов для выявления
содержащихся в них количественных конструкций,
3) систематизация данных о русских количественных конструкциях из
корпусных источников и их лингвистическая интерпретация,
4) анализ отрицательного материала (разбор нестандартных случаев и
ошибочных решений анализатора).
Материалом нашего исследования являются все конструкции,
использующие меры длины в системе си (нм, мкм, мм, м, км). Далее, с
помощью автоматизированных средств следует выделить конструкции с
обозначением размера, например: «маскируемого медного цилиндра с
радиусом 25 мм» или «атмосфера, толщиной 200 – 300 мкм», при этом учесть
следующие элементы сущности:
• количество (обозначается числовым выражением);
• единицы измерения;
• измеряемый предмет;
• параметр, по которому измеряется предмет (например, длина).
Также возможно выделение лексических модификаторов, находящихся
перед числовым выражением («примерно», «вплоть до», «около», «свыше» и т.п.).
Источниками лингвистических данных являются корпусы русских
текстов, прежде всего веб-корпус RuTenTen, а также корпус научно-
популярных статей, собранный автором самостоятельно.
В ходе работы мы использовали компьютерные инструменты
автоматического обработки естественного языка: это прежде всего
морфологический анализатор mystem (https://tech.yandex.ru/mystem/) и
инструмент извлечения конструкций с фактами Томита-парсер
(https://tech.yandex.ru/tomita/).
Теоретическая значимость исследования заключается в том, что нами
были получены новые данные о свойствах количественных конструкциях в
русском языке. Нами показано, что исследуемые конструкции различаются
наличием или отсутствием определенных элементов, а также их линейным порядком.
Представленные в работе средства автоматического извлечения и
анализа количественных конструкций дают возможность ответить и на
другие вопросы о языке, например:
• Как идея количества выражается в текстах разных жанров?
• Какого вида конструкции встречаются в реальных текстах?
Какова частотность отдельных видов?
• Как лексические единицы сочетаются с теми или иным видами конструкций?
Несмотря на то, что освещение этих вопросов не входит в цели и
задачи данной работы, представленный нами инструментарий может быть
весьма полезен при их изучении.
Результаты нашего исследования характеризуются высокой
практической значимостью. Нахождение в текстах выражений с точным
указанием величин позволяет извлекать факты о предметах реального мира.
Особая ценность таких конструкций в том, что они зачастую содержат
«твердые», установленные факты. Рассматриваемые нами виды конструкций
встречаются в основном в текстах научного, научно-популярного и
технического жанров, в биографиях и исторических справках (если говорить
не только о единицах длины, но и о других величинах), а также объявлениях
о купле-продаже или аренде, вакансиях (указание денежных сумм),
описаниях путешествий (время поездки, маршрут с указанием пунктов,
расстояния между ними) и т.д. Тем самым, полученные сведения могут в
дальнейшем применяться для информационного поиска, построения
онтологий, автоматического реферирования и других практических задач.
Основные идеи и результаты нашего исследования освещены в статьях
и докладах на конференциях [Харабет 2015a, 2015b].
В работе была успешно разработана и испытана система
автоматического нахождения и интерпретации количественных конструкций
с использованием числовых выражений и единиц длины.
Для этой цели был освоен «Томита-парсер» — инструмент для
извлечения фактов из текстов на русском языке, работающий на основе
контекстно-свободных грамматик. Попутно были изучены и описаны
технологии и научные понятия, на которых основана эта программа:
разобраны проблемы компьютерной морфологии, определено понятие
контекстно-свободной грамматики, описаны особенности автоматического
извлечения фактов, основанного на правилах.
Также для решения поставленных задач проведен разносторонний
анализ исследуемого явления — количественной конструкции. Дана справка
о том, что такое грамматика конструкций в лингвиситке. Описана семантика
количественных конструкций с числовыми выражениями. Предложена
семантическая структура для описания количественной информации.
В практической части мы описали процесс сбора лингвистических
данных, а именно двух экспериментальных корпусов. Затем была
предложена классификация конструкций и даны описания отдельных видов.
Далее, мы описали процесс разработки контекстно-свободных грамматик,
отражающих синтаксическую структуру этих конструкций. На примерах
была показана необходимость принятия тех или иных решений в процессе разработки.
Показана высокая эффективность полученных нами правил при
извлечении количественной информации из корпусов.
Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. М., 1967.
Буторов В.Д. Моделирование синтаксиса естественного языка // При-
кладное языкознание. СПб., 1996. С. 142–160.
Гладкий А.В. Синтаксические структуры естественного языка в
автоматизированных системах общения. М., 1985.
Иорданская Л.Н. Автоматический синтаксический анализ. Новосиюбирск, 1967.
Кронгауз М.А. Семантика. – М., 2005. – 352 с.
Камынина А.А. Современный русский язык. Морфология. – М., 1999. – 240 с.
Коваль С.А.Лингвистические пролемы компьютерной морфологии. СПб., 2005.
Копотев М.В. Неоднозначность и пути ее решения в хельсинском
аннотированном корпусе «ХАНКО» // Труды международной конфперенции
«Корпусная лингвистика 2004». СПб., 2004.
http://corpora.phil.spbu.ru/Works2004/Kopotev_art.pdf (последнее обращение 24.05.2016)
Ландо Т.М. Многоаспектный анализ квантификации в русском языке
средствами формальной семантики: Дипломная работа. СПбГУ,
Филологический факультет, Кафедра математической лингвистики. СПб., 2007.
Лапшин В.А. Лекции по математической лингвистике. М., 2010.
Мельчук И.А. Автоматический синтаксический анализ. Новосибирск, 1964.
Мельчук И А. Опыт теории лингвистических моделей Смысл ⇔ Текст.
М.: Языки русской культуры, 1974/1999.
Пентус А. Е., Пентус М. Р. Теория формальных языков: Учебное
пособие. — М.: Изд-во ЦПИ при механико-математическом ф-те МГУ, 2004. — 80 с.
Плунгян В.А. Введение в грамматическую семантику: грамматические
значения и грамматические системы языков мира. М., 2011. – 672 с.
Плунгян В.А. Общая морфология: Введение в проблематику. М., 2003. – 384 с.
...