Тема: АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КОЛИЧЕСТВЕННОЙ ИНФОРМАЦИИ ИЗ КОРПУСА РУССКОЯЗЫЧНЫХ ТЕКСТОВ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Лингвистические основания автоматического выделения русских количественных конструкций 6
1.1. Основные идеи грамматики конструкций 6
1.2. Понятия компьютерной морфологии, важные для исследования
количественных конструкций 7
Глава 2. методологические основания исследования количественных конструкций в русском языке 17
2.1. Определение количественной конструкции 17
2.2. Лингвистические данные: экспериментальные корпусы текстов
19
2.3. Томита-парсер — инструмент для извлечения конструкций на
основе контекстно-свободных грамматик 20
Глава 3. Разарботка контекстно-свободных правил для выделения
количественных конструкций 22
3.1. Предварительные наблюдения о типах конструкций 22
3.2. Описание контекстно-свободных правил для Томита-парсера ... 30
3.3. Сложные случаи анализа количественных конструкций 33
Глава 4. Эксперименты по автоматическому выделению конструкций и обсуждение их результатов 48
4.1. Эксперименты: серия I 48
4.2. Эксперименты: серия II 51
Заключение 53
Литература 54
Приложения 57
📖 Введение
Тем самым, целью нашей работы было произвести лингвистический анализ особого класса лексико-грамматических конструкций, а именно, количественных конструкций, которые характеризуют научные и научно-популярные тексты. В текстах данного типа наряду с конструкциями, включающими модификаторы «много», «мало», «значительно», часто встречаются контексты, содержащие выражение количественных показателей с указанием точных величин («находиться в 5 км от Х», «полоса шириной 30 мм» и т.д.).
Достижение указанной цели требует решения ряда задач, основными из которых являются:
1) сбор и предобработка корпусов текстов, содержащих количественные конструкции,
2) автоматический анализ корпусов текстов для выявления содержащихся в них количественных конструкций,
3) систематизация данных о русских количественных конструкциях из корпусных источников и их лингвистическая интерпретация,
4) анализ отрицательного материала (разбор нестандартных случаев и ошибочных решений анализатора).
Материалом нашего исследования являются все конструкции, использующие меры длины в системе си (нм, мкм, мм, м, км). Далее, с помощью автоматизированных средств следует выделить конструкции с обозначением размера, например: «маскируемого медного цилиндра с радиусом 25 мм» или «атмосфера, толщиной 200 - 300 мкм», при этом учесть следующие элементы сущности:
• количество (обозначается числовым выражением);
• единицы измерения;
• измеряемый предмет;
• параметр, по которому измеряется предмет (например, длина).
Также возможно выделение лексических модификаторов, находящихся перед числовым выражением («примерно», «вплоть до», «около», «свыше» и т.п.).
Источниками лингвистических данных являются корпусы русских текстов, прежде всего веб-корпус RuTenTen, а также корпус научно-популярных статей, собранный автором самостоятельно.
В ходе работы мы использовали компьютерные инструменты автоматического обработки естественного языка: это прежде всего морфологический анализатор mystem (https://tech.yandex.ru/mystem/) и инструмент извлечения конструкций с фактами Томита-парсер (https: //tech.yandex.ru/tomita/).
Теоретическая значимость исследования заключается в том, что нами были получены новые данные о свойствах количественных конструкциях в русском языке. Нами показано, что исследуемые конструкции различаются наличием или отсутствием определенных элементов, а также их линейным порядком.
Представленные в работе средства автоматического извлечения и анализа количественных конструкций дают возможность ответить и на другие вопросы о языке, например:
• Как идея количества выражается в текстах разных жанров?
• Какого вида конструкции встречаются в реальных текстах?
Какова частотность отдельных видов?
• Как лексические единицы сочетаются с теми или иным видами конструкций?
Несмотря на то, что освещение этих вопросов не входит в цели и задачи данной работы, представленный нами инструментарий может быть весьма полезен при их изучении.
Результаты нашего исследования характеризуются высокой практической значимостью. Нахождение в текстах выражений с точным указанием величин позволяет извлекать факты о предметах реального мира. Особая ценность таких конструкций в том, что они зачастую содержат «твердые», установленные факты. Рассматриваемые нами виды конструкций встречаются в основном в текстах научного, научно-популярного и технического жанров, в биографиях и исторических справках (если говорить не только о единицах длины, но и о других величинах), а также объявлениях о купле-продаже или аренде, вакансиях (указание денежных сумм), описаниях путешествий (время поездки, маршрут с указанием пунктов, расстояния между ними) и т.д. Тем самым, полученные сведения могут в дальнейшем применяться для информационного поиска, построения онтологий, автоматического реферирования и других практических задач.
Основные идеи и результаты нашего исследования освещены в статьях и докладах на конференциях [Харабет 2015 a, 2015b].
✅ Заключение
Для этой цели был освоен «Томита-парсер» — инструмент для извлечения фактов из текстов на русском языке, работающий на основе контекстно-свободных грамматик. Попутно были изучены и описаны технологии и научные понятия, на которых основана эта программа: разобраны проблемы компьютерной морфологии, определено понятие контекстно-свободной грамматики, описаны особенности автоматического извлечения фактов, основанного на правилах.
Также для решения поставленных задач проведен разносторонний анализ исследуемого явления — количественной конструкции. Дана справка о том, что такое грамматика конструкций в лингвиситке. Описана семантика количественных конструкций с числовыми выражениями. Предложена семантическая структура для описания количественной информации.
В практической части мы описали процесс сбора лингвистических данных, а именно двух экспериментальных корпусов. Затем была предложена классификация конструкций и даны описания отдельных видов. Далее, мы описали процесс разработки контекстно-свободных грамматик, отражающих синтаксическую структуру этих конструкций. На примерах была показана необходимость принятия тех или иных решений в процессе разработки.
Показана высокая эффективность полученных нами правил при извлечении количественной информации из корпусов.



