АВТОМАТИЗАЦИЯ ИЗВЛЕЧЕНИЯ ИМЕННЫХ СЛОВОСОЧЕТАНИЙ (НА МАТЕРИАЛЕ ИСПАНСКОГО ЯЗЫКА)
|
Введение 4
Глава 1 Именное словосочетание в испанском языке 8
1.1 Слово 8
1.1.1 Понятие «Слово» 8
1.1.2 Лексическое и грамматическое значения слова 11
1.1.3Двусторонняя сущность слова 12
1.1.4 Мотивация слова 14
1.1.5 Словообразование в испанском языке 15
1.2 Словосочетание 18
1.2.1 Понятие «Словосочетание» 18
1.2.2 Смысловые отношения в словосочетании 22
1.2.3 Именное словосочетание 24
1.2.4 Семантическая близость и сочетаемость 26
Выводы по главе 1 27
Глава 2 Автоматизация извлечения именных словосочетаний в
испанском корпусе 29
2.1 Теория конечных автоматов и регулярные выражения 27
2.2 Морфологический анализ и частеречная разметка 31
2.3 Методы и способы автоматизации извлечения именных
словосочетаний 32
2.4 Корпус и инструменты для машинного анализа 35
2.5 Автоматизированный поиск нумеративных словосочетаний 36
2.6 Автоматизированный поиск субстантивных словосочетаний 40
2.7 Автоматизированный поиск прономинальных словосочетаний....49
2.8 Автоматизированный поиск адъективных словосочетаний 51
2.9 Алгоритм постобработки 52
Выводы по главе 2 53
Заключение 54
Библиографический список 56
Приложение 1 61
Приложение 2 62
Приложение 3 66
Приложение 4 68
Приложение 5 69
Приложение 6 70
Приложение 7 72
Глава 1 Именное словосочетание в испанском языке 8
1.1 Слово 8
1.1.1 Понятие «Слово» 8
1.1.2 Лексическое и грамматическое значения слова 11
1.1.3Двусторонняя сущность слова 12
1.1.4 Мотивация слова 14
1.1.5 Словообразование в испанском языке 15
1.2 Словосочетание 18
1.2.1 Понятие «Словосочетание» 18
1.2.2 Смысловые отношения в словосочетании 22
1.2.3 Именное словосочетание 24
1.2.4 Семантическая близость и сочетаемость 26
Выводы по главе 1 27
Глава 2 Автоматизация извлечения именных словосочетаний в
испанском корпусе 29
2.1 Теория конечных автоматов и регулярные выражения 27
2.2 Морфологический анализ и частеречная разметка 31
2.3 Методы и способы автоматизации извлечения именных
словосочетаний 32
2.4 Корпус и инструменты для машинного анализа 35
2.5 Автоматизированный поиск нумеративных словосочетаний 36
2.6 Автоматизированный поиск субстантивных словосочетаний 40
2.7 Автоматизированный поиск прономинальных словосочетаний....49
2.8 Автоматизированный поиск адъективных словосочетаний 51
2.9 Алгоритм постобработки 52
Выводы по главе 2 53
Заключение 54
Библиографический список 56
Приложение 1 61
Приложение 2 62
Приложение 3 66
Приложение 4 68
Приложение 5 69
Приложение 6 70
Приложение 7 72
В эпоху технического прогресса активно растет количество текстовой информации. Современные компьютерные технологии позволяют ускорить процесс её обработки, сделать его качественным и удобным для пользователя. Выделение именных словосочетаний является одной из значимых составляющих частичного анализа текста. Оно является необходимым при автоматическом выявлении фактов, анализе медицинской и технической документации, при извлечении информации об отношениях.
Актуальность данного исследования заключается в необходимости создания автоматизированных шаблонов для поиска именных словосочетаний в текстовых корпусах.
Объектом исследования выступают именные словосочетания.
Предметом исследования является автоматизация процессов извлечения именных словосочетаний из корпуса текста.
Цель настоящего исследования заключается в разработке автоматизированных поисковых шаблонов для выявления именных словосочетаний, их тестирование и анализ устойчивости в корпусе фармацевтических рецептов на испанском языке.
Для достижения поставленной цели необходимо решить следующие задачи:
1) Рассмотреть понятие «именное словосочетание»;
2) Выделить критерии и лингвистические особенности для составления правил;
3) Разработать модель извлечения именных словосочетаний на испанском языке;
4) Составить базу знаний, включающую шаблоны для извлечения именных словосочетаний из корпуса на испанском языке;
5) Апробировать составленные шаблоны на экспериментальном корпусе, проанализировать их точность и полноту отбора на основе
составленной базы знаний.
Для решения поставленных задач были использованы следующие методы исследования:
- описательный с использованием приемов обобщения анализируемого материала;
- сплошной выборки;
- корпусный анализ;
- моделирование;
- инструментальный;
- экспериментальный.
Теоретико-методологической базой исследования послужили работы отечественных и зарубежных лингвистов, педагогов, посвященных:
- проблеме определения термина «словосочетания» (В.Н. Ярцевой, Ф.Ф. Фортунатова, В.В. Виноградова, Н.С. Валгина, Д.Э. Розенталь, Н.Ю. Шведова);
- компьютерной лингвистике и анализу текста (Б.Ю.Городецкий, В.Ю. Захаров, Э.С. Клышинский).
Достоверность и обоснованность результатов исследования обеспечивается:
- использованием адекватных методов исследования;
- результатами эксперемента.
Научная новизна исследования обусловлена тем, что в нем разработаны шаблоны для автоматизированного поиска именных словосочетаний в испанском языке на базе операционной системы UNIX и утилиты Grep, а также предложен метод последующего анализа извлеченных конструкций для улучшения точности выявления именных словосочетаний в постобработанном материале на основе корпуса.
Теоретическая значимость исследования заключается в том, что модель расширяет теорию прикладной лингвистики в области извлечения информации из текста при проведении корпусных исследований.
Практическая ценность исследования заключается в том, что разработанная база знаний может быть использована при создании реальных систем по обработке текста; представленная модель найдет применение при автоматизация извлечения именных словосочетаний для процедуры составления специализированных словарей и баз данных; результаты могут быть применены при обучении студентов в таких областях как корпусная и прикладная лингвистика.
Апробация и внедрение результатов работы проводилось на
экспериментальном корпусе.
Цель и задачи исследования определили его структуру и объем. Данная работа состоит из введения, двух глав, заключения библиографического списка и 4 приложений.
Во введении дается обоснование актуальности и выбора темы исследования, определяются объект, предмет, цель, задачи и методы исследования, а также его научная новизна, теоретическая и практическая значимость; формулируются основные положения, выносимые на защиту.
Основная часть исследования, представленная двумя главами, посвящена последовательному решению поставленных задач.
Первая глава состоит из двух разделов, включающих в себя девять подразделов и посвящена трактовке понятий «слова» и «словосочетание», словообразовательным моделям в испанском языке, семантическому единству и сочетаемости двух слов.
В результате рассмотрения теоретических основ тестирования лингвистически ориентированных электронных учебных ресурсов в выводах по первой главе сформулированы теоретические принципы, положенные в основу исследования.
Во второй главе приведены правила и поисковые шаблоны на инструменте Grep для выявления именных словосочетаний в испанском фармацевтическом корпусе, описан механизм работы составленной базы знаний, проведен анализ устойчивости выявленных именных словосочетаний и предложен метод их постобработки.
В заключении подводятся основные итоги проведенного исследования, формулируются общие выводы, намечаются перспективы дальнейшего исследования в этой области.
Библиографический список представлен 50 наименованиями.
В качестве приложений включена лексическая база знаний использованная в эксперименте, таблица с регулярными выражениями, а также графически представленные правила алгоритмов для построения поисковых шаблонов в терминах регулярных выражений.
Актуальность данного исследования заключается в необходимости создания автоматизированных шаблонов для поиска именных словосочетаний в текстовых корпусах.
Объектом исследования выступают именные словосочетания.
Предметом исследования является автоматизация процессов извлечения именных словосочетаний из корпуса текста.
Цель настоящего исследования заключается в разработке автоматизированных поисковых шаблонов для выявления именных словосочетаний, их тестирование и анализ устойчивости в корпусе фармацевтических рецептов на испанском языке.
Для достижения поставленной цели необходимо решить следующие задачи:
1) Рассмотреть понятие «именное словосочетание»;
2) Выделить критерии и лингвистические особенности для составления правил;
3) Разработать модель извлечения именных словосочетаний на испанском языке;
4) Составить базу знаний, включающую шаблоны для извлечения именных словосочетаний из корпуса на испанском языке;
5) Апробировать составленные шаблоны на экспериментальном корпусе, проанализировать их точность и полноту отбора на основе
составленной базы знаний.
Для решения поставленных задач были использованы следующие методы исследования:
- описательный с использованием приемов обобщения анализируемого материала;
- сплошной выборки;
- корпусный анализ;
- моделирование;
- инструментальный;
- экспериментальный.
Теоретико-методологической базой исследования послужили работы отечественных и зарубежных лингвистов, педагогов, посвященных:
- проблеме определения термина «словосочетания» (В.Н. Ярцевой, Ф.Ф. Фортунатова, В.В. Виноградова, Н.С. Валгина, Д.Э. Розенталь, Н.Ю. Шведова);
- компьютерной лингвистике и анализу текста (Б.Ю.Городецкий, В.Ю. Захаров, Э.С. Клышинский).
Достоверность и обоснованность результатов исследования обеспечивается:
- использованием адекватных методов исследования;
- результатами эксперемента.
Научная новизна исследования обусловлена тем, что в нем разработаны шаблоны для автоматизированного поиска именных словосочетаний в испанском языке на базе операционной системы UNIX и утилиты Grep, а также предложен метод последующего анализа извлеченных конструкций для улучшения точности выявления именных словосочетаний в постобработанном материале на основе корпуса.
Теоретическая значимость исследования заключается в том, что модель расширяет теорию прикладной лингвистики в области извлечения информации из текста при проведении корпусных исследований.
Практическая ценность исследования заключается в том, что разработанная база знаний может быть использована при создании реальных систем по обработке текста; представленная модель найдет применение при автоматизация извлечения именных словосочетаний для процедуры составления специализированных словарей и баз данных; результаты могут быть применены при обучении студентов в таких областях как корпусная и прикладная лингвистика.
Апробация и внедрение результатов работы проводилось на
экспериментальном корпусе.
Цель и задачи исследования определили его структуру и объем. Данная работа состоит из введения, двух глав, заключения библиографического списка и 4 приложений.
Во введении дается обоснование актуальности и выбора темы исследования, определяются объект, предмет, цель, задачи и методы исследования, а также его научная новизна, теоретическая и практическая значимость; формулируются основные положения, выносимые на защиту.
Основная часть исследования, представленная двумя главами, посвящена последовательному решению поставленных задач.
Первая глава состоит из двух разделов, включающих в себя девять подразделов и посвящена трактовке понятий «слова» и «словосочетание», словообразовательным моделям в испанском языке, семантическому единству и сочетаемости двух слов.
В результате рассмотрения теоретических основ тестирования лингвистически ориентированных электронных учебных ресурсов в выводах по первой главе сформулированы теоретические принципы, положенные в основу исследования.
Во второй главе приведены правила и поисковые шаблоны на инструменте Grep для выявления именных словосочетаний в испанском фармацевтическом корпусе, описан механизм работы составленной базы знаний, проведен анализ устойчивости выявленных именных словосочетаний и предложен метод их постобработки.
В заключении подводятся основные итоги проведенного исследования, формулируются общие выводы, намечаются перспективы дальнейшего исследования в этой области.
Библиографический список представлен 50 наименованиями.
В качестве приложений включена лексическая база знаний использованная в эксперименте, таблица с регулярными выражениями, а также графически представленные правила алгоритмов для построения поисковых шаблонов в терминах регулярных выражений.
В данной дипломной работе были рассмотрены различные лингвистические подходы в определении сущности «словосочетания», которые показывают неоднозначность понимания синтаксической группы как отдельной синтаксической единицы.
Словосочетание является достаточно сложным объектом для машинного анализа в испанском языке.
В ходе исследования, мы выяснили, что рационалистический подход (подход основанный на правилах с использованием регулярных выражений) не позволяет создать точную модель поиска и выделения именных словосочетаний в корпусах испанского языка. В-основном, это обусловлено флективностью языка и особенностями выбранного метода.
Основываясь на конечном детерминированном автомате появляется возможность создания различных алгоритмов и поисковых вариантов для выявления именных словосочетаний в текстовых корпусах.
В ходе практической работы нами были выявлены 14 правил, составленных с опорой на классификацию П.А. Леканта, для извлечения именных словосочетаний.
В ходе работы мы выяснили, что большинство поисковых шаблонов имеют низкую точность определения именных словосочетаний. Это связанно с тем, что предварительно нами не были составлены списки стоп- слов (закрытые части речи, союзы, артикли и предлоги), списки глагольных форм (отсутствовали инициальный и финальный список), не учтены признаки вхождения искомого элемента в состав более крупной именной группы (напр. Наличие предлога «de» или союза «а»).
В ходе работы была разработана модель для извлечения именных словосочетаний, включающая в себя 11 правил и 24 шаблона в терминах регулярных выражений.
Модель реализована в форме базы знаний, состоящей из правил, шаблонов и списка лексических единиц. В ходе апробации мы получили достаточно высокие показатели точности, которые указывают на то, что при составлении шаблонов была максимальна учтена структура именного словосочетания, а также грамматические показатели стержневого компонента. Мы имеем средний уровень полноты, который указывает на то, что выбранные варианты шаблонов не покрывают всевозможные вариации именных словосочетаний и требуют дальнейшей разработки и пополнения базы знаний.
При обработке достаточно весомого корпуса была достигнута высокая скорость извлечения, что указывает на возможность обработки массивных корпусов данных на современных компьютерных устройствах даже вне лаборатории.
Словосочетание является достаточно сложным объектом для машинного анализа в испанском языке.
В ходе исследования, мы выяснили, что рационалистический подход (подход основанный на правилах с использованием регулярных выражений) не позволяет создать точную модель поиска и выделения именных словосочетаний в корпусах испанского языка. В-основном, это обусловлено флективностью языка и особенностями выбранного метода.
Основываясь на конечном детерминированном автомате появляется возможность создания различных алгоритмов и поисковых вариантов для выявления именных словосочетаний в текстовых корпусах.
В ходе практической работы нами были выявлены 14 правил, составленных с опорой на классификацию П.А. Леканта, для извлечения именных словосочетаний.
В ходе работы мы выяснили, что большинство поисковых шаблонов имеют низкую точность определения именных словосочетаний. Это связанно с тем, что предварительно нами не были составлены списки стоп- слов (закрытые части речи, союзы, артикли и предлоги), списки глагольных форм (отсутствовали инициальный и финальный список), не учтены признаки вхождения искомого элемента в состав более крупной именной группы (напр. Наличие предлога «de» или союза «а»).
В ходе работы была разработана модель для извлечения именных словосочетаний, включающая в себя 11 правил и 24 шаблона в терминах регулярных выражений.
Модель реализована в форме базы знаний, состоящей из правил, шаблонов и списка лексических единиц. В ходе апробации мы получили достаточно высокие показатели точности, которые указывают на то, что при составлении шаблонов была максимальна учтена структура именного словосочетания, а также грамматические показатели стержневого компонента. Мы имеем средний уровень полноты, который указывает на то, что выбранные варианты шаблонов не покрывают всевозможные вариации именных словосочетаний и требуют дальнейшей разработки и пополнения базы знаний.
При обработке достаточно весомого корпуса была достигнута высокая скорость извлечения, что указывает на возможность обработки массивных корпусов данных на современных компьютерных устройствах даже вне лаборатории.





