🔍 Поиск готовых работ

🔍 Поиск работ

АВТОМАТИЗАЦИЯ ИЗВЛЕЧЕНИЯ ЛЕКСИКОГРАФИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (НА МАТЕРИАЛЕ КИТАЙСКОГО ЯЗЫКА)

Работа №196522

Тип работы

Дипломные работы, ВКР

Предмет

лингвистика

Объем работы54
Год сдачи2018
Стоимость4540 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
26
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1 Лексикография - наука о создании и изучении словарей 8
1.1 Понятие лексикография 8
1.2 Словарь как основной лексикографический ресурс 10
1.2.1 Классификация словарей и их цели 12
1.2.2 Источники лексикографической информации 18
1.2.3 Этапы построения словарей 20
1.3 Компьютерная лексикография 23
1.4 Автоматизация построения вокабуляра словаря 25
Выводы по главе 1 27
Глава 2 Разработка модели для автоматического создания китайского словаря
именных групп 29
2.1 Мотивация для создания программы по формированию словарей
именных групп на китайском языке по предметной области 29
2.2 Общая характеристика программы 30
2.3 Использование сторонней программы SegmentAnt для
морфологического анализа текста 33
2.4 Сбор списка текстов и их обработка в программе SegmentAnt 34
2.5 Процесс извлечение кандидатов в именные группы 37
2.6 Процесс фильтрации кандидатов в именные группы 40
Вывод по главе 2 43
Заключение 44
Библиографический список 46
Приложение 1 51
Приложение 2 52
Приложение 3 53
Приложение 4 54


Автоматическое извлечение информации из текстов на естественном языке является одной из важных проблем в области автоматической обработки естественного языка, решение которой позволит повысить эффективность использования информационных ресурсов, хранящихся в виде электронных текстовых документов [21]. Востребованность в эффективных методах для решения данной проблемы возрастает, если речь идёт о документах на иностранных языках, отличных от русского, английского, немецкого и других алфавитных языков. Если для европейских языков существует достаточно большое количество методов автоматического извлечения ценной информации из текстов, списков текстов, корпусов, то для изолирующих языков, например, китайского, корейского, японского, набор методов решения данной проблемы обработки естественного языка, на сегодняшний день, не является удовлетворительным. Особенно если речь идёт о китайском языке.
В двадцать первом веке китайский язык получает большое распространение по всему миру, благодаря политике, которую проводит Китай. Из этого следует вывод, что и количество информации, хранимой и передаваемой на китайском языке, с каждым днём увеличивается и необходимость в её обработке возрастает.
Группа Стэнфордского университета по обработке естественного языка активно занимается проблемой анализа китайского языка средствами ЭВМ. Такие прикладные лингвисты как, Стивен Берд, Эдвард Лопер и Эван Клейн, создатели пакетов библиотек и программ для обработки естественного языка. Нельзя забывать и об энтузиастах, которые выкладывают свои программы для свободного использования на сайте GitHub, крупнейшем веб-сервисе для хостинга IT-проектов и их совместной разработки. Стоит отметить, что данный список людей, занимающихся анализом китайского языка, не является исчерпывающим.
Актуальность обработки китайского языка растёт, о чём свидетельствует привлечение первых двух вышеупомянутых больших групп учёных- лингвистов.
Актуальность дипломной работы заключается в необходимости нахождения метода, способного решать проблемы в области обработки китайского языка, а именно в извлечении именных групп.
Объект исследования дипломной работы - список текстов на китайском языке по лингвострановедческой тематике.
Предмет исследования дипломной работы - именные группы китайского языка.
Одной из задач автоматического извлечения информации является автоматическое формирование словарей предметной области [21].
Лексикография (наука о создании, изучении и использовании словарей) включает в себя как теоретические знания, так и практические исследования: теоретическая часть лексикографии включает в себя теорию и историю создания словарей, в свою очередь, практическая занимается непосредственным созданием словарей и сбором первичного словарного материала [8].
Компьютерная лексикография представлена совокупностью методов и программных средств обработки текстовой информации для создания словарей [17]. В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы, базы данных, компьютерные картотеки, программы обработки текста позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её [35].
Из выше изложенного - актуальности проблемы обработки китайского языка, тезисов из теории по лексикографии, объекту и предмету исследования - формируется цель дипломной работы.
Цель исследования - написание программы для автоматического создания словаря именных групп китайского языка.
Для достижения цели дипломной работы нами были поставлены следующие задачи:
1. Сбор и изучение теоретических знаний по лексикографии, компьютерной лексикографии, именным группам и автоматическому извлечению информации из текстов на естественном языке.
2. Создание списка текстов из учебного пособия по страноведенью Китая.
3. Поиск метода для извлечения именных групп из текста на китайском языке.
4. Создание программы на языке программирования python по извлечению именных групп и автоматическому формированию словаря предметной области.
В нашем исследовании мы не ставим помимо основной цели, второстепенную - разрешить все проблемы, с которыми столкнёмся во время работы. Одной из таких проблем стала проблема определения частей речи в тексте на китайском языке. Данная проблема является решаемой за короткий промежуток времени, но после определения частей речи, встаёт вопрос, о неоднозначности лексики, что является также проблемой. Так как иероглиф может являться сразу несколькими частями речи, например, иероглиф Ж [jia] может быть, как существительным семья, так и служебным словом: счётным словом для зданий. Для решения этих проблем мы использовали стороннюю программу SegmentAnt для тегирования и сегментации текста [28].
Методы, которые были использованы в дипломной работе:
1. Метод непосредственно составляющих;
2. Корпусный анализ;
3. Метод лингвистического моделирования.
Научная новизна дипломной работы заключается, во-первых, в том, что метод для извлечения именных групп разрабатываемый Шереметьевой С.О. ранее использовался только на европейских языках. Во-вторых, 5
предварительная обработка текста в методе, предлагаемом Шереметьевой С.О, заключается в построение списка n-грамм, что в данной дипломной работе не будет использовано. Мы предлагаем вместо построения n-грамм поочерёдный отбор кандидатов в именную группу. Отбор начинается с первого иероглифа и заканчивается на иероглифе, тег которого не входит в состав частей речи, которые могут использоваться в именной группе.
Результаты исследования данной дипломной работы носят, как теоретическую, так и практическую значимость.
Теоретическая значимость дипломной работы заключается в том, что процесс построения программы для автоматического создания словаря предметной области полностью описан во второй главе дипломной работы, что в свою очередь может послужить в обучающих и исследовательских целях.
Практическая значимость непосредственно заключается в созданной программе, которая находится в свободном доступе на сайте GitHub. Данная программа может быть использована в виде функции по извлечению именных групп для программ более широкой направленности, нацеленные на автоматическую обработку китайского языка.
Структура дипломной работы обусловлена объектом, предметом, целью и задачами исследования. Работа состоит из следующих разделов:
1. Введение раскрывает актуальность темы, определяет объект, предмет, цель, задачи и методы исследования, раскрывает теоретическую и практическую значимость работы.
2. В первой главе рассматривается теория по лексикографии, составлению словарей, словарная статья и её состав, компьютерная лексикография, составление автоматических словарей, различие между автоматическим словарём и лексиконом, методы извлечения вокабуляра.
3. Во второй главе описывается создание программы: алгоритм, метод извлечения именных групп, использованные функции языка программирования python, представлены примеры работы программы как в письменном виде, так и в виде рисунков.
4. В заключении подводятся итоги исследования: была ли достигнута поставленная цель, выполнены ли все задачи, подтверждается или опровергается гипотеза, формируется окончательный вывод по изучаемой теме.
5. В приложении находится вспомогательный материал: скриншот кода программы, список тегов частей речи, которые могут входить в именную группу в китайском языке, список именных групп, составленных вручную и список именных групп, извлечённых автоматически.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Автоматическое извлечение информации из текстов на естественном языке будет является одной из важных проблем в области автоматической обработки естественного языка, решение которой позволит повысить эффективность использования информационных ресурсов, хранящихся в виде электронных текстовых документов [21].
Компьютерная лексикография представлена совокупностью методов и программных средств обработки текстовой информации для создания словарей [17]. В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы, базы данных, компьютерные картотеки, программы обработки текста, позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её [35]. Так наша программа не стала исключением. Мы уверенны, что формальный алгоритм построения программы, который мы предлагаем, позволит использовать данную утилиту как основу для программ более узкой направленности в обработке текстов на китайском языке. Это представляется возможным благодаря тому, что алгоритм, предложенный нами в дипломной работе, может быть использован на текстах с другой тематикой, т.к. работа утилиты будет осуществляется эффективно при наличии программы для определения частей речи, покрывающей большую часть иероглифов китайского языка.
Возвращаясь к цели дипломной работы и её задачам, можно сказать, что цель исследования - написание программы для автоматического создания словаря именных групп китайского языка - была достигнута.
Задачи, поставленные для достижения цели дипломной работы (сбор и изучение теоретических знаний по лексикографии, компьютерной лексикографии, именным группам и автоматическому извлечению информации из текстов на естественном языке; создание списка текстов из учебного пособия по страноведению Китая; определить, что есть именная группа в китайском языке; найти метод для извлечения именных групп из текста на китайском языке; создать программы на языке программирования python по извлечению именных групп и автоматическому формированию словаря предметной области), были выполнены.
Полнота извлечения именных групп программой была проверена сопоставлением двух списков именных групп: первый список был составлен нами вручную, а второй список был составлен программой. Результата этого сопоставления показывает, что именная группа находится в тексте с точностью 80%, но это при учёте того, что программы была нацелена на тексты с лингвострановедческой тематикой.



1. Агапова, Н.А. О принципах создания электронного словаря лингвокультурологического типа: к постановке проблемы [Текст] / Н.А. Агапова, Н.Ф. Картофелева // Вестн. Том. Гос. Ун-та. - 2014. - № 386. - С. 6-10.
2. Бабина, О.И. Извлечение именных групп из корпуса текстов на испанском языке [Текст] / О.И. Бабина, Т.Ю Мыларщикова // Вестник ЮУрГУ. Серия: лингвистика. - 2011. - № 22. - С. 47-53.
3. Бессмертный, И.А. Статистический метод извлечения терминов из китайских текстов без сегментации фраз [Текст] / И.А. Бессмертный, Юй Чуцяо Ма Пенюй // Научно-технический вестник информационных технологий, механики и оптики. - 2016. - № 6. - С. 1096-1102.
4. Беляева, Л.Н. Потенциал автоматизированной лексикографии и прикладная лингвистика [Текст] / Л.Н. Беляева // Известия РГПУ им. А.И. Герцена. - 2010. - № 134. - С. 186-216.
5. Виноградов, В.В. Основные типы лексических значений слова, «Вопросы языкознания» [Текст] / В.В. Виноградов. - М.: Просвещение, 1953. - 125 с.
6. Горелов, В.И. Теоретическая грамматика китайского языка: учеб. Пособие для студентов пед. ин-тов по спец. «Иностр. яз.» [Текст] / В.И. Горелов. - М.: Просвещение, 1989. - 318 с.
7. Демина, Н.А. Страноведение: учебное пособие [Текст] / Н.А. Демина, Чжу Канцзи. - М.: Вост. Лит., 2004. - 351 с.
8. Дубичинский, В.В. Лексикография русского языка: учеб. пособие [Текст] / В.В. Дубчинский. - М.: Наука: Флинта, 2008. - 432 с.
9. Конкатенация [Электронный ресурс]. - Режим доступа:
https://ru.wikipedia.org/wiki/KoHKaTeHauna, свободный. - Загл. с экрана. -
(Дата обращения: 25.03.2018).
10. Лексический разбор слова [Электронный ресурс]. - Режим доступа: ййр://шедаЬоок.ги/аг0с1е/лексический%20разбор%20слова, свободный - Загл. с экрана. - (Дата обращения: 25.03.2018).
11. Мельчук, И.А. Опыт теории лингвистических моделей «Смысл ^ Текст» [Текст] / И.А. Мельчук. - М.: Наука, 1974. - 314 с.
12. Морковкин, В.В. О всеохватном лексикографическом представлении лексического ядра русского языка [Текст] / В.В. Морковкин // Вестн. Том. гос. ун-та. Филология. - 2011. - № 3 - С. 129-135.
13. Нелюбин, Л.Л. Перевод и прикладная лингвистика. [Текст] / Л.Л. Нелюбин. - М.: Высшая школа, 1983. - 208 с.
13. Пустошило, Е.П. Лексикология. Фразеолгоия. Лексикография: учебно¬методический комплекс по русскому языку для студентов педагогических специальностей [Текст] / Е.П. Пустошило. - Гродно: ГРГУ им. Я. Купалы, 2011. - 181 с.
14. Сегментация в лингвистике [Электронный ресурс]. - Режим доступа: https://ш.wikipedia.org/wiki/Сeгмeнтaция (лингвистикa), свободный. - Загл. с экрана. - (Дата обращения: 20.03.2018).
15. Сороколетов, Ф.П. История русской лексикографии [Текст] / Ф.П. Сороколетов. - СПб.: Наука, 2001. - 616 с...39



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ