Введение 3
Глава 1. Постановка задачи
1.1. Обзор методов извлечения данных 5
1.2. Анализ формальных понятий 7
1.3. Схема решения задачи выявления клише в тувинских сказаниях 9
Глава 2.Описание алгоритмов и программные средства
2.1. Обзор алгоритмов и программных средств извлечения данных 10
2.2. Алгоритм выявления клише в тувинских сказаниях 19
2.3. Описание программы 21
2.4. Выявление клише в тувинских сказаниях 26
Заключение 29
Список использованных источников и литературы 30
Приложение 31
На сегодняшний день проблема автоматизированной обработки текста получила особую актуальность. Основным и наиболее востребованным способом представления информации является текст на естественном языке. В больших массивах текстовых данных можно решать следующие важные задачи: извлечение знаний из текста, поиск, классификация, кластеризация, определения принадлежности к жанру, тематике и пространственно-временному периоду, исследование текста с целью установления автора (сказителя), выявления языковых особенностей и клише и т.д. Для решения выше предложенных задач используются многие методы и алгоритмы технологии анализа текстов (Text Mining).
Технология анализа текста или Text Mining - это развивающаяся область исследований, занимающаяся обнаружением знаний в больших объемах текстовых данных. При этом Text Mining базируется как на методах обнаружения знаний в данных, так и на методах обработки текстов. На основе технологии Text Mining существует множество программ: «Russian Morphological Dictionary», «Mystem», «Рабочее Место Лингвиста», «Морфологический анализатор», «Galaktika-ZOOM», «NetXtract», «Технологии поиска и анализа текстовой информации», «Худломер», «Лингвоанализатор». Предложенные программы могут быть использованы в различных областях знания и с различными целями. Например, такие программы как «Russian Morphological Dictionary», «Рабочее Место Лингвиста», «Морфологический анализатор» предназначены для морфологического и синтаксического анализа текста на русском языке. Программы «Galaktika-ZOOM», «NetXtract» позволяют прийти к пониманию о частоте выявленных лексических единиц, группировке в текстах, дают основания для исследования семантических процессов в изучаемых речевых продуктах. А программы «Технологии поиска и анализа текстовой информации», «Худломер», «Лингвоанализатор» позволяют собирать данные, необходимые для определения стилевой принадлежности текстов.
Актуальность выпускной квалификационной работы обусловлено тем, что не существует программ для выявления клише в произведениях тувинского героического эпоса.
Объект исследования выпускной квалификационной работы разработка программного продукта в среде PHP, MySQL.
Предмет исследования: разработка программного продукта для выявления клише в тувинских сказаниях.
Целью выпускной квалификационной работы является разработка алгоритма и программного продукта для выявления клише в тувинских сказания.
Для достижения поставленной цели выпускной квалификационной работы необходимо решить следующие задачи:
-изучить литературу по разработке программного продукта извлечения данных из текстов;
- разработать алгоритм выявления клише в тувинских сказаниях;
- программно реализовать разработанный алгоритм,
- применить разработанный алгоритм и программу при решении задачи выявления клише в тувинских сказаниях.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованных источников и приложения.
В первой главе рассмотрен обзор методов извлечения данных, анализ формальных понятий, схема решения задачи выявления клише в тувинских сказаниях.
Во второй главе описаны обзор алгоритмов и программных средств извлечения данных, алгоритм выявление клише в тувинских сказаниях, описание программы, выявление клише в тувинских сказаниях.
В бакалаврской работе решены следующие задачи исследования:
• изучена литература по разработке программного продукта извлечения данных из текстов;
• разработан алгоритм выявления клише в тувинских сказаниях;
• программно реализован разработанный алгоритм;
• разработанная программа применена при решении знаний выявления клише в тувинских сказаниях.