Введение 3
Глава 1. Постановка задачи
1.1. Обзор методов извлечения данных 5
1.2. Анализ формальных понятий 7
1.3. Схема решения задачи выявления клише в тувинских сказаниях 9
Глава 2.Описание алгоритмов и программные средства
2.1. Обзор алгоритмов и программных средств извлечения данных 10
2.2. Алгоритм выявления клише в тувинских сказаниях 19
2.3. Описание программы 21
2.4. Выявление клише в тувинских сказаниях 26
Заключение 29
Список использованных источников и литературы 30
Приложение 31
На сегодняшний день проблема автоматизированной обработки текста получила особую актуальность. Основным и наиболее востребованным способом представления информации является текст на естественном языке. В больших массивах текстовых данных можно решать следующие важные задачи: извлечение знаний из текста, поиск, классификация, кластеризация, определения принадлежности к жанру, тематике и пространственно-временному периоду, исследование текста с целью установления автора (сказителя), выявления языковых особенностей и клише и т.д. Для решения выше предложенных задач используются многие методы и алгоритмы технологии анализа текстов (Text Mining).
Технология анализа текста или Text Mining - это развивающаяся область исследований, занимающаяся обнаружением знаний в больших объемах текстовых данных. При этом Text Mining базируется как на методах обнаружения знаний в данных, так и на методах обработки текстов. На основе технологии Text Mining существует множество программ: «Russian Morphological Dictionary», «Mystem», «Рабочее Место Лингвиста», «Морфологический анализатор», «Galaktika-ZOOM», «NetXtract», «Технологии поиска и анализа текстовой информации», «Худломер», «Лингвоанализатор». Предложенные программы могут быть использованы в различных областях знания и с различными целями. Например, такие программы как «Russian Morphological Dictionary», «Рабочее Место Лингвиста», «Морфологический анализатор» предназначены для морфологического и синтаксического анализа текста на русском языке. Программы «Galaktika-ZOOM», «NetXtract» позволяют прийти к пониманию о частоте выявленных лексических единиц, группировке в текстах, дают основания для исследования семантических процессов в изучаемых речевых продуктах. А программы «Технологии поиска и анализа текстовой информации», «Худломер», «Лингвоанализатор» позволяют собирать данные, необходимые для определения стилевой принадлежности текстов.
Актуальность выпускной квалификационной работы обусловлено тем, что не существует программ для выявления клише в произведениях тувинского героического эпоса.
Объект исследования выпускной квалификационной работы разработка программного продукта в среде PHP, MySQL.
Предмет исследования: разработка программного продукта для выявления клише в тувинских сказаниях.
Целью выпускной квалификационной работы является разработка алгоритма и программного продукта для выявления клише в тувинских сказания.
Для достижения поставленной цели выпускной квалификационной работы необходимо решить следующие задачи:
-изучить литературу по разработке программного продукта извлечения данных из текстов;
- разработать алгоритм выявления клише в тувинских сказаниях;
- программно реализовать разработанный алгоритм,
- применить разработанный алгоритм и программу при решении задачи выявления клише в тувинских сказаниях.
Выпускная квалификационная работа состоит из введения, двух глав, заключения, списка использованных источников и приложения.
В первой главе рассмотрен обзор методов извлечения данных, анализ формальных понятий, схема решения задачи выявления клише в тувинских сказаниях.
Во второй главе описаны обзор алгоритмов и программных средств извлечения данных, алгоритм выявление клише в тувинских сказаниях, описание программы, выявление клише в тувинских сказаниях.
В бакалаврской работе решены следующие задачи исследования:
• изучена литература по разработке программного продукта извлечения данных из текстов;
• разработан алгоритм выявления клише в тувинских сказаниях;
• программно реализован разработанный алгоритм;
• разработанная программа применена при решении знаний выявления клише в тувинских сказаниях.
1. Анализ формальных понятий [Электронный ресурс].
http: //dic.academic.ru
2. Анализ формальных понятий [Электронный ресурс].
http: //www.machineleaming.ru
3. Гуров, С. И. Классификация на основе АФП и бикластеризации: возможности подхода / С. И. Гуров, А. А. Онищенко // Прикладная математика и информатика: Труды факультета Вычислительной математики и кибернетики МГУ. - 2011.
4. Евтушенко С. А. Алгоритмы рисования линейных диаграмм. М.:2000.
5. Игнатов Д.И., Кузнецов С.О. Методы разработки данных (DataMining) для рекомендательной системы Интернет-рекламы // Одиннадцатая национальная конференция по искусственному интеллекту с международным - М.: Ленанд, 2008.
6. Игнатов Д.И., Кононыхина О.Н. Решетки формальных понятий для анализа данных социологических опросов// Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов. В 2-х томах. Т1. - М.: Физматлит, 2009.
7. Игнатов Д. И. Анализ формальных понятий: от теории к практике. М.: МАКС Пресс, 2012.
8. Кузнецов С.О., Игнатов Д.И., Объедков С.А., Самохин М.В. Порождение кластеров документов дубликатов: подход, основанный на поиске частых замкнутых множеств признаков. Интернет-математика 2005. Автоматическая обработка веб-данных. Москва:"Япс1е”, 2005.
9. Кузнецов С.О, ДСМ-метод как система автоматического обучения, Итоги науки и техники. Сер. Информатика. 1991.