ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ
Цель диссертационной работы:
Разработка системы сравнительного анализа текстов научных публикаций которая поможет распознать сходства между научными работами.
Актуальность работы:
Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Новизна работы:
Система сравнительного анализа текстов научных публикаций на сходства разрабатывается в первые.
Практическая значимость:
Система предоставит исследователям больше информации об области исследований путем анализа научных работ, которые связаны друг с другом, но не дают ссылки друг на друга.
Объект исследования:
Разработка системы сравнительного анализа текстов научных публикаций на сходства.
Предмет исследования:
Научные работы, которые связаны друг с другом, но не дают ссылки друг на друга.
Задачи:
1. Теоретический обзор интеллектуального анализ текстов.
2. Изучение и выбор средств разработки системы.
3. Разработка системы сравнительного анализа текстов.
4. Тестирование системы.
В результате работы разработана система интеллектуального анализа, которая анализирует сходство статей с похожей темой исследования, но не ссылающих друг на друга.
Разработанная система может применятся для сравнительного анализа статей. Система упростит процесс анализа и выявление сходства между проделанных работ и исследуемой темой. Система тоже поможет более детально выявить похожие по теме исследования, которое обеспечит больше информации научным исследователям.
Анализ результатов разработанной системы показывает её конкурентоспособность. Средняя оценка, измеренная по методу коэффициентной корреляции Пирсона, составляет 0.67, которое измеряется как высокая устойчивость корреляции. Этот результат доказывает о достижении цели.
Разработанная система имеет ограничения. Но в будущие исследовательские работы можно расширить функционалы и возможности системы. Некоторые функционалы, которые возможно расширить:
- Разработанная система работает локально, можно сделать онлайн систему.
- Система обрабатывает только файлы с форматом PDF, можно расширить формат файлов.
- Система использует алгоритм сравнения на основе строк, можно использовать алгоритм наукоемкого сходства, который дает возможности для более расширенного анализа.