ВВЕДЕНИЕ 5
1 Кластеризация 6
1.1 Задача кластеризации 6
1.2 Меры близости в алгоритмах кластеризации 7
Евклидово расстояние 7
Расстояние Чебышева 7
Расстояние по Хеммингу (манхэттенское расстояние) 7
1.3 Классификация алгоритмов кластеризации 7
2 Прогнозирование 12
2.1 Задачи прогнозирования и обзор методов 12
3 Внедрённые алгоритмы 14
3.1 Подготовка данных для использования их при исследовании работы алгоритмов ....14
3.2 Восстановление временных рядов алгоритмом кластеризации «k-means» 15
3.2.1 Разработка способов оценки работы алгоритмов 16
3.3 Восстановление временных рядов алгоритмом кластеризации «DBSCAN» 25
3.4 Восстановление временных рядов алгоритмом прогнозирования NeuralNetwork 27
3.4.1 Последовательный способ 28
3.4.2 Итерационный способ 30
4 Сравнение результатов работы алгоритмов 32
ЗАКЛЮЧЕНИЕ 34
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 35
В настоящее время повсеместное внедрение автоматизации технических систем и процессов привело к применению широкой номенклатуры средств фиксации физических и технических величин и параметров (датчики и пр. измерительное оборудование). Таким образом, значительное количество данных о системах, объектах представлены временными рядами - это числовые значения, характеризующие состояние системы, объекта или процесса, последовательно полученные через равные промежутки времени . Однако, из-за некорректной работы датчика, отказа оборудования, ошибок пользователя или по иным причинам, во временном ряду могут не фиксироваться как отдельные значения, так и данные в течении длительных промежутков времени. Если в первом случае можно воспользоваться методами интерполяции или аппроксимации, то во втором нужно использовать средства машинного обучения, чтобы правдоподобно восполнить ряд, и данные стали доступными для решения задач.
Цель данного исследования - оценить эффективность восполнения пропусков во временных рядах методами кластеризации и прогнозирования.
Задачи данного исследования:
1) осуществить обзор методов кластеризации и прогнозирования;
2) реализовать программный модуль предварительной обработки данных для использования их при исследовании работы методов кластеризации и прогнозирования;
3) разработать и программно реализовать способы оценки результатов работы методов кластеризации и прогнозирования.
В данном исследовании решены следующие поставленные задачи:
• произведен краткий обзор существующих методов кластеризации и прогнозирования,
• подробно рассмотрены методы кластеризации «k-means» и «DBSCAN» и метод прогнозирования «Нейронные сети»,
• реализованы программные модули восстановления данных ЭЭГ алгоритмами «k- means», «DBSCAN» и нейронными сетями,
• разработана и программно реализована методика сравнения результатов работы алгоритмов.