Введение
1 Анализ данных при решении задач идентификации 5
1.1 Постановка задачи идентификации 5
1.2 Априорная и текущая информация 10
1.3 Методы параметрической идентификации 12
1.4 Методы непараметрической идентификации 15
1.5 Задача анализа данных 19
Выводы по главе 1 22
2 Задача заполнения пропусков в матрице наблюдений 23
2.1 Причины появления пропусков в данных и их классификация 23
2.2 Алгоритмы заполнения пропусков в данных 27
2.3 Алгоритм ZET 29
2.4 Модификации алгоритма ZET 33
Выводы по главе 2 37
3 Вычислительные эксперименты 38
3.1 Результаты исследования ZET - алгоритма 38
3.2 Результаты исследования непараметрической методики
восстановления пропусков в данных 43
3.3 Сравнительная характеристика исследованных алгоритмов 51
3.4 Моделирование 54
Выводы по главе 3 58
ЗАКЛЮЧЕНИЕ 59
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 60
При управлении различного рода процессами (технологическими, социальными, экономическими и т.д.) важную роль играет моделирование и идентификация. Модели позволяют выявить наиболее важные свойства и закономерности исследуемого процесса, что довольно сложно сделать на реальном объекте.
При моделировании большое значение имеет как априорная информация об объекте исследования, так и текущая. Текущая информация может содержать в себе ряд недостатков, в частности, пропуски (пробелы) в данных. Пробелы в данных приводят к понижению точности моделей исследуемого объекта.
Проблема пропущенных значений достаточно актуальна. Неполнота данных приводит к ошибкам работы программ, неполноте информации об исследуемом объекте. Такая неполнота может образоваться в связи с отказом датчика, ошибке респондента, ошибке в анкете и т.д.
При небольшом количестве пропусков строку, содержащую пробелы, можно не учитывать при решении задачи моделирования. Однако, когда пропусков достаточно много, данная процедура не может быть применена, поскольку большие объемы информации будут потеряны. Именно для таких случаев и предназначены методы восстановления данных с пропусками.
На сегодняшний день существует достаточно большое количество методов заполнения пропусков в данных (заполнение по среднему, разновидности ZET алгоритмов и других алгоритмов «Ванга», и другие). Существующие алгоритмы заполнения пропусков зачастую предполагают знания основных статистических характеристик выборки и достаточно большого объема априорной информации. В связи с этим предлагается непараметрическая методика заполнения пропусков в данных. Пропуски при этом могут располагаться хаотично, вплоть до нескольких пропусков в одной строке. Учитывая выше сказанное, данная проблема является достаточно актуальной.
Целью данной дипломной работы является сравнение предлагаемого непараметрического алгоритма с ZET алгоритмом и их анализ. Для этого необходимо решить следующие задачи:
- реализовать алгоритмы обработки неполных данных на языке программирования C#;
- провести исследование каждого алгоритма;
- сравнить результаты исследования алгоритмов между собой;
- сделать выводы о проделанной работе.
В данной работе используются такие методы, как: математическое моделирование, теория идентификации, анализ данных и математическая статистика.
Объектом данной работы является решение задачи идентификации по выборкам, содержащим пропуски. Предметом работы являются алгоритмы обработки неполных данных.
В данной выпускной квалификационной работе была поставлена цель решения задачи идентификации по выборке наблюдений с пропусками. В связи с этим рассматривается как уже существующий алгоритм заполнения пропусков, так и предлагаемый новый непараметрический алгоритм.
Для решения поставленных в работе задач был проведен обзор уже существующих алгоритмов восстановления пропусков (в данной работе ZET алгоритм). При исследовании эффективности работы алгоритма были рассчитаны среднеквадратичные погрешности при различных сочетания помех, процента пропусков, количества переменных и размера выборки. Выявлено, что ZET алгоритм сильно зависит от размера компетентной матрицы и количества пропусков в матрице наблюдений. Так же была решена задача идентификации по неполной выборке с помощью предлагаемого непараметрического алгоритма. Алгоритм позволил повысить точность ее решения.
Реализован новый алгоритм заполнения пропусков, проведено его исследование, а так же сравнительный анализ с ZET алгоритмом. Выявлено, что среднеквадратичная погрешность у ZET алгоритма выше, чем у предлагаемого алгоритма. Так же исследования показали, что задача идентификации по заполненной выборке решается точнее, чем по выборке с пропусками.
В итоге, основываясь на вышесказанном, предлагаемый алгоритм позволит повысить точность моделирования и может быть применен в таких областях как анализ и обработка данных, социология, промышленность, медицина и др.