ВВЕДЕНИЕ 3
1. Задача идентификации дискретно-непрерывных процессов 4
1.1 Идентификация в системном анализе 4
1.1.1 Основные понятия системного анализа 4
1.1.2 Модель и моделирование 7
1.1.3 Идентификация 13
1.1.4 Постановка задачи идентификации 13
1.1.4.1 Параметрическая и непараметрическая идентификация 15
1.1.4.2 Постановка задачи параметрической идентификации 16
1.1.4.3 Постановка задачи непараметрической идентификации 17
1.2 Анализ данных при решении задачи идентификации 19
2 Заполнение пропусков в матрице наблюдений процесса 21
2.1 Механизмы возникновения пропусков в данных 21
2.2 Алгоритмы заполнения 23
2.2.1 ZET-алгоритм 28
2.2.2 Непараметрический алгоритм заполнения пропусков 31
3 Результаты и исследование алгоритмов заполнения пропусков 34
1.2 Входные данные 37
1.3 Результаты исследований 39
1.3.1 Непараметрический алгоритм 39
1.3.2 Zet-алгоритм 47
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 54
Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальности в практических задачах анализа данных приходится сталкиваться с проблемой, когда часть данных отсутствует, что усложняет дальнейшую обработку и анализ данных. Причины могут быть различными, например, неответ респондента на какой-либо вопрос, отсутствие значение по причине выхода из строя оборудования. Перед исследователем возникаем вопрос: отсеять данные с пропуском или заполнить их на основе имеющейся информации.
В первом случае теряется полезная информация по заполненным столбцам, либо в результате удаления данных для анализа, может остаться слишком мало информации. В связи с этим особую важность приобретает задача заполнения пропусков в данных, содержащих пропущенные значения.
Существуют различные подходы к решению данной задачи, которые различаются по своей природе, области применимости и вычислительной сложности. В данной работе рассматриваются алгоритм Zet, основывающийся на оценивании закономерностей взаимосвязи между строками и столбцами на локальном участке анализируемого элемента и непараметрический алгоритм восстановления пропусков.
Целью дипломной работы является повышение точности решения задачи идентификации по выборкам наблюдений с пропусками.
Для достижения поставленной цели необходимо решить следующие задачи:
• Реализовать и исследовать алгоритм непараметрического заполнения пропусков;
• Реализовать и исследовать алгоритм заполнения пропусков Zet;
• Провести сравнительный анализ исследуемых алгоритмов.
Целью дипломной работы являлась повышение точности решения задачи идентификации, для этого были реализованы и исследованы следующие алгоритмы:
• непараметрический алгоритм заполнения пропусков;
• Zet-алгоритм.
Непараметрический алгоритм заполнения пропусков был исследован при различном объеме выборки и уровне помехи. В результате можно сделать вывод о том, что точность оценивания по восстановленной матрице наблюдений выше, чем по матрице с пропусками. Ошибка моделирования после заполнения сокращается в среднем на 30%.
Zet-алгоритм был исследован на различных наборах данных при различных зависимостях между строками и столбцами матрицы наблюдения. По результатам вычислительных экспериментов можно сделать вывод о том, что алгоритм дает наилучшие результаты на данных, для которых выполняется гипотеза избыточности, проявляющаяся в наличии похожих между собой объектов (строк) и зависящих друг от друга свойств (столбцов), причем гипотеза избыточности несет локальный характер.
Таким образом, все поставленные в начале работы задачи выполнены. В результате можно сделать вывод о том, что рассмотренные алгоритмы заполнения пропусков значительно повышают точность решения задачи идентификации.