ВВЕДЕНИЕ 3
1. Задача идентификации дискретно-непрерывных процессов 4
1.1 Идентификация в системном анализе 4
1.1.1 Основные понятия системного анализа 4
1.1.2 Модель и моделирование 7
1.1.3 Идентификация 13
1.1.4 Постановка задачи идентификации 13
1.1.4.1 Параметрическая и непараметрическая идентификация 15
1.1.4.2 Постановка задачи параметрической идентификации 16
1.1.4.3 Постановка задачи непараметрической идентификации 17
1.2 Анализ данных при решении задачи идентификации 19
2 Заполнение пропусков в матрице наблюдений процесса 21
2.1 Механизмы возникновения пропусков в данных 21
2.2 Алгоритмы заполнения 23
2.2.1 ZET-алгоритм 28
2.2.2 Непараметрический алгоритм заполнения пропусков 31
3 Результаты и исследование алгоритмов заполнения пропусков 34
1.2 Входные данные 37
1.3 Результаты исследований 39
1.3.1 Непараметрический алгоритм 39
1.3.2 Zet-алгоритм 47
ЗАКЛЮЧЕНИЕ 53
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 54
Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальности в практических задачах анализа данных приходится сталкиваться с проблемой, когда часть данных отсутствует, что усложняет дальнейшую обработку и анализ данных. Причины могут быть различными, например, неответ респондента на какой-либо вопрос, отсутствие значение по причине выхода из строя оборудования. Перед исследователем возникаем вопрос: отсеять данные с пропуском или заполнить их на основе имеющейся информации.
В первом случае теряется полезная информация по заполненным столбцам, либо в результате удаления данных для анализа, может остаться слишком мало информации. В связи с этим особую важность приобретает задача заполнения пропусков в данных, содержащих пропущенные значения.
Существуют различные подходы к решению данной задачи, которые различаются по своей природе, области применимости и вычислительной сложности. В данной работе рассматриваются алгоритм Zet, основывающийся на оценивании закономерностей взаимосвязи между строками и столбцами на локальном участке анализируемого элемента и непараметрический алгоритм восстановления пропусков.
Целью дипломной работы является повышение точности решения задачи идентификации по выборкам наблюдений с пропусками.
Для достижения поставленной цели необходимо решить следующие задачи:
• Реализовать и исследовать алгоритм непараметрического заполнения пропусков;
• Реализовать и исследовать алгоритм заполнения пропусков Zet;
• Провести сравнительный анализ исследуемых алгоритмов.
Целью дипломной работы являлась повышение точности решения задачи идентификации, для этого были реализованы и исследованы следующие алгоритмы:
• непараметрический алгоритм заполнения пропусков;
• Zet-алгоритм.
Непараметрический алгоритм заполнения пропусков был исследован при различном объеме выборки и уровне помехи. В результате можно сделать вывод о том, что точность оценивания по восстановленной матрице наблюдений выше, чем по матрице с пропусками. Ошибка моделирования после заполнения сокращается в среднем на 30%.
Zet-алгоритм был исследован на различных наборах данных при различных зависимостях между строками и столбцами матрицы наблюдения. По результатам вычислительных экспериментов можно сделать вывод о том, что алгоритм дает наилучшие результаты на данных, для которых выполняется гипотеза избыточности, проявляющаяся в наличии похожих между собой объектов (строк) и зависящих друг от друга свойств (столбцов), причем гипотеза избыточности несет локальный характер.
Таким образом, все поставленные в начале работы задачи выполнены. В результате можно сделать вывод о том, что рассмотренные алгоритмы заполнения пропусков значительно повышают точность решения задачи идентификации.
1. Корнеева, А.А., Медведев А.В. О НЕПАРАМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ ДИСКРЕТНО-НЕПРЕРЫВНЫХ ПРОЦЕССОВ ПРИ РАЗЛИЧНОЙ ДИСКРЕТНОСТИ КОНТРОЛЯ ПЕРЕМЕННЫХ / А.А. Корнеева, А.В. Медведев // Современные проблемы науки и образования. - 2014. - № 2.;
2. Корнеева, А.А., Сергеева Н.А., Чжан Е.А. О НЕПАРАМЕТРИЧЕСКОМ АНАЛИЗЕ ДАННЫХ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ / А.А. Корнеева, Н.А. Сергеева, Е.А. Чжан // Вестник томского государственного университета. - 2013. - № 1(22).;
3. Медведев ,А.В., Чжан, Е.А., “О непараметрическом моделировании многомерных безынерционных систем с запаздыванием”/ А.В. Медведев, Е.А. Чжан // Вести. ЮУрГУ. Сер. Матем. моделирование и программирование. - 2017. - C.124-136
4. Rubin, D.B. Multiple Imputation for Nonresponse in Surveys : manual / D.B. Rubin. - New Yirk : Willey, 1987;
5. Литтл, Р.Дж.А. Статистический анализ данных с пропусками : учебник / Р.А.Литтл, Д.Б. Рубин. - Москва : Наука, 1991. - 198с;
6. Злоба, Е. Статистические методы восстановления пропущенных данных / Е.Злоба, И.Яцкив. // Computer Modeling &New Technologies.; Vol.6.2004;
7. Алгоритм Zet //Информационные интеллектуальные системы. Вып.40, 2008. - Режим доступа:http: //iissvit.narod.ru/rass/vip40. htm;
8. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. - Новосибирск: ИМ СО РАН, 1999, 264c.;
9. Загоруйко, Н.Г. Алгоритм заполнения пропсуков в эмпирических таблицах (алгоритм ZET) : сб. тр. / Загоруйко Н.Г., Елкина В.Н., Тимеркаев В.С. - Новосибирск : Вычислительные системы, 1975. - С.3-27;
10. Синитюк, В.Е. Алгоритм ZetBraid [Электронный ресурс] / В.Е. Синитюк // Информационные интеллектуальные системы Вып.40, 2008. - Режим доступа:http://iissvit.narod.ru/rass/vip40.htm;
11. Протасов, К.В. Статистический анализ данных : учебник / К.В. Протасов. - Москва : Мир, 2005. - 142 с.;
12. Россиев, А.А. Моделирование данных для восстановления пробелов в таблицах / А.А. Россиев // Материалы конференции молодых ученых Института вычислительного моделирования СО РАН. - 1998. - с. 46-61.
13. Россиев, А.А. Моделирование данных при помощи кривых для восстановления пробелов в таблицах / А.А. Россиев // Методы нейроинформатики: сборник научных трудов. - 1998. - С. 6-22;
14. Айвазян, С.А. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика / Айвазян С.А., Енюков И.С., Мешалкин Л.Д. -1983. - 471с;
15. Лапко, А.В., Лапко, В.А, Цугленок, Г.И. Синтез и анализ непараметрических моделей стохастических зависимостей и распознавания образов в условиях пропуска данных / А.В. Лапко, В.А. Лапко, Г.И. Цугленок // Вест КрасГАУ. - 2005. - №7. - С.64;
16. Лапко, А.В., Лапко, В.А. Анализ непараметрических алгоритмов распознавания образов в условиях пропуска данных / А.В. Лапко, В.А. Лапко // Автометрия. - 2008. - том 44, №3. - С.65-74;