Непараметрическая идентификация дискретно-непрерывных процессов по выборке наблюдений с пропусками
|
Введение 1
Глава 1. Задачи идентификации многомерных дискретно-непрерывных процессов 6
1.1 Постановка задачи идентификации дискретно-непрерывных процессов... 6
1.2 Априорная и текущая информация 12
1.3 Параметрические алгоритмы идентификации 14
1.4 Непараметрические алгоритмы идентификации 18
1.5 Анализ данных в теории идентификации 22
1.6 Вывод к главе 1 29
Глава 2. Алгоритмы обработки данных, содержащих пропуски и выбросы 30
2.1 Механизмы возникновения пропусков 30
2.2 Zet - алгоритм 32
2.3 Непараметрический алгоритм заполнения пропусков 36
2.4 Недостатки выборок данных 38
2.5 Вывод к главе 2 43
Глава 3. Вычислительные эксперименты 44
3.1 Исследование алгоритма параметрической идентификации 44
3.2 Исследование алгоритмов непараметрической идентификации 49
3.2.1 Заполнение пропусков в выходных данных с помощью алгоритма
непараметрической идентификации 49
3.2.2 Сравнение видов ядерной функции на примере заполнения пропусков
в выходных данных 52
3.2.3 Заполнение пропусков во входных данных с помощью алгоритма
непараметрической идентификации 56
3.3 Исследование Zet-алгоритма 67
3.4 Сравнительный анализ 69
3.5 Вывод к главе 3 75
Список использованных источников 78
Приложение А Плакаты презентации 83
Глава 1. Задачи идентификации многомерных дискретно-непрерывных процессов 6
1.1 Постановка задачи идентификации дискретно-непрерывных процессов... 6
1.2 Априорная и текущая информация 12
1.3 Параметрические алгоритмы идентификации 14
1.4 Непараметрические алгоритмы идентификации 18
1.5 Анализ данных в теории идентификации 22
1.6 Вывод к главе 1 29
Глава 2. Алгоритмы обработки данных, содержащих пропуски и выбросы 30
2.1 Механизмы возникновения пропусков 30
2.2 Zet - алгоритм 32
2.3 Непараметрический алгоритм заполнения пропусков 36
2.4 Недостатки выборок данных 38
2.5 Вывод к главе 2 43
Глава 3. Вычислительные эксперименты 44
3.1 Исследование алгоритма параметрической идентификации 44
3.2 Исследование алгоритмов непараметрической идентификации 49
3.2.1 Заполнение пропусков в выходных данных с помощью алгоритма
непараметрической идентификации 49
3.2.2 Сравнение видов ядерной функции на примере заполнения пропусков
в выходных данных 52
3.2.3 Заполнение пропусков во входных данных с помощью алгоритма
непараметрической идентификации 56
3.3 Исследование Zet-алгоритма 67
3.4 Сравнительный анализ 69
3.5 Вывод к главе 3 75
Список использованных источников 78
Приложение А Плакаты презентации 83
Моделирование является неотъемлемым этапом любой целенаправленной деятельности человека в различных сферах (промышленность, экономика, социология и т.д.). Построение оптимальной в некотором смысле модели - это обязательная часть решения задачи идентификации, которая, в свою очередь, является центральной во многих проблемах теории управления. На сегодняшний день данному направлению посвящено значительное количество научных трудов [2, 3, 4, 5, 6, 7 и др.]. Большой вклад в развитие теории идентификации внесли такие ученые, как П. Эйкхофф, Я.З. Цыпкин, Н.С. Райбман, Л. Льюнг.
Задача идентификации систем, то есть определение структуры и параметров систем по наблюдениям, является одной из основных задач современной теории и техники автоматического управления. Точность решения задачи идентификации напрямую зависит от качества исходных данных (выборки наблюдений). Однако, данные могут содержать в себе различные недостатки, в частности, пропуски.
Пробелы (пропуски) в данных возникают вследствие множества причин, таких как невозможность наблюдения, отсутствие необходимых инструментов и т.п. Самый простой метод работы с такими данными - исключение из таблицы показателя (столбец) или объекта (строку) с пробелом. При большом количестве пропусков в данных этот подход приводит к уменьшению точности модели из- за сокращения объема выборки. Важно отметить, что в описанном случае сложность решения задачи идентификации повышается, особенно, когда плотность пропусков высока, их расположение нерегулярно, а данных недостаточно (крайне мало).
На сегодняшний день разработано множество методов заполнения пропусков в данных. В работах [2, 3, 4, 5, 6, 7 и др.] приводятся результаты работы этих методов в различных условиях. Методы заполнения пропусков реализованы в некоторых пакетах прикладных математических программ (например, SPSS Statistic). Задача оценки влияния этих методов на точность решения задачи идентификации является актуальной.
Целью магистерской диссертации является повышение точности решения задачи идентификации дискретно-непрерывных многомерных процессов по выборкам наблюдений с пропусками.
Для достижения поставленной цели сформулированы следующие задачи:
- синтез и исследование непараметрического алгоритма заполнения пропусков в данных;
- реализация и исследования алгоритма заполнения пропусков Zet;
- сравнение результатов работы непараметрического алгоритма заполнения пропусков и алгоритма Zet.
Для достижения поставленной цели использовались методы математической статистики, анализа данных, математического моделирования. Результаты работы могут быть полезны при создании систем управления многомерными дискретно-непрерывными процессами.
Задача идентификации систем, то есть определение структуры и параметров систем по наблюдениям, является одной из основных задач современной теории и техники автоматического управления. Точность решения задачи идентификации напрямую зависит от качества исходных данных (выборки наблюдений). Однако, данные могут содержать в себе различные недостатки, в частности, пропуски.
Пробелы (пропуски) в данных возникают вследствие множества причин, таких как невозможность наблюдения, отсутствие необходимых инструментов и т.п. Самый простой метод работы с такими данными - исключение из таблицы показателя (столбец) или объекта (строку) с пробелом. При большом количестве пропусков в данных этот подход приводит к уменьшению точности модели из- за сокращения объема выборки. Важно отметить, что в описанном случае сложность решения задачи идентификации повышается, особенно, когда плотность пропусков высока, их расположение нерегулярно, а данных недостаточно (крайне мало).
На сегодняшний день разработано множество методов заполнения пропусков в данных. В работах [2, 3, 4, 5, 6, 7 и др.] приводятся результаты работы этих методов в различных условиях. Методы заполнения пропусков реализованы в некоторых пакетах прикладных математических программ (например, SPSS Statistic). Задача оценки влияния этих методов на точность решения задачи идентификации является актуальной.
Целью магистерской диссертации является повышение точности решения задачи идентификации дискретно-непрерывных многомерных процессов по выборкам наблюдений с пропусками.
Для достижения поставленной цели сформулированы следующие задачи:
- синтез и исследование непараметрического алгоритма заполнения пропусков в данных;
- реализация и исследования алгоритма заполнения пропусков Zet;
- сравнение результатов работы непараметрического алгоритма заполнения пропусков и алгоритма Zet.
Для достижения поставленной цели использовались методы математической статистики, анализа данных, математического моделирования. Результаты работы могут быть полезны при создании систем управления многомерными дискретно-непрерывными процессами.
В первой главе магистерской диссертации сформулирована постановка задачи идентификации, представляющая собой процесс определение структуры и параметров системы по наблюдениям за ее входными-выходными переменными. Определены уровни априорной информации, соответствующие методам параметрической и непараметрической идентификации.
Большое внимание в первой главе уделено вопросу первичного анализа данных. Как известно, точность решения задачи идентификации зависит от качества исходных данных, которые могут содержать в себе некоторые недостатки, например, пропуски и выбросы. Пропуски и выбросы в данных снижают точность решения задачи идентификации. В целях повышения точности решения задачи идентификации рассмотрена задача заполнения пропусков «входных-выходных» переменных матриц наблюдений.
Во второй главе магистерской диссертации рассмотрены механизмы возникновения пропусков в данных, а также подробно описаны вычислительные эксперименты применения параметрического и непараметрического алгоритма.
В пункте 2.2 представлен Zet - алгоритм. Полностью расписаны все этапы его работы, а также на каких гипотезах основан. Данный метод относится к локальным методам заполнения пробелов, так как использует для нахождения решения только некоторую локальную часть экспериментальных данных [44].
В заключительной главе представлены результаты различных вычислительных экспериментов.
В ходе экспериментов была доказана эффективность применения непараметрического алгоритма для заполнения пропусков и построения модели при малой априорной информации.
Эффективность применения непараметрического алгоритма к данным, содержащим пропуски по входным переменным, значительно ниже, чем к данным с пропусками по выходам. Также важно отметить, что при зависимых входных данных результат работы алгоритма будет намного точнее, что описано в гипотезе избыточности [44].
В пункте 3.3 исследован Zet-алгоритм. Данный алгоритм вполне применим в практических задачах по заполнению пропусков в матрице наблюдений, но при относительно небольшом количестве пропусков.
Проведен сравнительный анализ непараметрической оценки кривой регрессии и Zet алгоритма. В условиях малой априорной информации в задаче заполнения пропусков эффективнее использовать непараметрическую оценку кривой регрессии. Zet - алгоритм более эффективен относительно на среднем и малом количестве пропусков
Поставленная цель магистерской диссертации была достигнута, задачи выполнены. Для достижения поставленной цели использовались методы математической статистики, анализа данных, математического моделирования. Результаты работы могут быть полезны при создании систем управления многомерными дискретно-непрерывными процессами.
Большое внимание в первой главе уделено вопросу первичного анализа данных. Как известно, точность решения задачи идентификации зависит от качества исходных данных, которые могут содержать в себе некоторые недостатки, например, пропуски и выбросы. Пропуски и выбросы в данных снижают точность решения задачи идентификации. В целях повышения точности решения задачи идентификации рассмотрена задача заполнения пропусков «входных-выходных» переменных матриц наблюдений.
Во второй главе магистерской диссертации рассмотрены механизмы возникновения пропусков в данных, а также подробно описаны вычислительные эксперименты применения параметрического и непараметрического алгоритма.
В пункте 2.2 представлен Zet - алгоритм. Полностью расписаны все этапы его работы, а также на каких гипотезах основан. Данный метод относится к локальным методам заполнения пробелов, так как использует для нахождения решения только некоторую локальную часть экспериментальных данных [44].
В заключительной главе представлены результаты различных вычислительных экспериментов.
В ходе экспериментов была доказана эффективность применения непараметрического алгоритма для заполнения пропусков и построения модели при малой априорной информации.
Эффективность применения непараметрического алгоритма к данным, содержащим пропуски по входным переменным, значительно ниже, чем к данным с пропусками по выходам. Также важно отметить, что при зависимых входных данных результат работы алгоритма будет намного точнее, что описано в гипотезе избыточности [44].
В пункте 3.3 исследован Zet-алгоритм. Данный алгоритм вполне применим в практических задачах по заполнению пропусков в матрице наблюдений, но при относительно небольшом количестве пропусков.
Проведен сравнительный анализ непараметрической оценки кривой регрессии и Zet алгоритма. В условиях малой априорной информации в задаче заполнения пропусков эффективнее использовать непараметрическую оценку кривой регрессии. Zet - алгоритм более эффективен относительно на среднем и малом количестве пропусков
Поставленная цель магистерской диссертации была достигнута, задачи выполнены. Для достижения поставленной цели использовались методы математической статистики, анализа данных, математического моделирования. Результаты работы могут быть полезны при создании систем управления многомерными дискретно-непрерывными процессами.



