Введение 1
Глава 1. Задачи идентификации многомерных дискретно-непрерывных процессов 6
1.1 Постановка задачи идентификации дискретно-непрерывных процессов... 6
1.2 Априорная и текущая информация 12
1.3 Параметрические алгоритмы идентификации 14
1.4 Непараметрические алгоритмы идентификации 18
1.5 Анализ данных в теории идентификации 22
1.6 Вывод к главе 1 29
Глава 2. Алгоритмы обработки данных, содержащих пропуски и выбросы 30
2.1 Механизмы возникновения пропусков 30
2.2 Zet - алгоритм 32
2.3 Непараметрический алгоритм заполнения пропусков 36
2.4 Недостатки выборок данных 38
2.5 Вывод к главе 2 43
Глава 3. Вычислительные эксперименты 44
3.1 Исследование алгоритма параметрической идентификации 44
3.2 Исследование алгоритмов непараметрической идентификации 49
3.2.1 Заполнение пропусков в выходных данных с помощью алгоритма
непараметрической идентификации 49
3.2.2 Сравнение видов ядерной функции на примере заполнения пропусков
в выходных данных 52
3.2.3 Заполнение пропусков во входных данных с помощью алгоритма
непараметрической идентификации 56
3.3 Исследование Zet-алгоритма 67
3.4 Сравнительный анализ 69
3.5 Вывод к главе 3 75
Список использованных источников 78
Приложение А Плакаты презентации 83
Моделирование является неотъемлемым этапом любой целенаправленной деятельности человека в различных сферах (промышленность, экономика, социология и т.д.). Построение оптимальной в некотором смысле модели - это обязательная часть решения задачи идентификации, которая, в свою очередь, является центральной во многих проблемах теории управления. На сегодняшний день данному направлению посвящено значительное количество научных трудов [2, 3, 4, 5, 6, 7 и др.]. Большой вклад в развитие теории идентификации внесли такие ученые, как П. Эйкхофф, Я.З. Цыпкин, Н.С. Райбман, Л. Льюнг.
Задача идентификации систем, то есть определение структуры и параметров систем по наблюдениям, является одной из основных задач современной теории и техники автоматического управления. Точность решения задачи идентификации напрямую зависит от качества исходных данных (выборки наблюдений). Однако, данные могут содержать в себе различные недостатки, в частности, пропуски.
Пробелы (пропуски) в данных возникают вследствие множества причин, таких как невозможность наблюдения, отсутствие необходимых инструментов и т.п. Самый простой метод работы с такими данными - исключение из таблицы показателя (столбец) или объекта (строку) с пробелом. При большом количестве пропусков в данных этот подход приводит к уменьшению точности модели из- за сокращения объема выборки. Важно отметить, что в описанном случае сложность решения задачи идентификации повышается, особенно, когда плотность пропусков высока, их расположение нерегулярно, а данных недостаточно (крайне мало).
На сегодняшний день разработано множество методов заполнения пропусков в данных. В работах [2, 3, 4, 5, 6, 7 и др.] приводятся результаты работы этих методов в различных условиях. Методы заполнения пропусков реализованы в некоторых пакетах прикладных математических программ (например, SPSS Statistic). Задача оценки влияния этих методов на точность решения задачи идентификации является актуальной.
Целью магистерской диссертации является повышение точности решения задачи идентификации дискретно-непрерывных многомерных процессов по выборкам наблюдений с пропусками.
Для достижения поставленной цели сформулированы следующие задачи:
- синтез и исследование непараметрического алгоритма заполнения пропусков в данных;
- реализация и исследования алгоритма заполнения пропусков Zet;
- сравнение результатов работы непараметрического алгоритма заполнения пропусков и алгоритма Zet.
Для достижения поставленной цели использовались методы математической статистики, анализа данных, математического моделирования. Результаты работы могут быть полезны при создании систем управления многомерными дискретно-непрерывными процессами.
В первой главе магистерской диссертации сформулирована постановка задачи идентификации, представляющая собой процесс определение структуры и параметров системы по наблюдениям за ее входными-выходными переменными. Определены уровни априорной информации, соответствующие методам параметрической и непараметрической идентификации.
Большое внимание в первой главе уделено вопросу первичного анализа данных. Как известно, точность решения задачи идентификации зависит от качества исходных данных, которые могут содержать в себе некоторые недостатки, например, пропуски и выбросы. Пропуски и выбросы в данных снижают точность решения задачи идентификации. В целях повышения точности решения задачи идентификации рассмотрена задача заполнения пропусков «входных-выходных» переменных матриц наблюдений.
Во второй главе магистерской диссертации рассмотрены механизмы возникновения пропусков в данных, а также подробно описаны вычислительные эксперименты применения параметрического и непараметрического алгоритма.
В пункте 2.2 представлен Zet - алгоритм. Полностью расписаны все этапы его работы, а также на каких гипотезах основан. Данный метод относится к локальным методам заполнения пробелов, так как использует для нахождения решения только некоторую локальную часть экспериментальных данных [44].
В заключительной главе представлены результаты различных вычислительных экспериментов.
В ходе экспериментов была доказана эффективность применения непараметрического алгоритма для заполнения пропусков и построения модели при малой априорной информации.
Эффективность применения непараметрического алгоритма к данным, содержащим пропуски по входным переменным, значительно ниже, чем к данным с пропусками по выходам. Также важно отметить, что при зависимых входных данных результат работы алгоритма будет намного точнее, что описано в гипотезе избыточности [44].
В пункте 3.3 исследован Zet-алгоритм. Данный алгоритм вполне применим в практических задачах по заполнению пропусков в матрице наблюдений, но при относительно небольшом количестве пропусков.
Проведен сравнительный анализ непараметрической оценки кривой регрессии и Zet алгоритма. В условиях малой априорной информации в задаче заполнения пропусков эффективнее использовать непараметрическую оценку кривой регрессии. Zet - алгоритм более эффективен относительно на среднем и малом количестве пропусков
Поставленная цель магистерской диссертации была достигнута, задачи выполнены. Для достижения поставленной цели использовались методы математической статистики, анализа данных, математического моделирования. Результаты работы могут быть полезны при создании систем управления многомерными дискретно-непрерывными процессами.
1) Лекция по теме «Понятие модели. Свойство изоморфизма и гомоморфизма модели» [Электронный ресурс],
2) Режим доступа: https://lektsia.com/2x304.html
3) Карлов И.А. Методы восстановления пропущенных значений с использованием инструментария DataMining / И.А. Карлов // Вестник 161 Сибирского государственного аэрокосмического университета имени академика М.Ф.Решетнева. - 2011. - №7 (40). - С. 29-33.
4) Льюнг Л. Идентификация систем / Л.Льюнг. - М.: Наука, 1991. - 423с.
5) Райбман Н.С. Что такое идентификация / Н.С. Райбман. - М.: Наука, 1970. - 119 с.
6) Цыпкин Я.З. Адаптация и обучение в автоматических системах / Я.З. Цыпкин. - М.: Наука, 1968. - 400с.
7) Эйкхофф П. Основы идентификации систем управления / П. Эйкхофф.
- М. : Мир, 1975. - 681 с.
8) Keesman Karel J. System identification. An introduction / Karel J. Keesman.
- London: Springer, 2011. - 351 p.
9) Статья по теме «Идентификация систем» [Электронный ресурс],
10) Режим доступа: https://ш.wikipedia.org/wiki/Идeнтификaция_cиcтeм
11) Воронов А.А. Основы теории автоматического регулирования и управления. - Учеб.пособие для вузов. М., «Высш. школа», 1977, 519 с. с ил. 1970
12) ГОСТ 19781-90. Обеспечение систем обработки информации программное. Термины и определения
13) Экономико-математический словарь: Словарь современной экономической науки. — М.: Дело. Л. И. Лопатников. 2003.
14) Цыпкин Я.З. Информационная теория идентификации / Я.З. Цыпкин. - М.: Наука. Физматлит, 1995. - 336 с.
15) Корнеева А. А. Диссертация на соискание ученой степени кандидата технических наук по теме «Непараметрические модели и алгоритмы управления для многомерных систем с запаздыванием» 2014 год;
16) Дилигенская А.Н. Идентификация объектов управления. / А.Н Дилигенская - Самара: Изд-во Государственное образовательное учреждение высшего образования«Самарский государственный технический университет», 2009. - 136 с.
17) Шуленин В.П. Математическая статистика. 4.1. Параметрическая статистика: учебник / В.П. Шуленин - Томск: Изд-во НТЛ, 2012. - 540 с. 90.
18) Гроп Д. Методы идентификации систем. - М.: Мир, 1979. -302 с.
19) Спиди К., Браун Р., Гудвин Дж. Теория управления (идентификация и оптимальное управление). - М.: Мир, 1973. - 248 с.
20) Цыпкин Я.З. Основы информационной теории идентификации. - М.: Наука, 1984. - 320 с.
21) Зоркальцев В.П. Метод наименьших квадратов: геометрические свойства, альтернативные подходы, приложения. Новосибирск: ВО «Наука», 1995. - 220 с.
22) Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. - М.: Наука, 1974. - 696 с.
23) Саридис Дж. Самоорганизующиеся стохастические системы управления. - М.: Наука, 1980. - 400 с.
24) Сейдж Э.П., МелсаДж.Л. Идентификация систем управления. - М.: Наука, 1974. - 248 с.
25) Шуленин В.П. Математическая статистика. 4.2. Непараметрическая статистика: учебник / В.П. Шуленин - Томск: Изд-во НТЛ, 2012. - 388 с.
26) Боровков А.А. Математическая статистика / А.А. Боровков. - М.: Наука, 1984. - 472 с.
27) Боровков А.А. Математическая статистика. Оценка параметров. Проверка гипотез / А.А. Боровков. - М.: Наука, 1984. - 472 с.
28) Бендат Дж., Пирсол А. Применения корреляционного испектрального анализа. - М.: Мир, 1983. - 312 с.
29) Бесекерский В.А. Цифровые автоматические системы. - М.:Наука, 1976. - 576 с.
30) Семенов А.Д., Артамонов Д.В., Брюхачев А.В. Идентификация объектов управления: учебн. пособие. - Пенза: Изд-во Пенз. гос. ун-та, 2003. - 211 с.
31) Современные методы идентификации систем/Под ред. П.Эйкхоффа. - М.: Мир, 1983. - 400 с.
32) Рубан А.И. Методы анализа данных: учебное пособие / А.И. Рубан. - Красноярск: ИПЦ КГТУ, 2004. - 319 с.
33) Хардле В. Прикладная непараметрическая регрессия / В. Хардле. - М.: Мир, 1993. - 349 с
34) Надарая Э.А. Непараметрическое оценивание плотности вероятностей и кривой регрессии / Э.А. Надарая. - Город.: Издательство Тбилисского университета, 1983. - с.
35) Gasser T. Kernel estimation of regression function / T. Gasser, H.G. Muller // Lect. NotesMath. - 1979. - V.757. - P. 23-68.
36) Schafer J.L.Missing Data: Our View of the State of the Art / J. L. Schafer, J. W. Graham // Psychological Methods. - 2002. - Vol. 7, № 2. - P. 147-177
37) Литтл Р.Дж.А. Статистический анализ данных с пропусками / Р.Дж.А. Литтл, Д.Б. Рубин. - М.: Финансы и статистика, 1990. - 336 с.
38) Загоруйко Н.Г. Алгоритм заполнения пропусков в эмпирических таблицах (алгоритм Zet) / Н.Г. Загоруйко, В.Н. Ёлкина, В.С. Тимеркаев // Вычислительные системы. - 1975. - №61. - С.3-27.
39) Россиев А.А. Итерационное моделирование неполных данных с помощью многообразий малой размерности: дис.канд.тех.наук.: 05.13.16 / Институт Вычислительного моделирования СО РАН. - Красноярск, 1999. - 83с.
40) Корнеева А.А., Сергеева И.А. Непараметрическая идентификация дискретно-непрерывных процессов «трубчатой» структуры при наличии пропусков в данных / А.А. Корнеева, Н.А. Сергеева // Системы управления и информационные технологии. - 2012. - №4.1 (50). - С. 155-159
41) Загоруйко Н.Г. Прикладные методы анализа данных и знаний / Н.Г. Загоруйко. - Новосибирск: Издательство ИМ СО РАН, 1999. - 264 с
42) Тихонов А.Н.Статистическая обработка результатов эксперимента / А.Н. Тихонов, М.В. Уфимцев. - М.: Изд-во Моск. ун-та, 1988. - 176с.
43) Вероятность и математическая статистика: Энциклопедия / Под.ред. Ю.В. Прохорова. - М.: Большая Российская энциклопедия, 2003. - 912 с
44) Смоляк С.А. Устойчивые методы оценивания: (Статистическая обработка неоднородных совокупностей) / С.А. Смоляк, Б.П. Титаренко. - М.: Статистика, 1980. - 208 с.
45) Уилкс С. математическая статистика / С. Уилкс. - М.: Наука, 1967. - 632 с.
46) Загоруйко Н.Г. Методы распознавания и их применение. - М.: Советское Радио, 1972.
47) Тарасенко Ф. П. Непараметрическая статистика. — Томск: изд. ТГУ, 1976. — 294 с.
48) Вашлаев Д. И. Непараметрические робастные алгоритмы обработки данных // Молодой ученый. — 2016. — №10. — С. 41-45.
49) Харин Ю.С. Оптимальность и робастность в статистическом прогнозировании / Ю.С. Харин. - Минск: БГУ, 2008. - 263 с.
50) Хьюбер Дж.П. Робастность в статистике: Пер.с англ. / Дж.П. Хьюбер. - М.: Мир, 1984. - 304 с.
51) Шуленин В.П. Введение в робастную статистику / В.П. Шуленин. - Томск: Изд. Том. ун-та - 1993. - 227 с.
52) Айвазян С.А. Прикладная статистика: Основы моделирования и первичная обработка данных / С.А. Айвазян, Н.С. Енюков. - М.: Финансы и статистика, 1983. - 471 с.
53) Рубан А. И. Методы анализа данных: учебное пособие. — 2-е изд. — Красноярск: ИПЦ КГТУ, 2004. — 319 с.
54) Шуленин В.П. Математическая статистика. 4.3. Робастная статистика: учебник / В.П. Шуленин. - Томск: Изд-во НТЛ, 2012. - 520 с.
55) Большев Л.Н. Таблицы математической статистики / Л.Н. Большев, Н.В. Смирнов. - М.: Наука. Главная редакция физико-математической литературы, 1983. - 416 с.
56) Чжан Е.А. К проблеме генерации выборки при идентификации безынерционных процессов // Вестник СибГАУ. 2015. Т. 16. № 2. С. 368 - 375.
57) Kunsch H.R. The jackknife and the bootstrap for general stationary observations // Ann. Statist. 2008. No 17. P. 1217 - 241.