ВВЕДЕНИЕ 4
1 Задача идентификации в условиях многомерной выборки, содержащая
пропуски 6
1.1 Моделирование 6
1.2 Идентификация 9
1.2.1 Параметрические модели 12
1.2.2 Непараметрические модели 12
1.3 Анализ неполных данных 17
1.4 Методы заполнения пропусков 18
Выводы по первой главе 25
2 Восстановление пропусков в выборке наблюдений 26
2.1 Непараметрический метод восстановления пропусков 26
Выводы по второй главе 32
3 Вычислительные эксперименты 33
3.1 Результаты исследования метода непараметрического заполнения
пропусков 33
3.2 Результаты исследований заполнения пропусков, с помощь метода
представленного в Deductor studio 44
3.3 Сравнительный анализ исследованных алгоритмов 46
Выводы по третьей главе 50
ЗАКЛЮЧЕНИЕ 51
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 53
В разработке научных исследований или технических работ могут возникнуть ситуации, когда данные попросту отсутствуют, являются некомплектными или не совпадает дискретность «входных-выходных» данных. Отсутствие данных и «некомплектность» подразумевает под собой, что исходные данные пропущены по известным или неизвестным причинам.
Причинами появления пропусков могут служить множество факторов, такие как отсутствие возможности получения или обработки данных, искажение или утаивание нужной для работы информации, природные явления или же выход из строя технического оборудования.
Сталкиваться с проблемой пропусков приходится часто при проведении исследований в разнообразных направлениях, они могут быть социологическими, научными, техническими и т.д. в каждом из них могут присутствовать пропуски, которые в дальнейшем становятся ощутимой проблемой для точности решения поставленной задачи.
На практике многие исследователи, столкнувшиеся с задачами, в которых присутствуют неполные данные, попросту усекают выборку и отбрасывают пропущенные значения, не задумываясь о искажении результатов и сильному различию статистических выводов, при начальном исследовании данных с пропусками и при их отсутствии. Для того чтобы не было потери информации и ошибок вычисления, создано множество методов (заполнение по среднему значению, Resampling метод, восстановление по регрессии и т.д), которые позволяют восстановить данные. Из-за изобилия большого количества методов, встает проблема выбора походящего алгоритма восстановления пропусков.
Целью данной работы является повышение точности решения задач идентификации по выборкам наблюдения с пропусками. Для этого необходимо решить следующие задачи:
1. Изучить существующие подходы к обработке данных с пропусками;
2. Реализовать и исследовать некоторые известные алгоритмы восстановления пропусков в данных;
3. Оценить влияние данных алгоритмов на точность решения задачи идентификации.
В данной работе используются такие методы, как: математическое моделирование, теория идентификации, анализ данных и математическая статистика.
Объектом данной работы является решение задачи идентификации по выборкам наблюдений с пропусками. Предметом работы являются алгоритмы обработки неполных данных.
Моделирование играет очень большую роль в самых различных сферах. Его необходимо применять, так как эксперименты и наблюдения над реальным объектом могут быть неприемлемыми, и на то есть различные причины: опасность для здоровья и окружающей среды, невозможность наблюдать за внутренним устройством системы в реальном мире, дороговизна и т.д. В работе приведено несколько этапов задачи идентификации. Рассмотрены определения идентификации в «узком» и «широком» смысле.
Был предложен и исследован метод непараметрического восстановления пропусков, основанный на оценке Надарая-Ватсона. Было экспериментально выявлено, что из трех представленных ядерных функции более точно строит и показывает результаты - параболическое ядро. Так же рассмотрен представленный метод в программе Deductor Studio, который основан на заполнении пропусков с помощью среднеарифметического значения по известным данным.
Выводы во всех экспериментах почти одинаковы. Чем больше выборка - тем меньше ошибка моделирования, отсюда следует вывод, что для того, чтобы получить более правильную картину о построении модели или о работе метода, нужно собрать как можно больше данных для увеличения объема выборки. Такая выборка будет более приемлемой для анализа. Маленький объем выборки не имеет большого смысла, так как моделирование будет плохо отображать объект.
Стоит помнить, что чем меньше помеха, тем точнее вычисления, но применять помеху необходимо, чтобы посмотреть, как ведет себя модель объекта и насколько она устойчива в реальных условиях, где помеха и погрешность присутствуют всегда.
Так же был проведен сравнительный анализ алгоритмов, где у непараметрического алгоритма ошибка моделирования намного меньше, чем в программе Deductor Studio. Это означает, что непараметрический метод более точно заполняет пропущенные значения.
1) Эйкхофф, П. Основы идентификации систем управления : учебник / П. Эйкхофф. - Москва : Мир, 1975. - 680 с.
2) Веников, В. А. Теория подобия и моделирования : учебное пособие / В. А. Веников. - Москва : Высшая школа, 1976. - 479 с.
3) Самарский, А. А. Математическое моделирование: Идеи. Методы. Примеры : монография / А. А. Самарский, А. П. Михайлов - Москва.: Физматлит, 2005 - 320 с.
4) Клюкина, Е.А. Общая теория систем : учебное пособие / Е. А. Клюкина. - Петрозавоск : ПетрГУ, 2014. - 86 с.
5) Сушкин, И. Н. Вычислительная техника и информационные технологии : учебное пособие / И. Н. Сушкин. - Красноярск,2007 - 183 с.
6) Игнатьев, Д. А, Медведев, А. В., Сергеев, Ц. В., Шестернев, А. И. О непараметрическом моделировании многосвязных процессов / Д. А. Игнатьев, А. В. Медведев, Ц. В. Сергеев // Вестник Сибирского государственного аэрокосмического университета им. академика М. Ф. Решетнева. - 2008. - № 3 (20) - С. 69 - 72.
7) Цепкова, М. В., Сергеева, Н. А. О непараметрическом моделировании динамических процессов / М. В. Цепкова, Н. А. Сергеева // Вестник : томского государственного университета управление, вычислительной техники и информатики. - 2013. - № 2 (23). - С. 92 - 101.
8) Коновалов, В. И. Идентификация и диагностика систем : учебное пособие / В. И. Коновалов. - Томск : ТПУ, 2006. - 152 с.
9) Цыпкин, Я. 3. Информационная теория идентификации : монография / Я. 3. Цыпкин — Москва.: Наука. Физматлит, 1995. - 336 с.
10) Боровков, А.А. Математическая статистика. Оценка параметров. Проверка гипотез : монография / А. А. Боровков.- Москва : Наука, 1984. - 472 с.
11) Корнеева А. А., Чжан Е. А. О непараметрическом моделировании стохастических объектов / А. А. Корнеева, Е. А. Чжан // Вестник СибГАУ. -
2013. - № 2 (23). - С. 37 - 42
12) Литтл, Р. Дж. А., Рубин Д. Б. Статистический анализ данных с пропусками: Пер. с англ / Р. Дж. А. Литтл, Д. Б. Рубин - Москва : Финансы и статистика. 1990. - 336 с.
13) Тихова Г.П. Пропуск данных в выборке: как решать проблему и как ее избежать. / Г. П. Тихова // Регионарная анестезия и лечение острой боли. - 2016. - № 10 (3). - С. 205-209.
14) Банникова А. В., Михов Е. Д. О непараметрическом алгоритме управления макрообъектом / А. В. Банников, Е. Д. Михов // Молодой ученый. -
2014. - № 1 (60). - С. 115-119.
15) Медведев А. В. Теория непараметрических систем. Процессы / А. В. Медведев // Вестник СибГАУ. - 2010. - № 4(29). - С. 4-9.
16) Зангиева, И. К. Проблема пропусков в социологических данных: смысл и подходы к решению / И. К. Зангиева // Социология: методология, методы, математическое моделирование. - 2011. - № 33. - С. 28-56.
17) Злоба, Е., Яцкив И. Статистические методы восстановления пропущенных данных / Е. Злоба, И. Яцкив // Computer Modeling & New Technologies. - 2004. - № 6. - С. 51-61.
18) Алексеева В. А., Донцова Ю. С., Клячкин В. Н. Восстановление пропущенных наблюдений при классификации объектов / В. А. Алексеева, Ю. С. Донцова, В. Н. Клячкин / Самарский науч.центр РАН. - 2014. - № 6(2). - С. 357 - 359.