ВВЕДЕНИЕ 4
1 Задача идентификации в условиях многомерной выборки, содержащая
пропуски 6
1.1 Моделирование 6
1.2 Идентификация 9
1.2.1 Параметрические модели 12
1.2.2 Непараметрические модели 12
1.3 Анализ неполных данных 17
1.4 Методы заполнения пропусков 18
Выводы по первой главе 25
2 Восстановление пропусков в выборке наблюдений 26
2.1 Непараметрический метод восстановления пропусков 26
Выводы по второй главе 32
3 Вычислительные эксперименты 33
3.1 Результаты исследования метода непараметрического заполнения
пропусков 33
3.2 Результаты исследований заполнения пропусков, с помощь метода
представленного в Deductor studio 44
3.3 Сравнительный анализ исследованных алгоритмов 46
Выводы по третьей главе 50
ЗАКЛЮЧЕНИЕ 51
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 53
В разработке научных исследований или технических работ могут возникнуть ситуации, когда данные попросту отсутствуют, являются некомплектными или не совпадает дискретность «входных-выходных» данных. Отсутствие данных и «некомплектность» подразумевает под собой, что исходные данные пропущены по известным или неизвестным причинам.
Причинами появления пропусков могут служить множество факторов, такие как отсутствие возможности получения или обработки данных, искажение или утаивание нужной для работы информации, природные явления или же выход из строя технического оборудования.
Сталкиваться с проблемой пропусков приходится часто при проведении исследований в разнообразных направлениях, они могут быть социологическими, научными, техническими и т.д. в каждом из них могут присутствовать пропуски, которые в дальнейшем становятся ощутимой проблемой для точности решения поставленной задачи.
На практике многие исследователи, столкнувшиеся с задачами, в которых присутствуют неполные данные, попросту усекают выборку и отбрасывают пропущенные значения, не задумываясь о искажении результатов и сильному различию статистических выводов, при начальном исследовании данных с пропусками и при их отсутствии. Для того чтобы не было потери информации и ошибок вычисления, создано множество методов (заполнение по среднему значению, Resampling метод, восстановление по регрессии и т.д), которые позволяют восстановить данные. Из-за изобилия большого количества методов, встает проблема выбора походящего алгоритма восстановления пропусков.
Целью данной работы является повышение точности решения задач идентификации по выборкам наблюдения с пропусками. Для этого необходимо решить следующие задачи:
1. Изучить существующие подходы к обработке данных с пропусками;
2. Реализовать и исследовать некоторые известные алгоритмы восстановления пропусков в данных;
3. Оценить влияние данных алгоритмов на точность решения задачи идентификации.
В данной работе используются такие методы, как: математическое моделирование, теория идентификации, анализ данных и математическая статистика.
Объектом данной работы является решение задачи идентификации по выборкам наблюдений с пропусками. Предметом работы являются алгоритмы обработки неполных данных.
Моделирование играет очень большую роль в самых различных сферах. Его необходимо применять, так как эксперименты и наблюдения над реальным объектом могут быть неприемлемыми, и на то есть различные причины: опасность для здоровья и окружающей среды, невозможность наблюдать за внутренним устройством системы в реальном мире, дороговизна и т.д. В работе приведено несколько этапов задачи идентификации. Рассмотрены определения идентификации в «узком» и «широком» смысле.
Был предложен и исследован метод непараметрического восстановления пропусков, основанный на оценке Надарая-Ватсона. Было экспериментально выявлено, что из трех представленных ядерных функции более точно строит и показывает результаты - параболическое ядро. Так же рассмотрен представленный метод в программе Deductor Studio, который основан на заполнении пропусков с помощью среднеарифметического значения по известным данным.
Выводы во всех экспериментах почти одинаковы. Чем больше выборка - тем меньше ошибка моделирования, отсюда следует вывод, что для того, чтобы получить более правильную картину о построении модели или о работе метода, нужно собрать как можно больше данных для увеличения объема выборки. Такая выборка будет более приемлемой для анализа. Маленький объем выборки не имеет большого смысла, так как моделирование будет плохо отображать объект.
Стоит помнить, что чем меньше помеха, тем точнее вычисления, но применять помеху необходимо, чтобы посмотреть, как ведет себя модель объекта и насколько она устойчива в реальных условиях, где помеха и погрешность присутствуют всегда.
Так же был проведен сравнительный анализ алгоритмов, где у непараметрического алгоритма ошибка моделирования намного меньше, чем в программе Deductor Studio. Это означает, что непараметрический метод более точно заполняет пропущенные значения.