Введение 5
1 Идентификация многомерных дискретно-непрерывных процессов 7
1.1 Задача моделирования 7
1.2 Машинное обучение 11
1.3 Классификация. Прогнозирование 13
1.4 Параметрическое моделирование 15
1.5 Непараметрическое моделирование 17
1.6 Анализ данных. Выбросы. Робастный анализ 18
1.7 Выводы по главе 1 22
2 Алгоритмы обработки данных с выбросами 24
2.1 Классификация методов работы с выбросами 24
2.2 Робастная оценка регрессии №1 25
2.3 Робастная оценка регрессии №2 27
2.4 Непараметрический алгоритм цензурирования данных с выбросами ...30
2.5 Ремонт данных выборки наблюдений с выбросами 31
2.6 Выводы по главе 2 32
3 Вычислительные эксперименты 33
3.1 Вычислительный эксперимент с использованием робастного алгоритма №2 33
3.2 Вычислительный эксперимент с использованием алгоритма
цензурирования данных 38
3.3 Вычислительный эксперимент по ремонту данных 41
3.4 Сравнение результатов работы алгоритмов 43
3.5 Выводы по главе 3 45
4 Задача оценки стоимости недвижимости 47
4.1 Постановка задачи 49
4.2 Непараметрическая модель 50
4.3 Вычислительный эксперимент 51
4.4 Информационная система 54
4.5 Вывода по главе 4 56
Заключение 57
Список использованных источников 59
Задача моделирования систем как никогда востребована в современном мире. Для того, чтобы развивать и управлять технологической, медицинской, экономической и другими отраслями человеческого производства требуются специальные методы. Выпускная квалификационная работа направлена на решение задачи моделирования, что подчеркивает ее актуальность.
В рамках данной работы будут применяться методы идентификации систем. В зависимости от количества априорной информации идентификация подразделяется на два типа:
- в «широком» смысле, когда априорной информации об объекте исследования недостаточно, чтобы построить модель с точностью до вектора параметров, в таких случаях пользуются непараметрическими методами моделирования;
- в «узком» смысле, когда параметрическая структура объекта исследования известна с точностью до вектора параметров и априорных данных достаточно, чтобы воспользоваться параметрическими методами идентификации.
При выполнении работы предполагается исследовать объект, априорной информации о котором недостаточно. В связи с этим, непараметрический подход к построению модели наиболее целесообразен.
Очевидно, что выборка наблюдений является неотъемлемой частью в процессе конструирования модели. В реальной жизни довольно часто приходится иметь дело с дефектными данными, которые, к примеру, содержат в себе выбросы. Поэтому задача совершенствования качества данных несет в себе немаловажное значение и является не менее актуальной, чем построение модели процесса.
Цель работы заключается в повышении точности идентификации процессов дискретно-непрерывного типа по выборке наблюдений с выбросами.
Задачи, возникающие в ходе реализации поставленной цели, следующие:
- поиск и исследование наиболее значимой литературы в выбранной области исследований;
- реализация и исследование непараметрического алгоритма идентификации для объектов одномерного и многомерного типа на основе оценки Надарая-Ватсона;
- реализация и исследование робастного алгоритма идентификации, а также алгоритма цензурирования выборки наблюдений с выбросами. Решено было взять алгоритмы, различные по своему принципу работы.
Основоположником одного из этих подходов является ученый и профессор по статистике Питер Дж. Хьюбер;
- реализация алгоритма восстановления очищенных от выбросов данных;
- непараметрическая идентификация объекта дискретно-непрерывного типа, характеризуемого реальными данными. В процессе идентификации будут применены алгоритмы «очистки» данных от выбросов, упомянутые выше. При идентификации используется выборка наблюдений, характеризуемая параметрами однокомнатных квартир города Красноярска.
В качестве инструментов, реализующих поставленные задачи, служат методы математического моделирования, в частности, имитационные методы (с использованием электронных вычислительных средств), а также методы математической статистики, что позволяет глубже изучить объект исследования.
Цель данной работы заключалась в повышении точности идентификации дискретно-непрерывных процессов одномерного и двумерного типа с выборкой наблюдений, содержащей выбросы.
Результаты вычислительных экспериментов на практике подтвердили целесообразность использования описанных в работе алгоритмов. Точность аппроксимации увеличилась более чем в два раза как при использовании робастного алгоритма идентификации, так и при цензурировании выборки наблюдений. При том количестве выбросов, что существовало в рамках вычислительного эксперимента (в среднем не больше шести) значительной разницы в точности построения модели без выбросов выявлено не было. Помимо этого, были рассмотрены объекты двух типов, одномерный и двумерный. При увеличении числа входных переменных объекта, ухудшения в точности аппроксимации не обнаружено.
После исключения выбросов из выборки наблюдений был проведен ремонт данных. Для модели, построенной с использованием робастного аналога непараметрической оценки, лучшим решением, с точки зрения повышения точности, стало использование значений робастной модели в качестве восстановления точек, являющихся выбросами. При использовании не робастной модели были выявлены ситуации, когда точность аппроксимации объекта с восстановленными данными меньше, а именно наличие в выборке двух или более выбросов, находящихся по соседству друг с другом.
Далее, основываясь на результатах, описанных выше, была построена непараметрическая модель с использованием реальной выборки наблюдений. В ходе моделирования, было выявлено ухудшение точности, в связи с ограничениями, которые накладывает фактор входной переменной т на точки, попадающие под колокол ядерной функции. После выявленной проблемы была построена новая непараметрическая оценка без учета данного фактора, что несколько увеличило точность моделирования объекта исследования.
Разобранные алгоритмы идентификации систем служат основой при моделировании процессов. На базе проведенных вычислительных экспериментов, в дальнейшем, можно конструировать модели более сложных по своей структуре и составу объектов, процессов или явлений.