РЕФЕРАТ 2
ВВЕДЕНИЕ 5
1 Задача прогнозирования в условиях многомерной выборки, содержащей
пропуски 7
1.1 Задача моделирования и прогнозирования 7
1.1.1 Моделирование 7
1.1.2 Машинное обучение 9
1.1.3 Прогнозирование 11
1.2 Известные методы и алгоритмы 14
1.2.1 Параметрические модели 16
1.2.2 Непараметрические модели 18
1.3 Заполнение пропусков в матрице наблюдений 21
1.3.1 Известные методы 22
1.4 Сокращение размерности в многомерном пространстве данных 29
1.4.1 Метод главных компонент 29
1.4.2 Факторный анализ 31
1.4.3 Многомерное шкалирование 32
Выводы к главе 1 32
2 Задача прогнозирования в многомерном пространстве 34
2.1 Задача прогнозирования в многомерном пространстве 34
2.1.1 Описание исходных данных 34
2.2 Анализ работ 41
2.2.1 Обзор научных публикаций по теме бакалаврской работы 42
2.2.2 Обзор книг и монографий по теме бакалаврской работы 43
2.2.3 Обзор диссертаций по теме бакалаврской работы 44
2.3 Azure 45
2.3.1 Создание эксперимента на основе существующего решения 47
2.4 Предлагаемое решение 57
Выводы по 2 главе 59
3 Разработка непараметрического алгоритма прогнозирования стоимости
автомобиля 61
3.1 Решение задачи заполнения пропусков в матрице наблюдений 61
3.2 Выявление значимых признаков 63
3.2.1 Корреляционный анализ 64
3.2.2 Метод главных компонент 67
3.3 Решение задачи прогноза 70
3.4 Сравнение предложенного метода с существующими 73
Выводы к главе 3 77
ЗАКЛЮЧЕНИЕ 79
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 80
Информация играет важную роль в жизни общества. Каждому известно высказывание: "Кто владеет информацией, тот владеет миром!". И с ним невозможно не согласиться. Ещё с древних времен люди собирали и систематизировали информацию об окружающем мире, основывались в своих решениях на знаниях и опыте прошлых поколений, дополняли, обновляли их своими. Данные качества позволили человечеству выживать и развиваться. Чем больше проходило времени, тем большую роль начинала играть информация в жизни общества. Каждый раз достаточное её накопление давало толчок к развитию научно-технического прогресса.
В современном мире большие объёмы данных хранятся и анализируются в различных сферах жизни общества: в металлургии и менеджменте, ракетостроении и политологии, ботанике и банковском деле, экономике и медицине. Этот список можно продолжать бесконечно. Сегодня невозможно представить область науки или промышленную сферу, которая бы не имела собственную базу данных, собранную и "доведённую до совершенства" годами или десятилетиями кропотливого труда тысяч и миллионов человек.
Используя данную информацию, исследователи всегда хотели знать, как поведёт себя интересуемый объект при определённых условиях окружающего мира. С решением данного вопроса может помочь прогнозирование. Если говорить научным языком, то прогнозирование - это специальное научное исследование, обусловленное желанием знать поведение исследуемого процесса, построенное на основе имеющихся данных.
Но данные не всегда хранятся в виде, удобном для работы исследователя. Часто для решения поставленной задачи исследователь сталкивается с огромными объёмами лишних данных, которые будут лишь мешать достижению поставленной цели. Например, в медицине, если стоит задача определить, имеется ли у пациента рак, то данные о наличие у него плоскостопия или дефектов зрения не несут в себе никакой информативности, а будут лишь мешать определению заболевания. Недостаток данных по объекту исследования так же, как и их излишек, является проблемой. Представим, что на заводе железобетонных конструкций имеется выборка наблюдений, содержащая в себе результаты измерений лишь 10 характеристик бетона марки В12 при разном соотношении воды, песка, гравия и цемента. Аналитику необходимо сделать прогноз качества бетона В12 при увеличении первых двух параметров и уменьшении оставшихся двух. Никакого приемлемого ответа на основе всего лишь 10 наблюдений он дать не сможет. Кроме того, в данных могут присутствовать выбросы и пропуски, с которыми исследователю также необходимо как-то бороться. Пропуски могут быть вызваны недобросовестным отношением к своей работе человека, отвечающего за сбор информации или же невозможностью измерения какого-либо параметра в конкретных условиях.
С аналогичной проблемой человек сталкивается при оценке стоимости автомобиля. В современной жизни автомобиль является неотъемлемой частью жизни каждого из нас. Наличие машины говорит об успешности человека. Личное транспортное средство помогает сохранить время на преодолении расстояний в условиях мегаполисов, почувствовать себя свободным и независимым. Многие люди считают, что автомобиль - это не роскошь, а средство передвижения. Но это не совсем так.
Перед приобретением нового автомобиля люди задают себе стандартные вопросы: "Стоит ли данная покупка тех денег, которые запрашивает за него автозавод?", "Не будет ли обслуживание купленного транспортного средства наносить серьёзный ущерб финансовому состоянию покупателя?". Ответ на эти вопросы может дать решение задачи прогнозирования.
В работе рассмотрены задачи машинного обучения, с решением которых возможно решение задачи прогнозирования. Восстановление регрессии является лучшим из таких решений. Также исследовалось решение задачи идентификации с помощью параметрического и непараметрического подходов.
Было произведено исследование методов борьбы с пропущенными значениями в матрице наблюдений и реализованы некоторые из них: удаление строк с пропусками, метод Бартлета, Resampling-метод, заполнение на основе линейной регрессионной модели.
Также исследовались методы сокращения размерности матрицы наблюдений и с помощью программного продукта SPSS Statistica был реализован метод главных компонент, который при используемых способах обучения алгоритма показал себя не лучшим образом на представленных данных.
В ходе выполнения работы проанализировались работы по заданной тематике. Рассмотрен существующий способ решения задачи прогнозирования стоимости автомобиля на имеющихся данных с использованием параметрического моделирования в студии машинного обучения Azure.
В работе был предложен непараметрический алгоритм прогнозирования стоимости автомобиля, основанный на оценке Надарая-Ватсона, с помощью которого была увеличена точность решения задачи идентификации в многомерном пространстве наблюдений с пропусками в условиях малого объёма данных.
1) Веников, В.А. Теория подобия и моделирование : учебное пособие / В.А. Веников, Г.В. Веников. - Москва : Высш. шк., 1984. - 243 с.
2) Самарский, А.А. Математическое моделирование. Идеи. Методы. Примеры : монография / А.А. Самарский, А.П. Михайлов. - Москва : Наука. Физмат- лит, 1997. - 320 с.
3) Мухин, О.И. Моделирование систем [Электронный ресурс] / Режим доступа:http: //stratum.ac. ru/textbooks/modelir/contents .html4.
4) Орлов, А.И. Теория принятия решений : учебное пособие / А.И. Орлов.
- Москва: Издательство «Март», 2004. - 196 с.
5) Олзоева, С.И. Моделирование и расчёт распределённых информационных систем : учебное пособие / С.И. Олзоева. - Улан-Удэ : Издательство ВСГТУ, 2004. - 67 с.
6) Владимирова, Л.П. Прогнозирование и планирование в условиях рынка : учебное пособие / Л.П. Владимирова. - Москва : Издательский Дом «Дашков и Ко», 2001. - 296 с.
7) Слуцкин, Л.Н. Курс МБА по прогнозированию в бизнесе : монография / Л.Н. Слуцкин. - Москва : Альпина Бизнес Букс, 2006. - 38 с.
8) Новикова, Н.В. Прогнозирование национальной экономики : учебно-методическое пособие / Н.В. Новикова, О.Г. Поздеева. - Екатеринбург : Издательство Урал. гос. экон. ун-та, 2007. - 205 с.
9) Эйкхофф, П. Основы идентификации систем управления : монография / П. Эйкхофф. - Москва : Мир, 1975. - 681 с.
10) Заварин, А.И. Использование априорной информации в непараметрических оценках функции регрессии / А.И. Заварин. - Москва : Автоматика и телемеханика. - 1985. - №5. - 79-85 с.
11) Цыпкин, Я.З. Информационная теория идентификации / Я.З. Цыпкин.
- Москва : Наука. Физматлит, 1995. - 336 с.
12) Катковник, В.Я. Непараметрическая идентификация и сглаживание данных : монография / В.Я. Катковник. - Москва : Наука, 1985. - 336 с.
13) Цыпкин, Я.З. Адаптация и обучение в автоматических системах : монография / Я.З. Цыпкин. - Москва : Наука, 1968. - 400с.
14) Efroimovich, S.Yu. Nonparametric curve estimation. Methods, theory and application : monografh / S.Yu. Efroimovich. - Berlin, New-York: Springer-Verlag, 1999.
15) Шуленин, В.П. Математическая статистика. 4.1. Параметрическая статистика : учебник / В.П. Шуленин. - Томск: Издательство НТЛ, 2012. - 540 с.
16) Боровков, А.А. Математическая статистика. Оценка параметров. Проверка гипотез : монография / А.А. Боровков. - Москва : Наука, 1984. - 472 с.
17) Медведев, А.В. Непараметрические системы адаптации / А.В. Медведев. - Новосибирск : Наука, 1983. - 173с
18) Шуленин, В.П. Математическая статистика. 4.2. Непараметрическая статистика: учебник / В.П. Шуленин - Томск: Издательство НТЛ, 2012. - 388 с.
19) Апраушева, Н.Н. Использование непараметрических оценок в регрессионном анализе / Н.Н. Апраушева, В.Д. Конаков - Санкт-Петербург : Заводск. лаб. - 1973. - № 5. - С. 556-569.
20) Медведев, А.В. Адаптация в условиях непараметрической неопределенности / А.В. Медведев // Адаптивные системы и их приложения. - Новосибирск : Наука, 1978. - С. 4-34.
21) Медведев, А.В. Элементы теории непараметрических систем управления / А.В. Медведев // Актуальные проблемы информатики, прикладной математики и механики. Часть 3, Информатика. - Новосибирск-Красноярск: СО РАН, 1996. - С. 87-112.
22) Надарая, Э.А. Непараметрическое оценивание плотности вероятностей и кривой регрессии : учебник / Э.А. Надарая. - Город.: Издательство Тбилисского университета, 1983.
23) Rubin, D.B. Multiple Imputation for Nonresponse in Surveys : manual / D.B. Rubin. - New York : Willey, 1987.
24) Литтл, Р.Дж.А. Статистический анализ данных с пропусками : учебник / Р.А. Литтл, Д.Б. Рубин. - Москва : Наука, 1991. - 198 с.
25) Злоба, Е. Статистические методы восстановления пропущенных данных / Е. Злоба, И. Яцкив. // Computer Modeling &New Technologies.; Vol. 6.2004.
26) Снитюк, B.E. Эволюционный метод восстановления пропусков в данных [Электронный ресурс] / В.Е. Снитюк. - Режим доступа:
http://iissvit.narod.ru/index_a.htm.
27) Снитюк, В.Е. Алгоритм ZetBraid [Электронный ресурс] / В.Е. Снитюк // Информационные интеллектуальные системы. Вып.40, 2008, Режим доступа: http://iissvit.narod.ru/rass/vip40.htm.
28) Rubin, D.B. Multiple imputation after 18+ years. / D.B. Rubin. // Journal of the American Statistical Association, № 91, 1996.
29) Королев, В.Ю. ЕМ - алгоритм, его модификации и их применение к задаче разделелния смесей вероятностных распределений : теоретический обзор / В.Ю. Королев. - Москва : Наука, 2008.
30) Россиев, А.А. Моделирование данных при помощи кривых для восстановления пробелов в данных. В кн. “Методы нейроинформатики” / Под ред. А.Н. Горбаня. - КГТУ: Красноярск, 1998.
31) Тюрин, Ю.Н. Анализ нечисловой информации : учебное пособие / Ю.Н. Тюрин, Б.Г. Литвак, А.Н. Орлов, Г.А. Сатаров., Д.С. Шмерлинг. - Москва : Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1981.
32) Орлов, А.Н. Предельное распределение одной оценки числа базисных функций в регрессии // Прикладной многомерный статистический анализ. Ученые записки по статистике, т.33. - Москва : Наука, 1978.
33) Харман, Г. Современный факторный анализ: учебное пособие / Г. Харман. - Москва : Статистика, 1972.
34) Орлов, А.Н. Заметки по теории классификации / А.Н. Орлов. - Москва: Социология: методология, методы, математические модели, 1991, № 2.
35) Орлов, А.И. Базовые результаты математической теории классификации / А.И. Орлов. // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 110.
36) Орлов, А.И. Математические методы теории классификации : учебное
пособие / А.И. Орлов. - Кубань : Политематический сетевой электронный
научный журнал Кубанского государственного аграрного университета. 2014. № 95.
37) Терехина, А.Ю. Анализ данных методами многомерного шкалирования : монография / А.Ю. Терехина. - Москва : Наука, 1986. - 205 с.
38) Перекрест, В.Т. Нелинейный типологический анализ социально-экономической информации: Математические и вычислительные методы / В.Т. Перекрест. - Москва : Наука, 1983.
39) Овечкина, О.О. Агрегация и регрессионный подход к численному моделированию больших данных / 0.0. Овечкина. - Научные исследования и разработки молодых учёных, номер 7, 2015.
40) Чернявский, Г.А. Возможности минерагенического прогноза и прогноза сейсмоопасных зон по данным глубинной электроразведки : исследование / И.А.Безрук, В.П. Борисова, Г.А. Чернявский. - Москва : Геофизика. 1995. № 3. С. 26-32.
41) Соколов, О.В. Краткосрочный прогноз притока воды в Бурейское водохранилище на основе модели ECOMAG с использованием метеорологических прогнозов / Ю.Г. Мотовилов, В.В. Балыбердин, Б.И. Гарцман, А.Н.Гельфан, В.М. Морейдо, О.В. Соколов - Москва : Водноехозяйство России: проблемы, технологии, управление. 2017. № 1. С. 78-102.
42) Большаков, А.А. Методы обработки многомерных данных и временных рядов : учебное пособие для студентов вузов, обучающихся по магистерской программе 550209-"Автоматизация науч. исслед., испытаний и эксперимента" направления 550200- "Автоматизация и упр.", по направлениям 230100 (654600)-"Информатика и вычислительная техника" / А. А. Большаков, Р. Н. Каримов.- Москва, 2007.
43) Кошкин, Г. М. Непараметрическая идентификация стохастических объектов : монография / Г. М. Кошкин, И. Г. Пивен. - Хабаравск : Российская акад. наук, Дальневосточное отделение, 2009.
44) Корнеева А.А. Непараметрические модели и алгоритмы управления для многомерных систем с запаздыванием : дис. ... канд. техн. наук : 05.13.01 / А.А. Корнеева. - Красноярск, 2014.
45) Родионова, Т.Е. Исследование применимости регрессионного моделирования при решении прецизионных задач астрометрии и небесной механики : дис. ... канд. техн. наук : 05.13.18 / Т.Е. Родионова. - Ульяновск, 2003.