Непараметрический алгоритм прогнозирования стоимости автомобиля
|
РЕФЕРАТ 2
ВВЕДЕНИЕ 5
1 Задача прогнозирования в условиях многомерной выборки, содержащей
пропуски 7
1.1 Задача моделирования и прогнозирования 7
1.1.1 Моделирование 7
1.1.2 Машинное обучение 9
1.1.3 Прогнозирование 11
1.2 Известные методы и алгоритмы 14
1.2.1 Параметрические модели 16
1.2.2 Непараметрические модели 18
1.3 Заполнение пропусков в матрице наблюдений 21
1.3.1 Известные методы 22
1.4 Сокращение размерности в многомерном пространстве данных 29
1.4.1 Метод главных компонент 29
1.4.2 Факторный анализ 31
1.4.3 Многомерное шкалирование 32
Выводы к главе 1 32
2 Задача прогнозирования в многомерном пространстве 34
2.1 Задача прогнозирования в многомерном пространстве 34
2.1.1 Описание исходных данных 34
2.2 Анализ работ 41
2.2.1 Обзор научных публикаций по теме бакалаврской работы 42
2.2.2 Обзор книг и монографий по теме бакалаврской работы 43
2.2.3 Обзор диссертаций по теме бакалаврской работы 44
2.3 Azure 45
2.3.1 Создание эксперимента на основе существующего решения 47
2.4 Предлагаемое решение 57
Выводы по 2 главе 59
3 Разработка непараметрического алгоритма прогнозирования стоимости
автомобиля 61
3.1 Решение задачи заполнения пропусков в матрице наблюдений 61
3.2 Выявление значимых признаков 63
3.2.1 Корреляционный анализ 64
3.2.2 Метод главных компонент 67
3.3 Решение задачи прогноза 70
3.4 Сравнение предложенного метода с существующими 73
Выводы к главе 3 77
ЗАКЛЮЧЕНИЕ 79
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 80
ВВЕДЕНИЕ 5
1 Задача прогнозирования в условиях многомерной выборки, содержащей
пропуски 7
1.1 Задача моделирования и прогнозирования 7
1.1.1 Моделирование 7
1.1.2 Машинное обучение 9
1.1.3 Прогнозирование 11
1.2 Известные методы и алгоритмы 14
1.2.1 Параметрические модели 16
1.2.2 Непараметрические модели 18
1.3 Заполнение пропусков в матрице наблюдений 21
1.3.1 Известные методы 22
1.4 Сокращение размерности в многомерном пространстве данных 29
1.4.1 Метод главных компонент 29
1.4.2 Факторный анализ 31
1.4.3 Многомерное шкалирование 32
Выводы к главе 1 32
2 Задача прогнозирования в многомерном пространстве 34
2.1 Задача прогнозирования в многомерном пространстве 34
2.1.1 Описание исходных данных 34
2.2 Анализ работ 41
2.2.1 Обзор научных публикаций по теме бакалаврской работы 42
2.2.2 Обзор книг и монографий по теме бакалаврской работы 43
2.2.3 Обзор диссертаций по теме бакалаврской работы 44
2.3 Azure 45
2.3.1 Создание эксперимента на основе существующего решения 47
2.4 Предлагаемое решение 57
Выводы по 2 главе 59
3 Разработка непараметрического алгоритма прогнозирования стоимости
автомобиля 61
3.1 Решение задачи заполнения пропусков в матрице наблюдений 61
3.2 Выявление значимых признаков 63
3.2.1 Корреляционный анализ 64
3.2.2 Метод главных компонент 67
3.3 Решение задачи прогноза 70
3.4 Сравнение предложенного метода с существующими 73
Выводы к главе 3 77
ЗАКЛЮЧЕНИЕ 79
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 80
Информация играет важную роль в жизни общества. Каждому известно высказывание: "Кто владеет информацией, тот владеет миром!". И с ним невозможно не согласиться. Ещё с древних времен люди собирали и систематизировали информацию об окружающем мире, основывались в своих решениях на знаниях и опыте прошлых поколений, дополняли, обновляли их своими. Данные качества позволили человечеству выживать и развиваться. Чем больше проходило времени, тем большую роль начинала играть информация в жизни общества. Каждый раз достаточное её накопление давало толчок к развитию научно-технического прогресса.
В современном мире большие объёмы данных хранятся и анализируются в различных сферах жизни общества: в металлургии и менеджменте, ракетостроении и политологии, ботанике и банковском деле, экономике и медицине. Этот список можно продолжать бесконечно. Сегодня невозможно представить область науки или промышленную сферу, которая бы не имела собственную базу данных, собранную и "доведённую до совершенства" годами или десятилетиями кропотливого труда тысяч и миллионов человек.
Используя данную информацию, исследователи всегда хотели знать, как поведёт себя интересуемый объект при определённых условиях окружающего мира. С решением данного вопроса может помочь прогнозирование. Если говорить научным языком, то прогнозирование - это специальное научное исследование, обусловленное желанием знать поведение исследуемого процесса, построенное на основе имеющихся данных.
Но данные не всегда хранятся в виде, удобном для работы исследователя. Часто для решения поставленной задачи исследователь сталкивается с огромными объёмами лишних данных, которые будут лишь мешать достижению поставленной цели. Например, в медицине, если стоит задача определить, имеется ли у пациента рак, то данные о наличие у него плоскостопия или дефектов зрения не несут в себе никакой информативности, а будут лишь мешать определению заболевания. Недостаток данных по объекту исследования так же, как и их излишек, является проблемой. Представим, что на заводе железобетонных конструкций имеется выборка наблюдений, содержащая в себе результаты измерений лишь 10 характеристик бетона марки В12 при разном соотношении воды, песка, гравия и цемента. Аналитику необходимо сделать прогноз качества бетона В12 при увеличении первых двух параметров и уменьшении оставшихся двух. Никакого приемлемого ответа на основе всего лишь 10 наблюдений он дать не сможет. Кроме того, в данных могут присутствовать выбросы и пропуски, с которыми исследователю также необходимо как-то бороться. Пропуски могут быть вызваны недобросовестным отношением к своей работе человека, отвечающего за сбор информации или же невозможностью измерения какого-либо параметра в конкретных условиях.
С аналогичной проблемой человек сталкивается при оценке стоимости автомобиля. В современной жизни автомобиль является неотъемлемой частью жизни каждого из нас. Наличие машины говорит об успешности человека. Личное транспортное средство помогает сохранить время на преодолении расстояний в условиях мегаполисов, почувствовать себя свободным и независимым. Многие люди считают, что автомобиль - это не роскошь, а средство передвижения. Но это не совсем так.
Перед приобретением нового автомобиля люди задают себе стандартные вопросы: "Стоит ли данная покупка тех денег, которые запрашивает за него автозавод?", "Не будет ли обслуживание купленного транспортного средства наносить серьёзный ущерб финансовому состоянию покупателя?". Ответ на эти вопросы может дать решение задачи прогнозирования.
В современном мире большие объёмы данных хранятся и анализируются в различных сферах жизни общества: в металлургии и менеджменте, ракетостроении и политологии, ботанике и банковском деле, экономике и медицине. Этот список можно продолжать бесконечно. Сегодня невозможно представить область науки или промышленную сферу, которая бы не имела собственную базу данных, собранную и "доведённую до совершенства" годами или десятилетиями кропотливого труда тысяч и миллионов человек.
Используя данную информацию, исследователи всегда хотели знать, как поведёт себя интересуемый объект при определённых условиях окружающего мира. С решением данного вопроса может помочь прогнозирование. Если говорить научным языком, то прогнозирование - это специальное научное исследование, обусловленное желанием знать поведение исследуемого процесса, построенное на основе имеющихся данных.
Но данные не всегда хранятся в виде, удобном для работы исследователя. Часто для решения поставленной задачи исследователь сталкивается с огромными объёмами лишних данных, которые будут лишь мешать достижению поставленной цели. Например, в медицине, если стоит задача определить, имеется ли у пациента рак, то данные о наличие у него плоскостопия или дефектов зрения не несут в себе никакой информативности, а будут лишь мешать определению заболевания. Недостаток данных по объекту исследования так же, как и их излишек, является проблемой. Представим, что на заводе железобетонных конструкций имеется выборка наблюдений, содержащая в себе результаты измерений лишь 10 характеристик бетона марки В12 при разном соотношении воды, песка, гравия и цемента. Аналитику необходимо сделать прогноз качества бетона В12 при увеличении первых двух параметров и уменьшении оставшихся двух. Никакого приемлемого ответа на основе всего лишь 10 наблюдений он дать не сможет. Кроме того, в данных могут присутствовать выбросы и пропуски, с которыми исследователю также необходимо как-то бороться. Пропуски могут быть вызваны недобросовестным отношением к своей работе человека, отвечающего за сбор информации или же невозможностью измерения какого-либо параметра в конкретных условиях.
С аналогичной проблемой человек сталкивается при оценке стоимости автомобиля. В современной жизни автомобиль является неотъемлемой частью жизни каждого из нас. Наличие машины говорит об успешности человека. Личное транспортное средство помогает сохранить время на преодолении расстояний в условиях мегаполисов, почувствовать себя свободным и независимым. Многие люди считают, что автомобиль - это не роскошь, а средство передвижения. Но это не совсем так.
Перед приобретением нового автомобиля люди задают себе стандартные вопросы: "Стоит ли данная покупка тех денег, которые запрашивает за него автозавод?", "Не будет ли обслуживание купленного транспортного средства наносить серьёзный ущерб финансовому состоянию покупателя?". Ответ на эти вопросы может дать решение задачи прогнозирования.
В работе рассмотрены задачи машинного обучения, с решением которых возможно решение задачи прогнозирования. Восстановление регрессии является лучшим из таких решений. Также исследовалось решение задачи идентификации с помощью параметрического и непараметрического подходов.
Было произведено исследование методов борьбы с пропущенными значениями в матрице наблюдений и реализованы некоторые из них: удаление строк с пропусками, метод Бартлета, Resampling-метод, заполнение на основе линейной регрессионной модели.
Также исследовались методы сокращения размерности матрицы наблюдений и с помощью программного продукта SPSS Statistica был реализован метод главных компонент, который при используемых способах обучения алгоритма показал себя не лучшим образом на представленных данных.
В ходе выполнения работы проанализировались работы по заданной тематике. Рассмотрен существующий способ решения задачи прогнозирования стоимости автомобиля на имеющихся данных с использованием параметрического моделирования в студии машинного обучения Azure.
В работе был предложен непараметрический алгоритм прогнозирования стоимости автомобиля, основанный на оценке Надарая-Ватсона, с помощью которого была увеличена точность решения задачи идентификации в многомерном пространстве наблюдений с пропусками в условиях малого объёма данных.
Было произведено исследование методов борьбы с пропущенными значениями в матрице наблюдений и реализованы некоторые из них: удаление строк с пропусками, метод Бартлета, Resampling-метод, заполнение на основе линейной регрессионной модели.
Также исследовались методы сокращения размерности матрицы наблюдений и с помощью программного продукта SPSS Statistica был реализован метод главных компонент, который при используемых способах обучения алгоритма показал себя не лучшим образом на представленных данных.
В ходе выполнения работы проанализировались работы по заданной тематике. Рассмотрен существующий способ решения задачи прогнозирования стоимости автомобиля на имеющихся данных с использованием параметрического моделирования в студии машинного обучения Azure.
В работе был предложен непараметрический алгоритм прогнозирования стоимости автомобиля, основанный на оценке Надарая-Ватсона, с помощью которого была увеличена точность решения задачи идентификации в многомерном пространстве наблюдений с пропусками в условиях малого объёма данных.



