Тема: Непараметрический алгоритм прогнозирования стоимости автомобиля
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 5
1 Задача прогнозирования в условиях многомерной выборки, содержащей
пропуски 7
1.1 Задача моделирования и прогнозирования 7
1.1.1 Моделирование 7
1.1.2 Машинное обучение 9
1.1.3 Прогнозирование 11
1.2 Известные методы и алгоритмы 14
1.2.1 Параметрические модели 16
1.2.2 Непараметрические модели 18
1.3 Заполнение пропусков в матрице наблюдений 21
1.3.1 Известные методы 22
1.4 Сокращение размерности в многомерном пространстве данных 29
1.4.1 Метод главных компонент 29
1.4.2 Факторный анализ 31
1.4.3 Многомерное шкалирование 32
Выводы к главе 1 32
2 Задача прогнозирования в многомерном пространстве 34
2.1 Задача прогнозирования в многомерном пространстве 34
2.1.1 Описание исходных данных 34
2.2 Анализ работ 41
2.2.1 Обзор научных публикаций по теме бакалаврской работы 42
2.2.2 Обзор книг и монографий по теме бакалаврской работы 43
2.2.3 Обзор диссертаций по теме бакалаврской работы 44
2.3 Azure 45
2.3.1 Создание эксперимента на основе существующего решения 47
2.4 Предлагаемое решение 57
Выводы по 2 главе 59
3 Разработка непараметрического алгоритма прогнозирования стоимости
автомобиля 61
3.1 Решение задачи заполнения пропусков в матрице наблюдений 61
3.2 Выявление значимых признаков 63
3.2.1 Корреляционный анализ 64
3.2.2 Метод главных компонент 67
3.3 Решение задачи прогноза 70
3.4 Сравнение предложенного метода с существующими 73
Выводы к главе 3 77
ЗАКЛЮЧЕНИЕ 79
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 80
📖 Введение
В современном мире большие объёмы данных хранятся и анализируются в различных сферах жизни общества: в металлургии и менеджменте, ракетостроении и политологии, ботанике и банковском деле, экономике и медицине. Этот список можно продолжать бесконечно. Сегодня невозможно представить область науки или промышленную сферу, которая бы не имела собственную базу данных, собранную и "доведённую до совершенства" годами или десятилетиями кропотливого труда тысяч и миллионов человек.
Используя данную информацию, исследователи всегда хотели знать, как поведёт себя интересуемый объект при определённых условиях окружающего мира. С решением данного вопроса может помочь прогнозирование. Если говорить научным языком, то прогнозирование - это специальное научное исследование, обусловленное желанием знать поведение исследуемого процесса, построенное на основе имеющихся данных.
Но данные не всегда хранятся в виде, удобном для работы исследователя. Часто для решения поставленной задачи исследователь сталкивается с огромными объёмами лишних данных, которые будут лишь мешать достижению поставленной цели. Например, в медицине, если стоит задача определить, имеется ли у пациента рак, то данные о наличие у него плоскостопия или дефектов зрения не несут в себе никакой информативности, а будут лишь мешать определению заболевания. Недостаток данных по объекту исследования так же, как и их излишек, является проблемой. Представим, что на заводе железобетонных конструкций имеется выборка наблюдений, содержащая в себе результаты измерений лишь 10 характеристик бетона марки В12 при разном соотношении воды, песка, гравия и цемента. Аналитику необходимо сделать прогноз качества бетона В12 при увеличении первых двух параметров и уменьшении оставшихся двух. Никакого приемлемого ответа на основе всего лишь 10 наблюдений он дать не сможет. Кроме того, в данных могут присутствовать выбросы и пропуски, с которыми исследователю также необходимо как-то бороться. Пропуски могут быть вызваны недобросовестным отношением к своей работе человека, отвечающего за сбор информации или же невозможностью измерения какого-либо параметра в конкретных условиях.
С аналогичной проблемой человек сталкивается при оценке стоимости автомобиля. В современной жизни автомобиль является неотъемлемой частью жизни каждого из нас. Наличие машины говорит об успешности человека. Личное транспортное средство помогает сохранить время на преодолении расстояний в условиях мегаполисов, почувствовать себя свободным и независимым. Многие люди считают, что автомобиль - это не роскошь, а средство передвижения. Но это не совсем так.
Перед приобретением нового автомобиля люди задают себе стандартные вопросы: "Стоит ли данная покупка тех денег, которые запрашивает за него автозавод?", "Не будет ли обслуживание купленного транспортного средства наносить серьёзный ущерб финансовому состоянию покупателя?". Ответ на эти вопросы может дать решение задачи прогнозирования.
✅ Заключение
Было произведено исследование методов борьбы с пропущенными значениями в матрице наблюдений и реализованы некоторые из них: удаление строк с пропусками, метод Бартлета, Resampling-метод, заполнение на основе линейной регрессионной модели.
Также исследовались методы сокращения размерности матрицы наблюдений и с помощью программного продукта SPSS Statistica был реализован метод главных компонент, который при используемых способах обучения алгоритма показал себя не лучшим образом на представленных данных.
В ходе выполнения работы проанализировались работы по заданной тематике. Рассмотрен существующий способ решения задачи прогнозирования стоимости автомобиля на имеющихся данных с использованием параметрического моделирования в студии машинного обучения Azure.
В работе был предложен непараметрический алгоритм прогнозирования стоимости автомобиля, основанный на оценке Надарая-Ватсона, с помощью которого была увеличена точность решения задачи идентификации в многомерном пространстве наблюдений с пропусками в условиях малого объёма данных.



