Введение
Глава 1 Обзор ансамблевых технологий машинного обучения при решении задач регрессии
1.1Разновидности задач регрессии при анализе данных
1.2Обзор ансамблевых технологий машинного обучения
Глава 2 Разработка технологии смешанного использования алгоритмов машинного обучения
2.1Схема применения смешанного машинного обучения
2.2Данные для апробации смешанного машинного обучения
Глава 3 Программная реализация смешанного машинного обучения
3.1Описание программного кода
3.2Интерфейс программного обеспечения
3.3Результаты тестирования
Заключение
Список используемой литературы
Основой искусственного интеллекта с точки зрения математики и информатики являются алгоритмы машинного обучения. С помощью этих алгоритмов, с использованием обучающего набора данных, производится обучение прогнозных моделей, описывающих закономерности в данных.
Машинное обучение используется во многих научных отраслях: при создании диагностических производственных систем, при проектировании аналитических систем оценки рисков в экономике, при создании систем поддержки принятия решений в медицине, в системах обеспечения общественного порядка используемых правоохранительными органами и т.д.
Актуальной задачей для исследователей алгоритмов машинного обучения является повышение точности получаемых прогнозных моделей. Помимо разработки новых алгоритмов, исследователи из данной области разрабатывают новые способы применения существующих алгоритмов. Например, одно из современных достижений в данной области - методы ансамблевого использования существующих алгоритмов машинного обучения. Эти методы основаны на идее использования одного метода машинного обучения для настройки с его помощью нескольких прогнозных моделей, работающих (с целью повышения точности получаемых прогнозов) совместно. При этом результат прогнозирования формируется на основе совокупности выводов совместно работающих прогнозных моделей. Совместно работающие модели в этом случае называют ансамблями (ensemble methods).
К таким ансамблевым методам относятся Бэггинг (Bagging), Случайный лес (Random Forest), Бустинг (Boosting), Градиентный бустинг (Gradient Boosting), параллельная реализация градиентного бустинга (XGBoost).
Все ансамблевые методы объединяет то, что они работают на основе одного выбранного базового метода машинного обучения.
В данной бакалаврской работе делается предположение, что возможно развить ансамблевый подход до использования не одного базового метода, а сколь угодно большого числа базовых методов «смешивая» их в любых комбинациях на выбор пользователя. Очевидно, что чтобы доказать эффективность смешанного машинного обучения требуется провести большое количество вычислительных экспериментов, а для этого требуется программное обеспечение, реализующее данную технологию.
Поэтому, цель работы - разработка подхода смешанного машинного обучения и программного обучения для его тестирования.
Для достижения поставленной цели в работе решаются следующие задачи:
1.Анализ существующих подходов по совместному использованию методов машинного обучения.
2.Разработка подхода смешанного машинного обучения позволяющего совмещать различные алгоритмы машинного обучения в заданной пользователем комбинации.
3.Разработка программной обеспечения, позволяющего тестировать смешанное обучение на произвольно заданных данных.
В ходе выполнения бакалаврской работы были получены следующие результаты:
-Было произведено сравнение подходов по использования алгоритмов машинного обучения для получения составных прогнозных моделей (ансамблей). При сравнении рассматривались такие ансамблевые методы, как бэггинг (Bagging), случайный лес (Random Forest), бустинг (Boosting), градиентный бустинг (Gradient Boosting), параллельный градиентный бустинг (XGBoost). По результатам сравнения была составлена схема, показывающая, как соотносятся скорости обучения ансамблевых методов и точности прогнозирования получаемых моделей.
-В ходе анализа ансамблевых методов установлено, что их использование основано на применении одно базового алгоритма, например, например алгоритма построения дерева принятия решения. Поэтому предложено разработать технология смешанного машинного обучения позволяющего использовать не один, а сразу несколько базовых алгоритмов при построении составных прогнозных моделей.
-Предложена технология смешанного машинного обучения для построения составных регрессионных моделей. Алгоритм обучения составных регрессионных моделей включает в себя следующие этапы: разделение исходных данных на тренировочную и тестовую выборку, использование тренировочной выборки данных для построения множества регрессионных моделей с использованием выбранного набора методов машинного обучения и настройка полученных моделей для совместной работы. При этом задача согласования совместной работы моделей сведена к задаче поиска коэффициентов линейной функции, связывающей выходное значение составной модели (У) с выходными значениями исходного набора регрессионных моделей (у1, y2, • • •, Ук)-
-На языке программирования Python разработано программное обеспечение, позволяющее тестировать технологию смешанного машинного обучения и сравнивать ее эффективность (точность работы по значению MAE) с классическими методами машинного обучения (Support Vector Regression, K-Neighbors Regressor, Descision Tree Regressor, Linear Regression). Разработанное программное обеспечение обладает графическим интерфейсом и средствами визуализация результатов вычислительных экспериментов посредством таблиц и столбчатых диаграмм.
-Было проведено более 20 вычислительных экспериментов на разных наборах данных. В 19 экспериментах наибольшую точность (наименьшее значение ошибки MAE) показали регрессионные модели, настроенные с использованием предложенной технологии смешанного машинного обучения. Это на практике доказывает эффективность предложенной технологии.