Введение 3
1. Постановка задачи 5
2. Методы решения задач 6
2.1. Методы и модели машинного обучения 6
2.2. Основные определения машинного обучения 6
3. Решение задачи 10
3.1 Выбранные признаки 11
3.2 Рассмотренные методы 11
3.2.1 Линейная регрессия 12
3.2.2 Деревья решений 13
3.2.3 Градиентный бустинг на деревьях решений 13
4 Реализация решений 15
4.1 Препроцессинг 15
4.2 Разработка информационной системы 18
4.3 Сравнение с другими языками программирования 21
5 Результаты 22
Заключение 23
Приложения 25
Листинг 30
На сегодняшний день множество коммерческих компаний заинтересованы в оптимизации их бизнес и производственных процессов. К примеру, в службах такси по сей день существует множество процессов, которые требуют расходов значительно большого количества ресурсов (материальных и человеческих), и оптимизировав которые можно существенно сократить расходы и увеличить прибыль, и популярность конкретной фирмы(существенно возрастет показатель сервиса и уменьшится время ожидания) .
Опишем более подробно. Оказывая транспортные услуги, службам такси приходится сталкиваться с такими трудностями как: нерациональное использование геопозиционных данных таксистов для организации дальнейшей трудовой деятельности, или проще говоря, водителям приходится ездить из одной точки в другую, при этом вхолостую сжигая топливо и впустую расходуя время, или так же отъехав от предыдущего местоположения пропустить заявку. Еще одной задачей является то, какому автомобилю предоставить заказ, так чтобы характеристики транспортного средства соответствовали требованиям клиента, учитывая геопозиционную эффективность, описанную выше.
Внедрение машинного обучения в них производит заметный эффект в показателях, отражающих прибыль и сам процесс работы.
Задача прогнозирования заключается в том, чтобы предсказать необходимые результаты для поставленной задачи с минимальной ошибкой. Задачи прогнозирования охватывают многие сферы жизни - экономическую, социальную, сельскохозяйственную сферы, медицину, геологию, прогноз погоды и другие. Многие коммерческие компании используют финансовые прогнозы, прогнозы спроса и предложений своего товара. Это позволяет существенно экономить бюджет
В работе рассмотрена задача прогнозирования заказов службы такси осуществляющего пассажирские перевозки в городе с численностью населения 120 тыс. человек.
Большинство исследователей применяют модели машинного обучения. Самой часто встречающейся моделью для решения поставленной задачи оказались искусственные нейронные сети [1, 2, 3, 4, 5, 6, 7, 8]. Но и другие модели показывают себя хорошо в применении.
Для решения поставленной задачи были использованы несколько моделей машинного обучения. Результаты были получены экспериментально. Модели показывали достаточно разные результаты прогнозирования.
Самый лучший результат был достигнут при использовании Gradient Boost Regressor модели c показателем MSE=33.0.
Показатель MSE, полученный при использовании логистической регрессии равна 39.2.
Результат модели Random Forest показал результат с MSE=41.02 .
При этом система может далее развиваться для получения результатов ещё точнее.
В дальнейшем система будет дорабатываться. Будут рассмотрены другие методы и композиции методов машинного обучения, добавлены новые признаки.
1. Kriesel David. A Brief Introduction to Neural Networks. 2007.
2. Lu C. N. Wu H. T. Vemuri S. Neural network based short term load forecasting //Power Systems, IEEE Transactions on. 1993.
3. G. Bakirtzis A. A neural network short term load forecasting model for the Greek
power system //Power Systems, IEEE Transactions on. 1996.
4. V.I. Domanov A.I. Bolalova. Analysis of forecasting the energy consumption with various data bases. 2014.
5. В. Воронцов К. Машинное обучение //Курс лекций на сайте http://www. machinelearning. ru. 2009.
6. Золотых Н.Ю. Машинное обучение и анализ данных.
7. R. Quinlan J. Induction of Decision Trees. 1986.
8. Friedman J. Greedy Function Approximation: A Gradient Boosting Machine. 2001.
9. Портал Языка программирования Python url:http://pythonworld.ru/.
10. Портал библиотеки scikit-learn url:http://scikit-learn.org/stable/.
11. Портал библиотеки NumPy url:http://www.numpy.org/.
12. Портал языка Matlab url:http://www.mathworks.com.
13. Портал языка Wolfram Mathematica url:http://www.wolfram.com/mathematica/.
14. Дружков П.Н. Золотых Н.Ю. Половинкин А.Н. Введение в R. 2013.