Введение 4
Постановка задачи 5
Глава 1. Подготовка входных данных 6
1.1 Источник данных 6
1.2 Предобработка данных 7
1.3 Реализация методов 9
1.4 Оценка 10
Глава 2. Нахождение остановок 10
2.1 Алгоритм 10
2.2 Гистограммы распределения 12
2.3 Машинное обучение 13
Глава 3. Оптимизация параметров 14
3.1 Параметры регрессии k-ближайших соседей (kNN) 14
3.2 Параметры регрессии опорных векторов (SVM) 16
3.3 Сравнение стандартных и оптимизированных параметров 18
Глава 4. Анализ данных 19
4.1 Обучение на нескольких часах 19
4.2 Обучение на неделе 20
4.3 Обучение на повторяющихся днях 21
4.4 Обучение на нескольких неделях 22
4.5 Дополнительный атрибут 23
4.6 Итоги 24
Глава 5. Предсказание в режиме реального времени 25
5.1 Набор данных 26
5.2 Алгоритм 26
5.3 Эксперименты 27
Заключение 29
Список литературы 30
В наши дни общественный транспорт является одним из важнейших компонентов городской инфраструктуры. Большая часть городского населения использует различные виды общественного транспорта для своих ежедневных поездок. Так, за 2015 год только автобусный пассажиропоток в Санкт-Петербурге составил 319 миллионов человек, что является показателем для городских планировщиков о необходимости инвестирования ресурсов в создание эффективных транспортных систем. Для этого транспортные операторы и специалисты по планированию обращаются к технологиям как аппаратного, так и программного обеспечения. И цель здесь не только в создании эффективной транспортной системы, но также и в улучшении и упрощении жизни населения.
Конечно, в большинстве мегаполисов транспортные системы достаточно хорошо развиты. На самом деле, большинство операторов общественного транспорта уже сделали доступными расписания или график своих услуг для пассажиров в интернете, с помощью мобильных приложений или табло на станциях или остановках. Однако, часто случается так, что в течение дня в городе изменяется динамика машинопотока, из-за чего возможны непредвиденные задержки, и ожидающим пассажирам будут причинены неудобства, поскольку они не будут знать, где в настоящий момент находится нужным им транспорт. Данная ситуация возникает из-за использования не очень точных методов для нахождения местоположения по полученным данным из аппаратных средств, таких, как GPS/Глонасс- приёмников.
В наше время, развитие GPS/Глонасс-устройств позволяют получать отчет о местоположении с довольно высокой степенью точности, что и может быть использовано для прогнозирования времени прибытия транспорта. Такие технологии, то есть установленные GPS/Глонасс-приемники, уже используются различными операторами для контроля и управления их парка в таких городах, как Москва, Санкт-Петербург, Калининград и т.д., что позволяет получать данные о местоположении транспорта в режиме реального времени, если информация приходит с высокой частотой. Соответственно можно обработать и проанализировать приходящие данные.
Постановка задачи
Учитывая актуальность проблемы предсказания прибытия общественного транспорта на остановки с ростом развития городов и их инфраструктуры, были поставлены следующие задачи.
Во-первых, собрать и подготовить данные для дальнейших исследований: получить GPS/Глонасс координаты транспорта, в частности 300 автобусного маршрута ГУП «Пассажиравтотранс», дорожных знаках и остановках, информацию о погоде и машинном трафике.
Во-вторых, рассмотреть несколько методов машинного обучения для построения регрессионных моделей предсказания на разных наборах данных, найти оптимальные параметры и выборку.
В-третьих, предложить адаптивный алгоритм предсказания прибытия общественного транспорта в режиме реального времени, основывая на анализе получаемых данных.
В настоящей работе был представлен адаптивный алгоритм прогнозирования прибытия общественного транспорта, основанный на регрессионных моделях.
Была произведена оптимизация параметров регрессионных методов для повышения точности прогнозирования. Средняя абсолютная ошибка была понижена, это показывает, что оптимизация играет важную роль в подготовке предсказания времени прибытия. Алгоритм kNN был гораздо устойчивее к настройке параметров, быстрее в работе и уступает SVM лишь несколько секунд в ошибке, следовательно, он больше подходит для предсказания в режиме реального времени в условиях постоянно меняющегося движения.
Анализ набора данных показал, что лучший способом предсказания на конкретный день является обучение на трёх предыдущих днях того же типа. Это означает, что если цель состоит в предсказании на понедельник, то регрессор должен быть обучен на трёх предыдущих понедельниках. Также было выяснено, что добавление информации о погоде не улучшает прогнозирование.
1. Christopher Bishop, Pattern Recognition and Machine Learning, 2006
2. Погребной В.Ю. Алгоритмизация прогнозирования времени прибытия пассажирского транспорта города Томска на остановку с использованием модели, основанной на исторических и реальных данных / В.Ю. Погребной, А.С. Фадеев // Интернет журнал «Науковедение», № 6 (19), 2013. C. 1-16
3. Wei-Hua Lin, Jian Zeng, Experimental study of real-time bus arrival time prediction with GPS data // Transportation Research Record: Journal of the Transportation Research Board, No. 1666, 1999. P. 101-109
4. Scikit-learn documentationhttp: //scikit-learn.org/stable/documentation.html
5. GTFS documentationhttps://developers.google.com/transit/gtfs/
6. Nitin Bhatia, Survey of Nearest Neighbor Techniques // International Journal of Computer Science and Information Security vol. 8, No. 2, 2010. P. 302-305
7. Farhan, Ali. Bus arrival time prediction for dynamic operations control and passenger information systems, 82nd Annual Meeting of the Transportation Research Board, National Research Council, 2002.
8. Leon Stenneth, Philip S. Yu, Monitoring and mining GPS traces in transit space, SIAM International Conference on Data Mining, 2013.
9. Вьюгин В.В. Математические основы машинного обучения и прогнозирования. - М.: МЦНМО, 2013. С. 390
10. Ямшанов М.Л. Оптимизация выбора параметров SVM-классификатора с ядром RBF для задач классификации текстовых документов // Вестник ВятГГУ, 2006. №15.