Введение 4
Постановка задачи 5
Глава 1. Подготовка входных данных 6
1.1 Источник данных 6
1.2 Предобработка данных 7
1.3 Реализация методов 9
1.4 Оценка 10
Глава 2. Нахождение остановок 10
2.1 Алгоритм 10
2.2 Гистограммы распределения 12
2.3 Машинное обучение 13
Глава 3. Оптимизация параметров 14
3.1 Параметры регрессии k-ближайших соседей (kNN) 14
3.2 Параметры регрессии опорных векторов (SVM) 16
3.3 Сравнение стандартных и оптимизированных параметров 18
Глава 4. Анализ данных 19
4.1 Обучение на нескольких часах 19
4.2 Обучение на неделе 20
4.3 Обучение на повторяющихся днях 21
4.4 Обучение на нескольких неделях 22
4.5 Дополнительный атрибут 23
4.6 Итоги 24
Глава 5. Предсказание в режиме реального времени 25
5.1 Набор данных 26
5.2 Алгоритм 26
5.3 Эксперименты 27
Заключение 29
Список литературы 30
В наши дни общественный транспорт является одним из важнейших компонентов городской инфраструктуры. Большая часть городского населения использует различные виды общественного транспорта для своих ежедневных поездок. Так, за 2015 год только автобусный пассажиропоток в Санкт-Петербурге составил 319 миллионов человек, что является показателем для городских планировщиков о необходимости инвестирования ресурсов в создание эффективных транспортных систем. Для этого транспортные операторы и специалисты по планированию обращаются к технологиям как аппаратного, так и программного обеспечения. И цель здесь не только в создании эффективной транспортной системы, но также и в улучшении и упрощении жизни населения.
Конечно, в большинстве мегаполисов транспортные системы достаточно хорошо развиты. На самом деле, большинство операторов общественного транспорта уже сделали доступными расписания или график своих услуг для пассажиров в интернете, с помощью мобильных приложений или табло на станциях или остановках. Однако, часто случается так, что в течение дня в городе изменяется динамика машинопотока, из-за чего возможны непредвиденные задержки, и ожидающим пассажирам будут причинены неудобства, поскольку они не будут знать, где в настоящий момент находится нужным им транспорт. Данная ситуация возникает из-за использования не очень точных методов для нахождения местоположения по полученным данным из аппаратных средств, таких, как GPS/Глонасс- приёмников.
В наше время, развитие GPS/Глонасс-устройств позволяют получать отчет о местоположении с довольно высокой степенью точности, что и может быть использовано для прогнозирования времени прибытия транспорта. Такие технологии, то есть установленные GPS/Глонасс-приемники, уже используются различными операторами для контроля и управления их парка в таких городах, как Москва, Санкт-Петербург, Калининград и т.д., что позволяет получать данные о местоположении транспорта в режиме реального времени, если информация приходит с высокой частотой. Соответственно можно обработать и проанализировать приходящие данные.
В настоящей работе был представлен адаптивный алгоритм прогнозирования прибытия общественного транспорта, основанный на регрессионных моделях.
Была произведена оптимизация параметров регрессионных методов для повышения точности прогнозирования. Средняя абсолютная ошибка была понижена, это показывает, что оптимизация играет важную роль в подготовке предсказания времени прибытия. Алгоритм kNN был гораздо устойчивее к настройке параметров, быстрее в работе и уступает SVM лишь несколько секунд в ошибке, следовательно, он больше подходит для предсказания в режиме реального времени в условиях постоянно меняющегося движения.
Анализ набора данных показал, что лучший способом предсказания на конкретный день является обучение на трёх предыдущих днях того же типа. Это означает, что если цель состоит в предсказании на понедельник, то регрессор должен быть обучен на трёх предыдущих понедельниках. Также было выяснено, что добавление информации о погоде не улучшает прогнозирование.