Введение 5
Постановка задачи 8
Обзор литературы 9
Глава I. Эффективность общественного транспорта 11
1.1. Текущая ситуация в сфере общественного транспорта 12
1.2. Критерии эффективности общественного транспорта 12
1.3. Анализ критерия эффективности доступа 15
1.3.1 Покрытие и дистанция доступа 15
1.4. Анализ критерия эффективности доступности 16
1.4.1 Частота рейсов и количество маршрутов 18
1.5. Анализ критерия избыточности 18
1.5.1 Неэффективность расположения остановок 19
1.5.2 Локационная задача покрытия множества 20
1.5.3 Лагранжева эвристика 22
1.5.4 Задача максимального покрытия территории 24
Глава II. Методология больших данных 26
2.1. Определение больших данных 26
2.2. Apache Hadoop 27
2.2.1 Компоненты Apache Hadoop 28
2.2.2 Распределенная файловая система HDFS 30
2.2.3 Парадигма MapReduce 31
2.2.4 Программный интерфейс Hadoop Streaming API 33
2.3. Облачная платформа Microsoft Azure HDInsight 33
2.4. Большие данные и исследования общественного транспорта 35
Глава III. Реализация задачи 38
3.1. Описание исходных данных 38
3.1.1 Транспортные данные 38
3.1.2 Административное деление и население 40
3.1.3 Улично-дорожная сеть 41
3.2. Программное обеспечение и конфигурация 43
3.3. Подготовка данных 44
3.3.1 Конвертация файла УДС 44
3.3.2 Выгрузка данных в HDFS облачного кластера 44
3.3.3 Фильтрация данных 45
3.3.4 Выполнение задания MapReduce 46
3.3.5 Перемещение данных в геоинформационную систему 48
3.4. Реализация анализа параметра доступа 49
3.5. Реализация анализа параметра доступности 52
3.6. Совмещенный анализ параметров доступа и доступности 53
3.7. Реализация анализа избыточности 55
Выводы 58
Заключение 59
Приложение 60
Пример содержимого GTFS-канала 60
Скрипт загрузки данных улично-дорожной сети 63
Сценарий загрузки файлов из облачного BLOB-хранилища 64
Список литературы 65
Система общественного транспорта, как одна из наиболее важных составляющих инфраструктуры городов, несомненно оказывает существенное влияние на их жизнедеятельность. Обладание досконально полной информацией о функционировании всех компонент этих систем позволяет гибко и динамично осуществлять широчайший комплекс манипулятивных действий по управлению. Это особенно полезно в условиях современных городов, в особенности, в мегаполисах с уже сложившейся структурой общественного транспорта.
Услуги, предоставляемые системами общественного транспорта, являются важным компонентом процессов общегородского планирования и управления, однако существующая идеология городского управления в области общественного транспорта остается достаточно общей и не предполагает манипулирование системой в сколь бы то ни было крупном масштабе. Затруднительным остается контроль за функционированием транспорта в режиме реального времени, сбор точных статистических данных для всей системы общественного транспорта, отсутствие унифицированного инструментария транспортного моделирования на уровне городов.
Традиционные методы сбора данных, такие как анкетирование, тематические исследования, городские аудиты, интервью, фокус-группы, этнография, имеют ряд серьезных недостатков: они генерируются на разрозненной, не непрерывной основе, имеют малое количество переменных, агрегируются до грубого масштаба и часто имеют ограниченный доступ. Коренная причина этого кроется в ограниченности выборки исходных данных, которые довольно плотно сосредоточены, дополнительно основываясь на каком- то конкретном временном и пространственном промежутке и физически ограничены по объему, а также довольно дороги для генерации и анализа. Большинство современных знаний о городах были выведены из этих несовершенных и дефицитных данных.
Одна из ветвей качественного преобразования городского управления — концепция Smart City, опирающаяся на сферу больших данных, которая в свою очередь предлагает современные подходы к сбору потока данных обеспечивающих более сложное, масштабное и мелкозернистое информационное покрытие областей городской жизнедеятельности. Именно автоматически генерируемые данные должны предоставлять всю необходимую информацию о самых малых составляющих городской инфраструктуры, позволяя управлять ими с максимальной степенью автоматизма и в режиме реального времени средствами управляющей информационной системы. Взаимодействие таких данных и информационных систем требует минимального человеческого участия, снижая тем самым сложность управления городом, а также предоставляя значительное количество всевозможной информации, которую невозможно собрать имеющимися средствами. Таким образом, реализация концепции Smart City может упростить управление городской инфраструктурой, позволив при этом узнать гораздо больше информации о ее функционировании и состоянии.
В соответствии с концепцией, сфера городского общественного транспорта также подлежит фундаментальной реорганизации для получения возможности более качественно эксплуатировать ее. Осуществление преобразований в этой сфере невозможно без введения кардинально иных методов, таких как централизованное управление в режиме реального времени: целенаправленный сбор данных о перемещении подвижного состава и пассажиров посредством телекоммуникационного оборудования в единый центр транспортного управления позволяет отслеживать функционирование всей системы в целом, что невозможно было бы осуществить имеющимися методами, такими, как локальный ручной подсчет и визуальное наблюдение.
С исследовательской точки зрения, собираемые транспортные данные могут быть использованы для более детального изучения функционирования общественного транспорта, к примеру, для более точного моделирования, для выяснения различных статистических закономерностей, либо для стратегического планирования. Одной из характеристик функционирования, информацию о которой можно извлечь из транспортных данных, выступает эффективность общественного транспорта. В свою очередь, данная характеристика весьма полезна для целей краткосрочного и долгосрочного планирования, а также для проведения иных исследований, например, для разработки инновационных методов проектирования.
Самостоятельное исследование характеристики эффективности тем не менее может быть весьма важным для обеспечения удобства пользования общественным транспортом, что является одной из основных функций транспортных служб. Информация об эффективности общественного транспорта помогает достоверно определять районы, где требуется внести локальные или крупномасштабные изменения транспортной системы, в том числе в связке с автомобильным транспортом. С другой стороны, эффективность достаточно релевантно отражает доступность и удобство общественного транспорта для перемещений на нем жителей города.
Из этого следует, что эффективный, инновационный и качественный (комфортный) общественный транспорт привлекает большее количество пассажиров, которые выбирают его вместо использования личного автотранспорта, что позитивно сказывается на воздействии на окружающую среду, дорожном трафике, и на энергетической эффективности. Также доказана (отметим) взаимосвязь развития транспортной, в том числе общественной, составляющей региона и решения проблем его устойчивого развития [38].
В рамках проведенного исследования получены следующие результаты:
— Внедрение методики обработки больших данных как универсального аналитического фундамента, пригодного для привязки дополнительных данных, таких как пассажиропоток, потоки автомобильного транспорта и др.
— Анализ результатов вычисления различных параметров эффективности и совмещение некоторых из них для получения более адекватных значений.
Сформулированные задачи были выполнены в полном объеме. Поставленные цели были достигнуты.
1. Antrim A., Barbeau S. J. The many uses of GTFS data-opening the door to transit and multimodal applications // Location-Aware Information Systems Laboratory at the University of South Florida. — 2013.
2. Batty M. Big data, smart cities and city planning // Dialogues in Human Geography. — 2013. — Т. 3, № 3. — С. 274—279.
3. Beasley J. E., Jornsten K. Enhancing an algorithm for set covering problems // European Journal of Operational Research. — 1992. — Т. 58, № 2. — С. 293—300.
4. Bertolini L., Le Clercq F., Kapoen L. Sustainable accessibility: a conceptual framework to integrate transport and land use plan-making. Two test-applications in the Netherlands and a reflection on the way forward // Transport policy. — 2005. — Т. 12, № 3. — С. 207—220.
5. Big Data defintion, Gartner Inc. — URL: http://www.gartner.com/it- glossary/big-data/.
6. Caprara A., Fischetti M., Toth P. A heuristic method for the set covering problem // Operations research. — 1999. — Т. 47, № 5. — С. 730—743.
7. Church R., Velle C. R. The maximal covering location problem // Papers in regional science. — 1974. — Т. 32, № 1. — С. 101—118.
8. Chvatal V. A greedy heuristic for the set-covering problem // Mathematics of operations research. — 1979. — Т. 4, № 3. — С. 233—235.
9. Costa A., Markellos R. N. Evaluating public transport efficiency with neural network models // Transportation Research Part C: Emerging Technologies. — 1997. — Т. 5, № 5. — С. 301—312.
10. Dean J., Ghemawat S. MapReduce: simplified data processing on large clusters // Communications of the ACM. — 2008. — Т. 51, № 1. — С. 107— 113.
11. Demchenko Y., Ngo C., Membrey P. Architecture framework and components for the big data ecosystem // Journal of System and Network Engineering. — 2013. — С. 1—31.
12. Demetsky M. J., Lin B. B.-M. Bus stop location and design // Journal of transportation engineering. — 1982. — Т. 108, TE4.
13. Edmonds J. Covers and packings in a family of sets // Bulletin of the American Mathematical Society. — 1962. — Т. 68, № 5. — С. 494—499.
14. Furth P., Rahbee A. Optimal bus stop spacing through dynamic programming and geographic modeling // Transportation Research Record: Journal of the Transportation Research Board. — 2000. — № 1731. — С. 15—22.
15. Gantz J., Reinsel D. Extracting value from chaos // IDC iview. — 2011. — Т 1142. — С. 1—12.
...