Введение 5
Постановка задачи 8
Обзор литературы 9
Глава I. Эффективность общественного транспорта .... 11
1.1. Текущая ситуация в сфере общественного транспорта .... 12
1.2. Критерии эффективности общественного транспорта .... 12
1.3. Анализ критерия эффективности доступа 15
1.3.1 Покрытие и дистанция доступа 15
1.4. Анализ критерия эффективности доступности 16
1.4.1 Частота рейсов и количество маршрутов 18
1.5. Анализ критерия избыточности 18
1.5.1 Неэффективность расположения остановок 19
1.5.2 Локационная задача покрытия множества 20
1.5.3 Лагранжева эвристика 22
1.5.4 Задача максимального покрытия территории 24
Глава II. Методология больших данных 26
2.1. Определение больших данных 26
2.2. Apache Hadoop 27
2.2.1 Компоненты Apache Hadoop 28
2.2.2 Распределенная файловая система HDFS 30
2.2.3 Парадигма MapReduce 31
2.2.4 Программный интерфейс Hadoop Streaming API ... 33
2.3. Облачная платформа Microsoft Azure HDInsight 33
2.4. Большие данные и исследования общественного транспорта 35
3.1.2 Административное деление и население 40
3.1.3 Улично-дорожная сеть 41
3.2. Программное обеспечение и конфигурация 43
3.3. Подготовка данных 44
3.3.1 Конвертация файла УДС 44
3.3.2 Выгрузка данных в HDFS облачного кластера .... 44
3.3.3 Фильтрация данных 45
3.3.4 Выполнение задания MapReduce 46
3.3.5 Перемещение данных в геоинформационную систему 48
3.4. Реализация анализа параметра доступа 49
3.5. Реализация анализа параметра доступности 52
3.6. Совмещенный анализ параметров доступа и доступности . . 53
3.7. Реализация анализа избыточности 55
Выводы 58
Заключение 59
Приложение 60
Пример содержимого GTFS-канала 60
Скрипт загрузки данных улично-дорожной сети 63
Сценарий загрузки файлов из облачного BLOB-хранилища .... 64
Список литературы 65
Система общественного транспорта, как одна из наиболее важных составляющих инфраструктуры городов, несомненно оказывает существенное влияние на их жизнедеятельность. Обладание досконально полной информацией о функционировании всех компонент этих систем позволяет гибко и динамично осуществлять широчайший комплекс манипулятивных действий по управлению. Это особенно полезно в условиях современных городов, в особенности, в мегаполисах с уже сложившейся структурой общественного транспорта.
Услуги, предоставляемые системами общественного транспорта, являются важным компонентом процессов общегородского планирования и управления, однако существующая идеология городского управления в области общественного транспорта остается достаточно общей и не предполагает манипулирование системой в сколь бы то ни было крупном масштабе. Затруднительным остается контроль за функционированием транспорта в режиме реального времени, сбор точных статистических данных для всей системы общественного транспорта, отсутствие унифицированного инструментария транспортного моделирования на уровне городов.
Традиционные методы сбора данных, такие как анкетирование, тематические исследования, городские аудиты, интервью, фокус-группы, этнография, имеют ряд серьезных недостатков: они генерируются на разрозненной, не непрерывной основе, имеют малое количество переменных, агрегируются до грубого масштаба и часто имеют ограниченный доступ. Коренная причина этого кроется в ограниченности выборки исходных данных, которые довольно плотно сосредоточены, дополнительно основываясь на каком- то конкретном временном и пространственном промежутке и физически ограничены по объему, а также довольно дороги для генерации и анализа. Большинство современных знаний о городах были выведены из этих несовершенных и дефицитных данных.
Именно автоматически генерируемые данные должны предоставлять всю необходимую информацию о самых малых составляющих городской инфраструктуры, позволяя управлять ими с максимальной степенью автоматизма и в режиме реального времени средствами управляющей информационной системы. Взаимодействие таких данных и информационных систем требует минимального человеческого участия, снижая тем самым сложность управления городом, а также предоставляя значительное количество всевозможной информации, которую невозможно собрать имеющимися средствами. Таким образом, реализация концепции Smart City может упростить управление городской инфраструктурой, позволив при этом узнать гораздо больше информации о ее функционировании и состоянии.
В соответствии с концепцией, сфера городского общественного транспорта также подлежит фундаментальной реорганизации для получения возможности более качественно эксплуатировать ее. Осуществление преобразований в этой сфере невозможно без введения кардинально иных методов, таких как централизованное управление в режиме реального времени: целенаправленный сбор данных о перемещении подвижного состава и пассажиров посредством телекоммуникационного оборудования в единый центр транспортного управления позволяет отслеживать функционирование всей системы в целом, что невозможно было бы осуществить имеющимися методами, такими, как локальный ручной подсчет и визуальное наблюдение.
С исследовательской точки зрения, собираемые транспортные данные могут быть использованы для более детального изучения функционирования общественного транспорта, к примеру, для более точного моделирования, для выяснения различных статистических закономерностей, либо для стратегического планирования. Одной из характеристик функционирования, информацию о которой можно извлечь из транспортных данных, выступает эффективность общественного транспорта. В свою очередь, данная характеристика весьма полезна для целей краткосрочного и долгосрочного планирования, а также для проведения иных исследований, например, для разработки инновационных методов проектирования.
Самостоятельное исследование характеристики эффективности тем не менее может быть весьма важным для обеспечения удобства пользования общественным транспортом, что является одной из основных функций транспортных служб. Информация об эффективности общественного транспорта помогает достоверно определять районы, где требуется внести локальные или крупномасштабные изменения транспортной системы, в том числе в связке с автомобильным транспортом. С другой стороны, эффективность достаточно релевантно отражает доступность и удобство общественного транспорта для перемещений на нем жителей города.
Из этого следует, что эффективный, инновационный и качественный (комфортный) общественный транспорт привлекает большее количество пассажиров, которые выбирают его вместо использования личного автотранспорта, что позитивно сказывается на воздействии на окружающую среду, дорожном трафике, и на энергетической эффективности. Также доказана (отметим) взаимосвязь развития транспортной, в том числе общественной, составляющей региона и решения проблем его устойчивого развития [38].
В рамках проведенного исследования получены следующие результаты:
— Внедрение методики обработки больших данных как универсального аналитического фундамента, пригодного для привязки дополнительных данных, таких как пассажиропоток, потоки автомобильного транспорта и др.
— Анализ результатов вычисления различных параметров эффективности и совмещение некоторых из них для получения более адекватных значений.
Сформулированные задачи были выполнены в полном объеме. Поставленные цели были достигнуты.
1. Antrim A., Barbeau S. J. The many uses of GTFS data-opening the door to transit and multimodal applications // Location-Aware Information Systems Laboratory at the University of South Florida. — 2013.
2. Batty M. Big data, smart cities and city planning // Dialogues in Human Geography. — 2013. — Т. 3, № 3. — С. 274—279.
3. Beasley J. E., Jornsten K. Enhancing an algorithm for set covering problems // European Journal of Operational Research. — 1992. — Т 58, № 2. — С. 293—300.
4. Bertolini L., Le Clercq F., Kapoen L. Sustainable accessibility: a conceptual framework to integrate transport and land use plan-making. Two test-applications in the Netherlands and a reflection on the way forward // Transport policy. — 2005. — Т. 12, № 3. — С. 207—220.
5. Big Data defintion, Gartner Inc. — URL:http://www.gartner.com/it-glossary/big-data/.
6. Caprara A., Fischetti M., Toth P. A heuristic method for the set covering problem // Operations research. — 1999. — Т. 47, № 5. — С. 730—743.
7. Church R., Velle C.R. The maximal covering location problem // Papers in regional science. — 1974. — Т 32, № 1. — С. 101—118.
8. Chvatal V. A greedy heuristic for the set-covering problem // Mathematics of operations research. — 1979. — Т 4, № 3. — С. 233—235.
9. Costa A., Markellos R. N. Evaluating public transport efficiency with neural network models // Transportation Research Part C: Emerging Technologies. — 1997. — Т 5, № 5. — С. 301—312.
10. Dean J., Ghemawat S. MapReduce: simplified data processing on large clusters // Communications of the ACM. — 2008. — Т. 51, № 1. — С. 107— 113.
11. Demchenko Y., Ngo C., Membrey P. Architecture framework and components for the big data ecosystem // Journal of System and Network Engineering. — 2013. — С. 1—31.
12. Demetsky M.J., Lin B.B.-M. Bus stop location and design // Journal of transportation engineering. — 1982. — Т. 108, TE4.
13. Edmonds J. Covers and packings in a family of sets // Bulletin of the American Mathematical Society. — 1962. — Т. 68, № 5. — С. 494—499.
14. Furth P., Rahbee A. Optimal bus stop spacing through dynamic programming and geographic modeling // Transportation Research Record: Journal of the Transportation Research Board. — 2000. — № 1731. — С. 15—22.
15. Gantz J., Reinsel D. Extracting value from chaos // IDC iview. — 2011. — Т 1142. — С. 1—12.
16. GareyM.R., JohnsonD.S. A Guide to the Theory of NP-Completeness // WH Freemann, New York. — 1979.
17. Gleason J. M. A set covering approach to bus stop location // Omega. — 1975. — Т 3, № 5. — С. 605—608.
18. Haddadi S. Simple Lagrangian heuristic for the set covering problem // European Journal of Operational Research. — 1997. — Т. 97, № 1. — С. 200—204.
19. Handy S. L., Clifton K. J. Evaluating neighborhood accessibility: Possibilities and practicalities // Journal of transportation and statistics. — 2001. — Т. 4, 2/3. — С. 67—78.
20. Hine J., Mitchell F. Transport disadvantage and social exclusion: exclusionary mechanisms in transport in urban Scotland. — Ashgate Publishing, Ltd., 2003.
21. Jansson K. Optimal public transport price and service frequency // Journal of Transport Economics and Policy. — 1993. — С. 33—50.
22. Karlaftis M.G. A DEA approach for evaluating the efficiency and effectiveness of urban transit systems // European Journal of Operational Research. — 2004. — Т. 152, № 2. — С. 354—364.
23. Kitchin R. The real-time city? Big data and smart urbanism // GeoJournal. — 2014. — Т. 79, № 1. — С. 1—14.
24. Lam C. Hadoop in action. — Manning Publications Co., 2010.
25. Lan G., DePuy G. W., Whitehouse G. E. An effective and simple heuristic for the set covering problem // European journal of operational research. — 2007. — Т. 176, № 3. — С. 1387—1403.
26. Levinson H.S. Analyzing transit travel time performance. — 1983.
27. Murray A. T. Strategic analysis of public transport coverage // Socio-Economic Planning Sciences. — 2001. — Т. 35, № 3. — С. 175—188.
28. Murray A.T. A coverage model for improving public transit system accessibility and expanding access // Annals of Operations Research. — 2003. — Т. 123, 1-4. — С. 143—156.
29. Murray A. T., Davis R., Stimson R. J. Public transportation access // Transportation Research Part D: Transport and Environment. — 1998. — Т. 3, № 5. — С. 319—328.
30. O’Sullivan D., Morrison A., Shearer J. Using desktop GIS for the investigation of accessibility by public transport: an isochrone approach // International Journal of Geographical Information Science. — 2000. — Т 14, № 1. — С. 85—104.
31. Roth R. Computer solutions to minimum-cover problems // Operations Research. — 1969. — Т. 17, № 3. — С. 455—465.
32. Saka A. A. Model for Determining Optimum Bus-Stop Spacingin Urban Areas // Journal of Transportation Engineering. — 2001. — Т. 127, № 3. — С. 195—199.
33. Sampaio B. R., Neto O. L., Sampaio Y. Efficiency analysis of public transport systems: Lessons for institutional planning // Transportation research part A: policy and practice. — 2008. — Т. 42, № 3. — С. 445—454.
34. Shvachko K., Kuang H., Radia S. The hadoop distributed file system // Mass Storage Systems and Technologies (MSST), 2010 IEEE 26th Symposium on. — IEEE. 2010. — С. 1—10.
35. Tao S., Corcoran J., Mateo-Babiano Exploring Bus Rapid Transit passenger travel behaviour using big data // Applied Geography. — 2014. — Т. 53. — С. 90—104.
36. The Big Data Long Tail. — URL:http://www.devx.com/blog/the-big-data-long-tail.html.
37. Toregas C., Swain R., ReVelle C. The location of emergency service facilities // Operations Research. — 1971. — Т. 19, № 6. — С. 1363— 1373.
38. Transport Q. Integrated regional transport plan for South East Queensland // Government of Queensland, Brisbane. — 1997.
39. White P. R. Public transport: its planning, management and operation. — Routledge, 2008.
40. White T. Hadoop: The definitive guide. — "O’Reilly Media, Inc.", 2012.
41. Данные административного деления Торонто. — URL:http :/ / opendata . toronto . ca/ gcc / neighbourhoods _ planning_ areas _wgs84.zip.
42. Демографические данные районов города Торонто. — URL: https : / / en . wikipedia . org / wiki / Demographics _ of _ Toronto _neighbourhoods.
43. Дрючин Д. А., Майоров М. А. Основные направления повышения качества транспортного обслуживания населения городским пассажирским транспортом по регулярным маршрутам // Вестник Оренбургского государственного университета. — 2015. — № 4. — С. 179.
44. Официальный сайт геоинформационной системы QGIS. — URL:http://www.qgis.org/en/site/.
45. Официальный сайт прикладного интерфейса Overpass API. — URL: http://overpass-api.de/.
46. Платформа данных Hortonworks. — URL:http://hortonworks.com/products/hdp/.
47. Портал GTFS Data Exchange. — URL:http://gtfs-data-exchange.com/agency/ttc/.
48. Портал OpenStreetMap. — URL:http://openstreetmap.org.
49. Прикладной интерфейс Hadoop Streaming API. — URL:https : //hadoop.apache.org/docs/r1.2.1/streaming.html.
50. Программная обертка интерфейса Overpass API на языке программирования Python. — URL:https://github.com/mvexel/overpass-api-python-wrapper.
51. Спецификация GTFS. — URL:https : / /developers . google . com/transit/gtfs/.
52. Страница облачного сервиса Microsoft Azure HDInsight. — URL:https://azure.microsoft.com/en-us/services/hdinsight/.
53. Страница проекта Apache Hadoop. — URL:http : //hadoop . apache .org.