ВВЕДЕНИЕ 3
ПОСТАНОВКА ЗАДАЧИ 10
ОБЗОР ЛИТЕРАТУРЫ 11
ГЛАВА 1. КЛАСТЕРИЗАЦИЯ 16
1.1. СТРУКТУРА ПРОГРАММЫ 16
1.2. ИЕРАРХИЧЕСКИЙ МЕТОД КЛАСТЕРИЗАЦИИ 16
1.3. K-СРЕДНИХ МЕТОД КЛАСТЕРИЗАЦИИ 21
1.4. АЛГОРИТМ МИНИМАЛЬНОГО ОСТОВНОГО ДЕРЕВА 27
ГЛАВА 2. ПРОГНОЗИРОВАНИЕ 35
2.1 ПРОГНОЗИРОВАНИЕ СИТУАЦИИ 35
2.2. ГРАФИЧЕСКАЯ СОСТАВЛЯЮЩАЯ ПРИЛОЖЕНИЯ 38
2.3. АНАЛИЗ МОДУЛЯ ПРЕДСКАЗАНИЙ 42
2.4. ИНСТРУКЦИЯ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ (СКРИНШОТЫ) 43
ВЫВОД 48
СПИСОК ЛИТЕРАТУРЫ 50
ПРИЛОЖЕНИЕ 53
В связи с экспоненциальным развитием, цели и задачи развития цифровой экономики в Российской Федерации определены до 2024 года в рамках пяти базовых направлений:
-нормативное регулирование;
-кадры и образование;
-формирование исследовательских компетенций и технических заделов;
-информационная инфраструктура;
-информационная безопасность.
Основой развития цифровой экономики является работа с большими данными. К появлению концепции «больших данных» (big data) привело увеличившееся использование цифровых устройств, интернета. Потоки данных постоянно возрастают (уже терабайты и петабайты), передаются в реальном времени, обрабатываются и используются для принятий решений.
Развитие цифровой экономики позволяет объединять усилия для инвестирования, поиска сотрудников, партнеров, ресурсов и рынков сбыта способствует развитию новых моделей бизнеса, обеспечивает возможность коммуникаций, обмена идеями знаниями и опытом. Цифровые технологии могут играть ведущую роль в реализации инновационных идей, в различных сферах, в том числе в социальной сфере.
Возможности, создаваемые big dataи современными системами их поиска, для развития различных отраслей, науки и менеджмента, характеризуются как беспрецедентные, и способствуют к переходу на новый уровень анализа и управления экономическими процессами, как на уровне отдельных отраслей, предприятий. регионов, так и на макроуровне, совершенствованию моделирования и прогнозирования социально-экономического развития.
Интеллектуальный анализ данных — кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.
Обширной информационной ёмкостью отличается область исследований дорожно-транспортных происшествий (ДТП). Она требует привлечения и анализа больших массивов данных, разнообразных математических, алгоритмических и программных средств.
Высокий уровень аварийности на автомобильном транспорте, постоянно растущее число погибших и раненых в (ДТП), является одной из острейших социально-экономических проблем для всех стран мира, отражаясь на экономике государств.
В соответствии с информацией Всемирной организации здравоохранения (ВОЗ)общее количество погибших на автомобильных дорогах мира более 1 млн. 200 тысяч в год, к 2030 году составит-3,6 млн. в год
В России число погибших на 10 тысяч транспортных средств в 3–5 раз превышает аналогичные показатели Европейских зарубежных стран, число погибших на 100 тысяч населения выше в 1,5–2 раза.
Задача снижения уровня аварийности на автомобильном транспорте может более эффективно решаться с развитием цифровой экономики (внедрением систем видео фиксации, решением многочисленных частных задач исследования ДТП, кластерного подхода, обнаружением всех потребителей информации, сопровождающей эти задачи, минимизированием общих затрат при существенном повышении качества мероприятий).
Количество статистических данных о ДТП, которое необходимо учесть и обработать, достаточно велико и требует широкого применения современных средств вычислительной техники и программного обеспечения.
Эти факторы побудили меня к созданию программного продукта для решения задачи кластерного анализа ДТП.
Указанный программный продукт пользовательское приложение «Кластеризация», помимо анализа ДТП, может применяться в очень широком спектре: в маркетинге, медицине, археологии, психологии, химии, биологии, психологии государственном управлении, филологии, социологии, геологии, антропологиии других.
В информатике для «интеллектуальной» группировки результатов при запросах поиска файлов, веб-сайтов и других объектов, целесообразно использовать кластеризацию результатов поиска, дав пользователю возможность быстрой навигации, выборки заведомо более релевантного подмножества и исключения заведомо менее релевантного — что значительно повышает юзабилити интерфейса по сравнению с выводом в виде простого сортированного по релевантности списка. В настоящее время разработаны и применяются.
Clusty — кластеризующая поисковая машина компании Vivísimo.
Nigma — российская поисковая система с автоматической кластеризацией результатов.
Quintura — визуальная кластеризация в виде облака ключевых слов.
Сегментация изображений — разбиение цифрового изображения на отдельные области с целью обнаружения границ распознавания объектов.
Кластерный анализ – является многомерной процедурой, которая производит сбор входных данных, содержащих различную информацию о выборке объектов, после чего совершает упорядочивание объектов в максимально возможные однородные группы. Основной задачей кластеризации является задача статистической обработки, а также может относиться к обширному классу задач обучения без учителя.
В дальнейшем появились термины - синонимы, например, автоматическая классификация и ботриология.
Основные задачи кластерного анализа:
исследование концептуальных схем, используемых для группирования объектов;
порождение гипотез на основе исследования данных;
разработка типологии или классификации;
проверка гипотез или исследования для определения, присутствуют ли в имеющихся данных типы (группы), выделенные тем или иным способом,
Вне зависимости от предмета изучения и методов кластерного анализа, предполагаются следующие этапы:
отбор выборки для кластеризации. Кластеризуются исключительно количественные данные;
нахождение множества переменных, при помощи которых, можно оценить объекты в выборке;
вычисление значений той или иной меры сходства (или различия) между объектами;
создание групп сходных объектов, путем применения метода кластерного анализа;
проверка достоверности результатов кластерного решения.
В практике встречается описание двух фундаментальных требований, которые предъявляются к данным — однородность и полнота. Для однородности необходимо, чтобы все кластеризуемые сущности были непосредственно одной природы, и были описаны схожим набором характеристик. В том случае, если кластерному анализу предшествует факторный анализ, то сама выборка не нуждается в «ремонте», т. е все изложенные требования будут выполнены автоматически, самой процедурой факторного моделирования (это является еще одним достоинством — z-стандартизация без отрицательных последствий для выборки; если её проводить непосредственно для кластерного анализа, то она может повлечь за собой существенной уменьшение чёткости разделения групп). В противном случае выборку необходимо корректировать.
Основные цели кластеризации:
понять данные при помощи выявления кластерной структуры. Разбить выборки на группы подобных объектов, что позволит упростить дальнейшую обработку данных и принятие решений, путем применения к каждому кластеру своего метода анализа (стратегия «разделяй и властвуй»);
сжатие данных. Если исходная выборка слишком большая, можно сократить её, отделив от каждого кластера, одного, наиболее типичного представителя;
обнаружение новизны. Выделяются объекты, которые не удаётся присоединить ни к одному из кластеров; их принято называть нетипичными.
Методы кластеризации.
Общепринятой классификации методов кластеризации, как правило, не существует, но мы можем выделить ряд групп подходов
1. Вероятностный подход. Предполагается, что каждый объект будет, относится к одному из k классов. Некоторые ученые считают, что данная группа вовсе не относится к кластеризации и называют ее «дискриминация», то есть выбор отнесения объектов к одной из известных групп (обучающих выборок).
• K-средних
• К-медиан
• EM-алгоритм
• Алгоритмы семейства FOREL
• Дискриминантный анализ
2. Подходы на основе использования искусственного интеллекта: весьма условная группа, так как существует очень много методов, и они весьма различны.
• Метод нечеткой кластеризации C-средних (C-means)
• Нейронная сеть Кохонена
• Генетический алгоритм
3. Логический подход. Построение дендрограммы при помощи дерева решений.
4. Теоретико-графовый подход.
• Графовые алгоритмы кластеризации
5. Иерархический подход. Предполагает собой наличие неких вложенных групп (кластеров различного порядка). В свою очередь, алгоритмы подразделяют на агломеративные и дивизивные. По количеству признаков иногда выделяют монотетические и политетические методы классификации.
• Иерархическая дивизивная кластеризация или таксономия. Задачи кластеризации рассматриваются в количественной таксономии.
•
6. Другие методы.
• Статистические алгоритмы кластеризации
• Ансамбль кластеризаторов
• Алгоритмы семейства KRAB
• Алгоритм, основанный на методе просеивания
7. DBSCAN и др.
Мы применили данные алгоритмы кластеризации, в очень важной и значимой задаче, анализ ДТП. В настоящее время анализ и мониторинг дорожно-транспортной аварийности связан, как правило, с «узкими» местами и местами концентрации ДТП. Однако, «недостаточно установить, что происшествие произошло из-за неверного действия водителя. Мы должны также спросить, почему было выполнено неправильное действие. Можно представить, что большая часть объяснений неправильных действий в дорожном движении заключается в том, что система дорожного движения в данных ситуациях предъявляет высокие требования к работоспособности человека.
Если система будет слишком сложной, то даже наиболее хорошо оснащённые участники дорожного движения будут время от времени совершать фатальные ошибки». Поэтому необходимо анализировать и оценивать уровень обеспечения БДД не только в конкретных местах, но и в их окрестностях.
Объектом нашего исследования, является количество ДТП, в совокупности, с количеством пострадавших, за определенный промежуток времени, по нескольким регионам РФ.
Задача формирования перечня мероприятий владельцев автомобильных дорог по повышению БДД с целью выбора объектов для реализации мероприятий с наибольшей эффективностью может решаться только при проведении анализа и постоянного мониторинга.
В ходе выполнения работы были изучены основные математические и статистические библиотеки языка Python, графические библиотеки, ООП, среда разработки PyCharm, язык программирования Python.
Были получены следующие результаты:
представление о принципе разработки готовых продуктов
базис знаний, о кластерном анализе, его применении в цифровой экономике и построении моделей предсказаний
полностью выполняющий условия технического задания продукт
Разработанное приложение позволяет строить прогноз, основываясь на входящих данных, а также выполнять кластерный анализ различными методами. В совокупности с удобным интерфейсом, и стабильной работоспособностью, оно способно стать полноценным торговым продуктом.
Поставленная в техническом задании цель полностью выполнена. Создано заявленное приложение. Также было выполнено необходимое количество тестов на следующих операционных системах: Windows 7, Windows 8, Windows 10. А также, на UNIX-подобных системах: Linux Mint, Linux Ubuntu, Arch Linux.
Предложения
Огромная роль больших данных, цифровых технологий в трансформации социально-экономических систем очевидна, однако считаю актуальным мнение ряда авторов, что многие вопросы остаются еще слабоизученными в, частности, развитие цифрового потенциала с целью достижения инновационного роста отдельных фирм и отраслей, институциональные аспекты цифровой экономики, проблемы и перспективы развития бизнеса в условиях формирования цифровой экономики и др.
В связи с чем, считаю также актуальным дальнейшее совершенствование и применение разработанного программного продукта для анализа данных в различных областях жизнедеятельности и продолжение изучения и реализации проектов по этой перспективной для общества и интересной для меня теме. Надеюсь, что такая возможность мне представится, чему несомненно поспособствует дальнейшее целенаправленное обучение на направлении магистерской программы Цифровая экономика.
1. БЭРРИ, П. Изучаем программирование на Python
2. ВОРОНЦОВ, К. В. Лекции по алгоритмам кластеризации и многомерного шкалирования.
3. ВОРОНЦОВ, К. В. Машинное обучение. Курс лекций [Электронный ресурс]. http://www. machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.
4.Джулий Л.В., Емчук Л.В. Информационные системы и их роль в деятельности современных предприятий // В книге: PerspectiveeconomicandmanagementissuesCollectionofscientificarticles. Scientific journal «Economics and finance», «East West» Association For Advanced Studies and Higher Education. 2015. С. 130-134.
5. ЛИСИН А. В., ФАЙЗУЛЛИН Р. Т. Применение метаэвристических алгоритмов к решению задач кластеризации методом k-средних // Компьютерная оптика. — 2015. — Т. 39, №. 3. — С. 406–412.
6. НЕЙСКИЙ, И. М. Классификация и сравнение методов кластеризации // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. — М.: НОК «CLAIM», 2006. — Выпуск 8. — С. 130–142.
7.Попов Е.В., Семячков К.А., Симонова В.Л. Оценка влияния информационно-коммуникационных технологий на инновационную активность регионов // Финансы и кредит. 2016. № 46 (718). С. 46-60.
8. ТКАЧЕНКО, О. М. И ДР. Метод кластеризации на основе последовательного запуска k-средних с усовершенствованным выбором кандидата на новую позицию вставки // Научные труды Винницкого национального технического университета. — 2012. — №. 2.
9. ТХАНГ, В. В., ПАНТЮХИН, Д. В., ГАЛУШКИН, А. И. Гибридный алгоритм кластеризации FastDBSCAN // Труды Московского Физико-Технического Института. — 2015. — Т. 7, №. 3. — С. 77–81.
10. AMORIM DE, R. C., HENNIG, C. Recovering the number of clusters in data sets with noise features using feature rescaling factors // Information Sciences. — 2015. — Vol. 324. — P. 126– 145.
11. ARTHUR, D., VASSILVITSKII, S. k-means++: The advantages of careful seeding // Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. — Society for Industrial and Applied Mathematics, 2007. — P. 1027–1035.
12. CHARIKAR, M. ET AL. Incremental clustering and dynamic information retrieval // SIAM Journal on Computing. — 2004. — Vol. 33, №. 6. — P. 1417–1440.
13. COMANICIU, D., MEER, P. Mean shift: A robust approach toward feature space analysis // Pattern Analysis and Machine Intelligence, IEEE Transactions on. — 2002. — Vol. 24, №. 5. — P. 603–619.
14. DUMAN, S., GUVEN ¸C, U., Y ¨ OR¨ UKEREN, N. ¨ Gravitational Search Algorithm for Economic Dispatch with Valve-Point Effects // International Review of Electrical Engineering 2010. — 2010. — Vol. 5. — P. 2890–2895.
15. ELKAN, C. Using the triangle inequality to accelerate kmeans // ICML. — 2003. — Vol. 3. — P. 147–153.
16. ESTIVILL-CASTRO, V., LEE, I. Argument free clustering for large spatial point-data sets via boundary extraction from 26 Delaunay Diagram // Computers, Environment and urban systems. — 2002. — Vol. 26, №. 4. — P. 315–334.
17. ESTIVILL-CASTRO, V., LEE, I. Clustering with obstacles for geographical data mining // ISPRS Journal of Photogrammetry and Remote Sensing. — 2004. — Vol. 59, №. 1. — P. 21–34.
18. FRALEY, C., RAFTERY, A. E. Model-based clustering, discriminant analysis, and density estimation // Journal of the American statistical Association. — 2002. — Vol. 97, №. 458. — P. 611–631.
19. GeographicLib — a small set of C++ classes for converting between geographic, UTM, UPS, MGRS, and geocentric coordinates [Электронныйресурс]. — Режимдоступа: http://geographiclib.sourceforge.net/ (датаобращения: 14.11.2015).
20. GOLUBEV, A., CHECHETKIN, I., SOLNUSHKIN, K.S., SADOVNIKOVA, N., PARYGIN, D., SHCHERBAKOV, M. Strategway: web solutions for building public transportation routes using big geodata analysis // Proceedings of the 17th International Conference on Information Integration and Webbased Applications & Services. — ACM, 2015. — P. 91–94.
21. HAN, J., KAMBER, M., TUNG, A. K. H. Spatial Clustering Methods in Data Mining: A Survey // Geographic Data Mining and Knowledge Discovery, Research Monographs in GIS. — 2001. — P. 201–231.
22. HUANG, Z. A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining // DMKD. — 1997. — 8 p.
23. HUSSEIN, N. A Fast Greedy k-means Algorithm: Master’s Thesis. // University of Amsterdam, Amsterdam. — 2002.
24. KANUNGO, T. ET AL. An efficient k-means clustering algorithm: Analysis and implementation // Pattern Analysis and Machine Intelligence, IEEE Transactions on. — 2002. — Vol. 24, №. 7. — P. 881–892.
25. KARNEY, C. F. F. Algorithms for geodesics // Journal of 27 Geodesy. — 2013. — Vol. 87, №. 1. — P. 43–55.
26. KOPERSKI, K., HAN, J., ADHIKARY, J. Mining knowledge in geographical data // Communications of ACM. — 1998. — Vol. 26.
27. KRISHNA, K., MURTY, M. N. Genetic k-means algorithm //Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on. — 1999. — Vol. 29, №. 3. — P. 433–439.
28. LAI, J. Z. C., HUANG, T. J., LIAW, Y. C. A fast k-means clustering algorithm using cluster center displacement // Pattern Recognition. — 2009. — Vol. 42, №. 11. — P. 2551– 2556.
29. LIKAS, A., VLASSIS, N., VERBEEK, J. J. The global kmeans clustering algorithm // Pattern recognition. — 2003. — Vol. 36, №. 2. — P. 451–461.
30. LLET´I, R. ET AL. Selecting variables for k-means cluster analysis by using a genetic algorithm that optimises the silhouettes // Analytica Chimica Acta. — 2004. — Vol. 515, №. 1. — P. 87–100.
31. NISTER, D., STEWENIUS, H. Scalable recognition with a vocabulary tree // Computer vision and pattern recognition, 2006 IEEE computer society conference on.
32.S. Aleksandrovich.,N. Advancing the Digital Economy into the 21st Century //2017 New York: Bantam. Lane //Information Systems Frontiers 1:3, 317-320 (1999);
33. Sean J. Taylor, Benjamin Letham "Forecasting at scale".