📄Работа №135913

Тема: Обработка кластерных данных в цифровой экономике

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Информатика и вычислительная техника

📄

Объем: 62 листов

📅

Год: 2018

👁️

4360 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 3
ПОСТАНОВКА ЗАДАЧИ 10
ОБЗОР ЛИТЕРАТУРЫ 11
ГЛАВА 1. КЛАСТЕРИЗАЦИЯ 16
1.1. СТРУКТУРА ПРОГРАММЫ 16
1.2. ИЕРАРХИЧЕСКИЙ МЕТОД КЛАСТЕРИЗАЦИИ 16
1.3. K-СРЕДНИХ МЕТОД КЛАСТЕРИЗАЦИИ 21
1.4. АЛГОРИТМ МИНИМАЛЬНОГО ОСТОВНОГО ДЕРЕВА 27
ГЛАВА 2. ПРОГНОЗИРОВАНИЕ 35
2.1 ПРОГНОЗИРОВАНИЕ СИТУАЦИИ 35
2.2. ГРАФИЧЕСКАЯ СОСТАВЛЯЮЩАЯ ПРИЛОЖЕНИЯ 38
2.3. АНАЛИЗ МОДУЛЯ ПРЕДСКАЗАНИЙ 42
2.4. ИНСТРУКЦИЯ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ (СКРИНШОТЫ) 43
ВЫВОД 48
СПИСОК ЛИТЕРАТУРЫ 50
ПРИЛОЖЕНИЕ 53

📖 Введение

В связи с экспоненциальным развитием, цели и задачи развития цифровой экономики в Российской Федерации определены до 2024 года в рамках пяти базовых направлений:
-нормативное регулирование;
-кадры и образование;
-формирование исследовательских компетенций и технических заделов;
-информационная инфраструктура;
-информационная безопасность.
Основой развития цифровой экономики является работа с большими данными. К появлению концепции «больших данных» (big data) привело увеличившееся использование цифровых устройств, интернета. Потоки данных постоянно возрастают (уже терабайты и петабайты), передаются в реальном времени, обрабатываются и используются для принятий решений.
Развитие цифровой экономики позволяет объединять усилия для инвестирования, поиска сотрудников, партнеров, ресурсов и рынков сбыта способствует развитию новых моделей бизнеса, обеспечивает возможность коммуникаций, обмена идеями знаниями и опытом. Цифровые технологии могут играть ведущую роль в реализации инновационных идей, в различных сферах, в том числе в социальной сфере.
Возможности, создаваемые big dataи современными системами их поиска, для развития различных отраслей, науки и менеджмента, характеризуются как беспрецедентные, и способствуют к переходу на новый уровень анализа и управления экономическими процессами, как на уровне отдельных отраслей, предприятий. регионов, так и на макроуровне, совершенствованию моделирования и прогнозирования социально-экономического развития.
Интеллектуальный анализ данных — кластеризация в Data Mining приобретает ценность тогда, когда она выступает одним из этапов анализа данных, построения законченного аналитического решения. Аналитику часто легче выделить группы схожих объектов, изучить их особенности и построить для каждой группы отдельную модель, чем создавать одну общую модель для всех данных. Таким приемом постоянно пользуются в маркетинге, выделяя группы клиентов, покупателей, товаров и разрабатывая для каждой из них отдельную стратегию.
Обширной информационной ёмкостью отличается область исследований дорожно-транспортных происшествий (ДТП). Она требует привлечения и анализа больших массивов данных, разнообразных математических, алгоритмических и программных средств.
Высокий уровень аварийности на автомобильном транспорте, постоянно растущее число погибших и раненых в (ДТП), является одной из острейших социально-экономических проблем для всех стран мира, отражаясь на экономике государств.
В соответствии с информацией Всемирной организации здравоохранения (ВОЗ)общее количество погибших на автомобильных дорогах мира более 1 млн. 200 тысяч в год, к 2030 году составит-3,6 млн. в год
В России число погибших на 10 тысяч транспортных средств в 3–5 раз превышает аналогичные показатели Европейских зарубежных стран, число погибших на 100 тысяч населения выше в 1,5–2 раза.
Задача снижения уровня аварийности на автомобильном транспорте может более эффективно решаться с развитием цифровой экономики (внедрением систем видео фиксации, решением многочисленных частных задач исследования ДТП, кластерного подхода, обнаружением всех потребителей информации, сопровождающей эти задачи, минимизированием общих затрат при существенном повышении качества мероприятий).
Количество статистических данных о ДТП, которое необходимо учесть и обработать, достаточно велико и требует широкого применения современных средств вычислительной техники и программного обеспечения.
Эти факторы побудили меня к созданию программного продукта для решения задачи кластерного анализа ДТП.
Указанный программный продукт пользовательское приложение «Кластеризация», помимо анализа ДТП, может применяться в очень широком спектре: в маркетинге, медицине, археологии, психологии, химии, биологии, психологии государственном управлении, филологии, социологии, геологии, антропологиии других.
В информатике для «интеллектуальной» группировки результатов при запросах поиска файлов, веб-сайтов и других объектов, целесообразно использовать кластеризацию результатов поиска, дав пользователю возможность быстрой навигации, выборки заведомо более релевантного подмножества и исключения заведомо менее релевантного — что значительно повышает юзабилити интерфейса по сравнению с выводом в виде простого сортированного по релевантности списка. В настоящее время разработаны и применяются.
Clusty — кластеризующая поисковая машина компании Vivísimo.
Nigma — российская поисковая система с автоматической кластеризацией результатов.
Quintura — визуальная кластеризация в виде облака ключевых слов.
Сегментация изображений — разбиение цифрового изображения на отдельные области с целью обнаружения границ распознавания объектов.
Кластерный анализ – является многомерной процедурой, которая производит сбор входных данных, содержащих различную информацию о выборке объектов, после чего совершает упорядочивание объектов в максимально возможные однородные группы. Основной задачей кластеризации является задача статистической обработки, а также может относиться к обширному классу задач обучения без учителя.
В дальнейшем появились термины - синонимы, например, автоматическая классификация и ботриология.
Основные задачи кластерного анализа:
исследование концептуальных схем, используемых для группирования объектов;
порождение гипотез на основе исследования данных;
разработка типологии или классификации;
проверка гипотез или исследования для определения, присутствуют ли в имеющихся данных типы (группы), выделенные тем или иным способом,
Вне зависимости от предмета изучения и методов кластерного анализа, предполагаются следующие этапы:
отбор выборки для кластеризации. Кластеризуются исключительно количественные данные;
нахождение множества переменных, при помощи которых, можно оценить объекты в выборке;
вычисление значений той или иной меры сходства (или различия) между объектами;
создание групп сходных объектов, путем применения метода кластерного анализа;
проверка достоверности результатов кластерного решения.
В практике встречается описание двух фундаментальных требований, которые предъявляются к данным — однородность и полнота. Для однородности необходимо, чтобы все кластеризуемые сущности были непосредственно одной природы, и были описаны схожим набором характеристик. В том случае, если кластерному анализу предшествует факторный анализ, то сама выборка не нуждается в «ремонте», т. е все изложенные требования будут выполнены автоматически, самой процедурой факторного моделирования (это является еще одним достоинством — z-стандартизация без отрицательных последствий для выборки; если её проводить непосредственно для кластерного анализа, то она может повлечь за собой существенной уменьшение чёткости разделения групп). В противном случае выборку необходимо корректировать.
Основные цели кластеризации:
понять данные при помощи выявления кластерной структуры. Разбить выборки на группы подобных объектов, что позволит упростить дальнейшую обработку данных и принятие решений, путем применения к каждому кластеру своего метода анализа (стратегия «разделяй и властвуй»);
сжатие данных. Если исходная выборка слишком большая, можно сократить её, отделив от каждого кластера, одного, наиболее типичного представителя;
обнаружение новизны. Выделяются объекты, которые не удаётся присоединить ни к одному из кластеров; их принято называть нетипичными.
Методы кластеризации.
Общепринятой классификации методов кластеризации, как правило, не существует, но мы можем выделить ряд групп подходов
1. Вероятностный подход. Предполагается, что каждый объект будет, относится к одному из k классов. Некоторые ученые считают, что данная группа вовсе не относится к кластеризации и называют ее «дискриминация», то есть выбор отнесения объектов к одной из известных групп (обучающих выборок).
• K-средних
• К-медиан
• EM-алгоритм
• Алгоритмы семейства FOREL
• Дискриминантный анализ
2. Подходы на основе использования искусственного интеллекта: весьма условная группа, так как существует очень много методов, и они весьма различны.
• Метод нечеткой кластеризации C-средних (C-means)
• Нейронная сеть Кохонена
• Генетический алгоритм
3. Логический подход. Построение дендрограммы при помощи дерева решений.
4. Теоретико-графовый подход.
• Графовые алгоритмы кластеризации
5. Иерархический подход. Предполагает собой наличие неких вложенных групп (кластеров различного порядка). В свою очередь, алгоритмы подразделяют на агломеративные и дивизивные. По количеству признаков иногда выделяют монотетические и политетические методы классификации.
• Иерархическая дивизивная кластеризация или таксономия. Задачи кластеризации рассматриваются в количественной таксономии.
•
6. Другие методы.
• Статистические алгоритмы кластеризации
• Ансамбль кластеризаторов
• Алгоритмы семейства KRAB
• Алгоритм, основанный на методе просеивания
7. DBSCAN и др.
Мы применили данные алгоритмы кластеризации, в очень важной и значимой задаче, анализ ДТП. В настоящее время анализ и мониторинг дорожно-транспортной аварийности связан, как правило, с «узкими» местами и местами концентрации ДТП. Однако, «недостаточно установить, что происшествие произошло из-за неверного действия водителя. Мы должны также спросить, почему было выполнено неправильное действие. Можно представить, что большая часть объяснений неправильных действий в дорожном движении заключается в том, что система дорожного движения в данных ситуациях предъявляет высокие требования к работоспособности человека.
Если система будет слишком сложной, то даже наиболее хорошо оснащённые участники дорожного движения будут время от времени совершать фатальные ошибки». Поэтому необходимо анализировать и оценивать уровень обеспечения БДД не только в конкретных местах, но и в их окрестностях.
Объектом нашего исследования, является количество ДТП, в совокупности, с количеством пострадавших, за определенный промежуток времени, по нескольким регионам РФ.
Задача формирования перечня мероприятий владельцев автомобильных дорог по повышению БДД с целью выбора объектов для реализации мероприятий с наибольшей эффективностью может решаться только при проведении анализа и постоянного мониторинга.

✅ Заключение

В ходе выполнения работы были изучены основные математические и статистические библиотеки языка Python, графические библиотеки, ООП, среда разработки PyCharm, язык программирования Python.
Были получены следующие результаты:
представление о принципе разработки готовых продуктов
базис знаний, о кластерном анализе, его применении в цифровой экономике и построении моделей предсказаний
полностью выполняющий условия технического задания продукт
Разработанное приложение позволяет строить прогноз, основываясь на входящих данных, а также выполнять кластерный анализ различными методами. В совокупности с удобным интерфейсом, и стабильной работоспособностью, оно способно стать полноценным торговым продуктом.
Поставленная в техническом задании цель полностью выполнена. Создано заявленное приложение. Также было выполнено необходимое количество тестов на следующих операционных системах: Windows 7, Windows 8, Windows 10. А также, на UNIX-подобных системах: Linux Mint, Linux Ubuntu, Arch Linux.
Предложения
Огромная роль больших данных, цифровых технологий в трансформации социально-экономических систем очевидна, однако считаю актуальным мнение ряда авторов, что многие вопросы остаются еще слабоизученными в, частности, развитие цифрового потенциала с целью достижения инновационного роста отдельных фирм и отраслей, институциональные аспекты цифровой экономики, проблемы и перспективы развития бизнеса в условиях формирования цифровой экономики и др.
В связи с чем, считаю также актуальным дальнейшее совершенствование и применение разработанного программного продукта для анализа данных в различных областях жизнедеятельности и продолжение изучения и реализации проектов по этой перспективной для общества и интересной для меня теме. Надеюсь, что такая возможность мне представится, чему несомненно поспособствует дальнейшее целенаправленное обучение на направлении магистерской программы Цифровая экономика.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. БЭРРИ, П. Изучаем программирование на Python
2. ВОРОНЦОВ, К. В. Лекции по алгоритмам кластеризации и многомерного шкалирования.
3. ВОРОНЦОВ, К. В. Машинное обучение. Курс лекций [Электронный ресурс]. http://www. machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.
4.Джулий Л.В., Емчук Л.В. Информационные системы и их роль в деятельности современных предприятий // В книге: PerspectiveeconomicandmanagementissuesCollectionofscientificarticles. Scientific journal «Economics and finance», «East West» Association For Advanced Studies and Higher Education. 2015. С. 130-134.
5. ЛИСИН А. В., ФАЙЗУЛЛИН Р. Т. Применение метаэвристических алгоритмов к решению задач кластеризации методом k-средних // Компьютерная оптика. — 2015. — Т. 39, №. 3. — С. 406–412.
6. НЕЙСКИЙ, И. М. Классификация и сравнение методов кластеризации // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. — М.: НОК «CLAIM», 2006. — Выпуск 8. — С. 130–142.
7.Попов Е.В., Семячков К.А., Симонова В.Л. Оценка влияния информационно-коммуникационных технологий на инновационную активность регионов // Финансы и кредит. 2016. № 46 (718). С. 46-60.
8. ТКАЧЕНКО, О. М. И ДР. Метод кластеризации на основе последовательного запуска k-средних с усовершенствованным выбором кандидата на новую позицию вставки // Научные труды Винницкого национального технического университета. — 2012. — №. 2.
9. ТХАНГ, В. В., ПАНТЮХИН, Д. В., ГАЛУШКИН, А. И. Гибридный алгоритм кластеризации FastDBSCAN // Труды Московского Физико-Технического Института. — 2015. — Т. 7, №. 3. — С. 77–81.
10. AMORIM DE, R. C., HENNIG, C. Recovering the number of clusters in data sets with noise features using feature rescaling factors // Information Sciences. — 2015. — Vol. 324. — P. 126– 145.
11. ARTHUR, D., VASSILVITSKII, S. k-means++: The advantages of careful seeding // Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. — Society for Industrial and Applied Mathematics, 2007. — P. 1027–1035.
12. CHARIKAR, M. ET AL. Incremental clustering and dynamic information retrieval // SIAM Journal on Computing. — 2004. — Vol. 33, №. 6. — P. 1417–1440.
13. COMANICIU, D., MEER, P. Mean shift: A robust approach toward feature space analysis // Pattern Analysis and Machine Intelligence, IEEE Transactions on. — 2002. — Vol. 24, №. 5. — P. 603–619.
14. DUMAN, S., GUVEN ¸C, U., Y ¨ OR¨ UKEREN, N. ¨ Gravitational Search Algorithm for Economic Dispatch with Valve-Point Effects // International Review of Electrical Engineering 2010. — 2010. — Vol. 5. — P. 2890–2895.
15. ELKAN, C. Using the triangle inequality to accelerate kmeans // ICML. — 2003. — Vol. 3. — P. 147–153.
16. ESTIVILL-CASTRO, V., LEE, I. Argument free clustering for large spatial point-data sets via boundary extraction from 26 Delaunay Diagram // Computers, Environment and urban systems. — 2002. — Vol. 26, №. 4. — P. 315–334.
17. ESTIVILL-CASTRO, V., LEE, I. Clustering with obstacles for geographical data mining // ISPRS Journal of Photogrammetry and Remote Sensing. — 2004. — Vol. 59, №. 1. — P. 21–34.
18. FRALEY, C., RAFTERY, A. E. Model-based clustering, discriminant analysis, and density estimation // Journal of the American statistical Association. — 2002. — Vol. 97, №. 458. — P. 611–631.
19. GeographicLib — a small set of C++ classes for converting between geographic, UTM, UPS, MGRS, and geocentric coordinates [Электронныйресурс]. — Режимдоступа: http://geographiclib.sourceforge.net/ (датаобращения: 14.11.2015).
20. GOLUBEV, A., CHECHETKIN, I., SOLNUSHKIN, K.S., SADOVNIKOVA, N., PARYGIN, D., SHCHERBAKOV, M. Strategway: web solutions for building public transportation routes using big geodata analysis // Proceedings of the 17th International Conference on Information Integration and Webbased Applications & Services. — ACM, 2015. — P. 91–94.
21. HAN, J., KAMBER, M., TUNG, A. K. H. Spatial Clustering Methods in Data Mining: A Survey // Geographic Data Mining and Knowledge Discovery, Research Monographs in GIS. — 2001. — P. 201–231.
22. HUANG, Z. A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining // DMKD. — 1997. — 8 p.
23. HUSSEIN, N. A Fast Greedy k-means Algorithm: Master’s Thesis. // University of Amsterdam, Amsterdam. — 2002.
24. KANUNGO, T. ET AL. An efficient k-means clustering algorithm: Analysis and implementation // Pattern Analysis and Machine Intelligence, IEEE Transactions on. — 2002. — Vol. 24, №. 7. — P. 881–892.
25. KARNEY, C. F. F. Algorithms for geodesics // Journal of 27 Geodesy. — 2013. — Vol. 87, №. 1. — P. 43–55.
26. KOPERSKI, K., HAN, J., ADHIKARY, J. Mining knowledge in geographical data // Communications of ACM. — 1998. — Vol. 26.
27. KRISHNA, K., MURTY, M. N. Genetic k-means algorithm //Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on. — 1999. — Vol. 29, №. 3. — P. 433–439.
28. LAI, J. Z. C., HUANG, T. J., LIAW, Y. C. A fast k-means clustering algorithm using cluster center displacement // Pattern Recognition. — 2009. — Vol. 42, №. 11. — P. 2551– 2556.
29. LIKAS, A., VLASSIS, N., VERBEEK, J. J. The global kmeans clustering algorithm // Pattern recognition. — 2003. — Vol. 36, №. 2. — P. 451–461.
30. LLET´I, R. ET AL. Selecting variables for k-means cluster analysis by using a genetic algorithm that optimises the silhouettes // Analytica Chimica Acta. — 2004. — Vol. 515, №. 1. — P. 87–100.
31. NISTER, D., STEWENIUS, H. Scalable recognition with a vocabulary tree // Computer vision and pattern recognition, 2006 IEEE computer society conference on.
32.S. Aleksandrovich.,N. Advancing the Digital Economy into the 21st Century //2017 New York: Bantam. Lane //Information Systems Frontiers 1:3, 317-320 (1999);
33. Sean J. Taylor, Benjamin Letham "Forecasting at scale".

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211043)

Статьи

»» Все статьи

Вход в личный кабинет