Применение алгоритмов Data mining для обработки больших массивов данных
|
Аннотация 2
Введение 5
Глава 1 Анализ методов интеллектуальной обработки данных 7
1.1 Обзор решаемых задач интеллектуального анализа данных 7
1.2 Выбор методов для реализации 9
1.2.1 Алгоритм Apriori 9
1.2.2 Алгоритм k-means: 11
1.2.3 Алгоритм KNN 13
Глава 2 Разработка алгоритмов с помощью MapReduce 16
2.1 Модель обработки больших данных MapReduce 16
2.2 Разработка алгоритмов с помощью MapReduce 19
2.2.1 Разработка алгоритма априори 19
2.2.2 Разработка алгоритма k-means 22
2.2.3 Разработка алгоритма KNN 25
Глава 3 Реализация программы интеллектуального анализа данных 27
3.1 Описание используемых инструментов 27
3.2 Реализация алгоритма Apriori 28
3.3 Реализация алгоритма K-means 33
3.4 Реализация алгоритма KNN 37
3.5 Сравнение результатов 39
Заключение 44
Список используемой литературы 45
Введение 5
Глава 1 Анализ методов интеллектуальной обработки данных 7
1.1 Обзор решаемых задач интеллектуального анализа данных 7
1.2 Выбор методов для реализации 9
1.2.1 Алгоритм Apriori 9
1.2.2 Алгоритм k-means: 11
1.2.3 Алгоритм KNN 13
Глава 2 Разработка алгоритмов с помощью MapReduce 16
2.1 Модель обработки больших данных MapReduce 16
2.2 Разработка алгоритмов с помощью MapReduce 19
2.2.1 Разработка алгоритма априори 19
2.2.2 Разработка алгоритма k-means 22
2.2.3 Разработка алгоритма KNN 25
Глава 3 Реализация программы интеллектуального анализа данных 27
3.1 Описание используемых инструментов 27
3.2 Реализация алгоритма Apriori 28
3.3 Реализация алгоритма K-means 33
3.4 Реализация алгоритма KNN 37
3.5 Сравнение результатов 39
Заключение 44
Список используемой литературы 45
В наше время процесс сбора данных стал неотъемлемой частью практически всех областей человеческой деятельности. Бизнес, торговля, обучение, медицина - компании в этих и многих других сферах целенаправленно или попутно регистрируют огромное количество самой разнообразной информации - данные о финансах, клиентах, покупках, заказах, перевозках и т.д.
При наличии большого количества данных зачастую возникает проблема их обработки, а также появляется вопрос: возможно ли извлечь из собранных данных новую, нетривиальную и полезную информацию, которую можно было бы использовать в деятельности компании?
С задачей обработки позволяют справиться различные технологии анализа данных, например, OLAP, предназначенной для быстрой обработки сложных запросов к базе данных и служащей для подготовки бизнес-отчётов, например, по продажам и маркетингу.
А на последний вопрос дает ответ технология Data Mining (DM), представляющая собой “набор различных методов и алгоритмов для обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности”.
На сегодняшний день есть много готовых решений для анализа данных средствами Data Mining, но почти все они распространяются на коммерческой основе за немалые деньги. При этом существует достаточно много небольших организаций, не готовых платить круглые суммы за мощные аналитические пакеты, но желающих использовать Data Mining в своей деятельности. К тому же, зачастую не требуется полный комплекс средств для анализа, а только один-два алгоритма.
Еще одной трудностью в использовании DM является необходимость наличия аналитика, умеющего работать со средствами анализа, знающего специфику настройки алгоритмов, способного должным образом подготовить данные. Очевидно, что не все организации способны держать в штате такого сотрудника.
Таким образом, является актуальной задача разработки новых и реализации уже существующих алгоритмов анализа данных для нужд небольших организаций.
Объект исследования - алгоритмы Data Mining.
Предмет исследования - применение алгоритмов Data Mining для работы с большими объемами данных.
Цель работы - представить концепцию использования алгоритмов Data Mining для обработки больших массивов данных.
Задачи работы:
• описать математический аппарат алгоритмов Data Mining;
• исследовать модель программировании MapReduce;
• проанализировать алгоритмы для работы с большими объемами данных;
• выполнить программную реализацию алгоритмов.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, списка используемых источников.
В главе 1 рассматривается общая теоретическая информация о методах Data Mining и работе с большими объемами данных.
В главе 2 приводится анализ существующих методов решения и формирование вычислительного алгоритма.
В главе 3 разрабатывается программное обеспечение и интерфейс программы, а также проводится сравнительный анализ с существующими методами решения. В заключении представлены результаты и выводы о проделанной работе.
Бакалаврская работа содержит пояснительную записку объемом 46 страниц, включая 32 рисунка, 2 таблицы, 13 формул, список литературы из 20 наименований.
При наличии большого количества данных зачастую возникает проблема их обработки, а также появляется вопрос: возможно ли извлечь из собранных данных новую, нетривиальную и полезную информацию, которую можно было бы использовать в деятельности компании?
С задачей обработки позволяют справиться различные технологии анализа данных, например, OLAP, предназначенной для быстрой обработки сложных запросов к базе данных и служащей для подготовки бизнес-отчётов, например, по продажам и маркетингу.
А на последний вопрос дает ответ технология Data Mining (DM), представляющая собой “набор различных методов и алгоритмов для обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности”.
На сегодняшний день есть много готовых решений для анализа данных средствами Data Mining, но почти все они распространяются на коммерческой основе за немалые деньги. При этом существует достаточно много небольших организаций, не готовых платить круглые суммы за мощные аналитические пакеты, но желающих использовать Data Mining в своей деятельности. К тому же, зачастую не требуется полный комплекс средств для анализа, а только один-два алгоритма.
Еще одной трудностью в использовании DM является необходимость наличия аналитика, умеющего работать со средствами анализа, знающего специфику настройки алгоритмов, способного должным образом подготовить данные. Очевидно, что не все организации способны держать в штате такого сотрудника.
Таким образом, является актуальной задача разработки новых и реализации уже существующих алгоритмов анализа данных для нужд небольших организаций.
Объект исследования - алгоритмы Data Mining.
Предмет исследования - применение алгоритмов Data Mining для работы с большими объемами данных.
Цель работы - представить концепцию использования алгоритмов Data Mining для обработки больших массивов данных.
Задачи работы:
• описать математический аппарат алгоритмов Data Mining;
• исследовать модель программировании MapReduce;
• проанализировать алгоритмы для работы с большими объемами данных;
• выполнить программную реализацию алгоритмов.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, списка используемых источников.
В главе 1 рассматривается общая теоретическая информация о методах Data Mining и работе с большими объемами данных.
В главе 2 приводится анализ существующих методов решения и формирование вычислительного алгоритма.
В главе 3 разрабатывается программное обеспечение и интерфейс программы, а также проводится сравнительный анализ с существующими методами решения. В заключении представлены результаты и выводы о проделанной работе.
Бакалаврская работа содержит пояснительную записку объемом 46 страниц, включая 32 рисунка, 2 таблицы, 13 формул, список литературы из 20 наименований.
Выпускная квалификационная работа посвящена актуальной проблеме применение алгоритмов Data Mining для работы с большими объемами данных.
Для достижения данной цели в процессе работы над бакалаврской работой решены следующие задачи:
• описан математический аппарат алгоритмов Apriori, k-means и KNN;
• проведен анализ и сравнение указанных алгоритмов Data mining для выбора наиболее оптимальных алгоритмов для работы с большими данными. Как показал анализ, алгоритм Apriori довольно прост и понятен, а также легок в реализации в отличии от его. Также данный алгоритм имеет множество вариаций и модификаций, что подчеркивает его актуальность в настоящее время;
• описана модель программирования MapReduce, а также были разработаны алгоритмы кластеризации данных с использованием модели для оптимизации работы с большими данными.
• выполнена программная реализация алгоритмов и выполнена оценка их эффективности. Как показал анализ, наилучшим алгоритмом является Apriori. K-means сильно зависит от начальных расположений центроидов, что в итоге и сказалось на результатах. KNN намного быстрее оригинального алгоритма, но с увеличением выборки скорость вычисления падает.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для разработчиков программ анализа больших массивов данных на основе методов Data mining.
Для достижения данной цели в процессе работы над бакалаврской работой решены следующие задачи:
• описан математический аппарат алгоритмов Apriori, k-means и KNN;
• проведен анализ и сравнение указанных алгоритмов Data mining для выбора наиболее оптимальных алгоритмов для работы с большими данными. Как показал анализ, алгоритм Apriori довольно прост и понятен, а также легок в реализации в отличии от его. Также данный алгоритм имеет множество вариаций и модификаций, что подчеркивает его актуальность в настоящее время;
• описана модель программирования MapReduce, а также были разработаны алгоритмы кластеризации данных с использованием модели для оптимизации работы с большими данными.
• выполнена программная реализация алгоритмов и выполнена оценка их эффективности. Как показал анализ, наилучшим алгоритмом является Apriori. K-means сильно зависит от начальных расположений центроидов, что в итоге и сказалось на результатах. KNN намного быстрее оригинального алгоритма, но с увеличением выборки скорость вычисления падает.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для разработчиков программ анализа больших массивов данных на основе методов Data mining.
Подобные работы
- АЛГОРИТМЫ И МЕТОДИКИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА
СОБЫТИЙ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В СЕТЯХ И
СИСТЕМАХ ТЕЛЕКОММУНИКАЦИЙ
Диссертация , информационная безопасность. Язык работы: Русский. Цена: 5780 р. Год сдачи: 2016 - Исследование алгоритмов прогнозирования по признакам базы данных
Дипломные работы, ВКР, биология. Язык работы: Русский. Цена: 4730 р. Год сдачи: 2023 - Визуальное представление многомерных эмпирических данных
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2017 - Разработка структуры и построение аналитических кубов для OLAP системы
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4200 р. Год сдачи: 2021 - Применение методов машинного обучения при оценке и картографировании природных ресурсов
Магистерская диссертация, картография. Язык работы: Русский. Цена: 4835 р. Год сдачи: 2020 - Обработка кластерных данных в цифровой экономике
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4360 р. Год сдачи: 2018 - Визуально-интерактивное моделирование сложно-структурированных данных
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - ВЕРОЯТНОСТНЫЙ РАСЧЕТ ЗНАЧЕНИЙ НЕДОСТАЮЩИХ ДАННЫХ ПОЛЬЗОВАТЕЛЯ СОЦИАЛЬНОЙ СЕТИ
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2019 - Комплексная информационная система, предназначенная для верификации моделей конвективных облаков
Магистерская диссертация, компьютерные сети. Язык работы: Русский. Цена: 4960 р. Год сдачи: 2016





