Тип работы:
Предмет:
Язык работы:


Применение алгоритмов Data mining для обработки больших массивов данных

Работа №121418

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы46
Год сдачи2021
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
69
Не подходит работа?

Узнай цену на написание


Аннотация 2
Введение 5
Глава 1 Анализ методов интеллектуальной обработки данных 7
1.1 Обзор решаемых задач интеллектуального анализа данных 7
1.2 Выбор методов для реализации 9
1.2.1 Алгоритм Apriori 9
1.2.2 Алгоритм k-means: 11
1.2.3 Алгоритм KNN 13
Глава 2 Разработка алгоритмов с помощью MapReduce 16
2.1 Модель обработки больших данных MapReduce 16
2.2 Разработка алгоритмов с помощью MapReduce 19
2.2.1 Разработка алгоритма априори 19
2.2.2 Разработка алгоритма k-means 22
2.2.3 Разработка алгоритма KNN 25
Глава 3 Реализация программы интеллектуального анализа данных 27
3.1 Описание используемых инструментов 27
3.2 Реализация алгоритма Apriori 28
3.3 Реализация алгоритма K-means 33
3.4 Реализация алгоритма KNN 37
3.5 Сравнение результатов 39
Заключение 44
Список используемой литературы 45

В наше время процесс сбора данных стал неотъемлемой частью практически всех областей человеческой деятельности. Бизнес, торговля, обучение, медицина - компании в этих и многих других сферах целенаправленно или попутно регистрируют огромное количество самой разнообразной информации - данные о финансах, клиентах, покупках, заказах, перевозках и т.д.
При наличии большого количества данных зачастую возникает проблема их обработки, а также появляется вопрос: возможно ли извлечь из собранных данных новую, нетривиальную и полезную информацию, которую можно было бы использовать в деятельности компании?
С задачей обработки позволяют справиться различные технологии анализа данных, например, OLAP, предназначенной для быстрой обработки сложных запросов к базе данных и служащей для подготовки бизнес-отчётов, например, по продажам и маркетингу.
А на последний вопрос дает ответ технология Data Mining (DM), представляющая собой “набор различных методов и алгоритмов для обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности”.
На сегодняшний день есть много готовых решений для анализа данных средствами Data Mining, но почти все они распространяются на коммерческой основе за немалые деньги. При этом существует достаточно много небольших организаций, не готовых платить круглые суммы за мощные аналитические пакеты, но желающих использовать Data Mining в своей деятельности. К тому же, зачастую не требуется полный комплекс средств для анализа, а только один-два алгоритма.
Еще одной трудностью в использовании DM является необходимость наличия аналитика, умеющего работать со средствами анализа, знающего специфику настройки алгоритмов, способного должным образом подготовить данные. Очевидно, что не все организации способны держать в штате такого сотрудника.
Таким образом, является актуальной задача разработки новых и реализации уже существующих алгоритмов анализа данных для нужд небольших организаций.
Объект исследования - алгоритмы Data Mining.
Предмет исследования - применение алгоритмов Data Mining для работы с большими объемами данных.
Цель работы - представить концепцию использования алгоритмов Data Mining для обработки больших массивов данных.
Задачи работы:
• описать математический аппарат алгоритмов Data Mining;
• исследовать модель программировании MapReduce;
• проанализировать алгоритмы для работы с большими объемами данных;
• выполнить программную реализацию алгоритмов.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, списка используемых источников.
В главе 1 рассматривается общая теоретическая информация о методах Data Mining и работе с большими объемами данных.
В главе 2 приводится анализ существующих методов решения и формирование вычислительного алгоритма.
В главе 3 разрабатывается программное обеспечение и интерфейс программы, а также проводится сравнительный анализ с существующими методами решения. В заключении представлены результаты и выводы о проделанной работе.
Бакалаврская работа содержит пояснительную записку объемом 46 страниц, включая 32 рисунка, 2 таблицы, 13 формул, список литературы из 20 наименований.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Выпускная квалификационная работа посвящена актуальной проблеме применение алгоритмов Data Mining для работы с большими объемами данных.
Для достижения данной цели в процессе работы над бакалаврской работой решены следующие задачи:
• описан математический аппарат алгоритмов Apriori, k-means и KNN;
• проведен анализ и сравнение указанных алгоритмов Data mining для выбора наиболее оптимальных алгоритмов для работы с большими данными. Как показал анализ, алгоритм Apriori довольно прост и понятен, а также легок в реализации в отличии от его. Также данный алгоритм имеет множество вариаций и модификаций, что подчеркивает его актуальность в настоящее время;
• описана модель программирования MapReduce, а также были разработаны алгоритмы кластеризации данных с использованием модели для оптимизации работы с большими данными.
• выполнена программная реализация алгоритмов и выполнена оценка их эффективности. Как показал анализ, наилучшим алгоритмом является Apriori. K-means сильно зависит от начальных расположений центроидов, что в итоге и сказалось на результатах. KNN намного быстрее оригинального алгоритма, но с увеличением выборки скорость вычисления падает.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для разработчиков программ анализа больших массивов данных на основе методов Data mining.


1. Айвазян С. А., Бухштабер В.М., Енюков И.С. Прикладная статистика: классификация и снижение размерности // Финансы и статистика. 2007. № 1. С. 50 -57.
2. Барсегян А.А, Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализ данных: OLAP и Data Mining. Санкт-Петербург: БХВ - Петербург, 2004. 360 с.
3. Басалаева Ю. С. Исследование алгоритмов кластеризации с целью анализа данных проверяющей системы // Молодые исследователи - регионам: материалы межд. научн. конф., 20-25 апр. 2015г. Вологда, 2015. С. 50 - 51.
4. Басалаева Ю.С. Выбор инструментов Data Mining для анализа результатов дистанционного образования // Современные материалы, техника и технология. 2015. № 2. С. 22 - 25.
5. Басалаева Ю.С. Проблема очистки данных дистанционного практикума по программированию в процессе кластерного анализа // Современные тенденции развития науки и производства. 2016. № 2. С. 119 - 120.
6. Большакова Е.И., Клышинский Э.С., Ландэ Д.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие. Москва: МИЭМ, 2011. 272 с.
7. Гладкий М.В. Модель распределенных вычислений MapReduce// Труды БГТУ. 2016. № 6. C. 194-198.
8. Информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных [Электронный ресурс]. URL: www.machinelearning.ru (дата обращения 10.05.2021).
9. Котов А. Кластеризация данных // Инновации. 2015. №1. С.34-37.
10. НОУ ИНТУИТ: Введение в машинное обучение [Электронный ресурс]. URL: https://intuit.ru/studies/courses/ 10621/1105/lecture/17981 (дата обращения 10.05.2021).
11. НОУ ИНТУИТ: Задачи Data Mining. Информация и знания [Электронный ресурс]. URL: https://intuit.rU/studies/courses/6/6/ lecture/164 (дата обращения 10.05.2021).
12. Паклин Н. Б. Бизнес-аналитика: от данных к знаниям / Н. Б. Паклин, В. И. Орешков. - Санкт-Петербург: Изд. Питер, 2009. - 624 с.
13. Ржеуцкая С.Ю., Басалаева Ю.С. Опыт применения методов кластеризации для анализа результатов дистанционного обучения // Информатизация инженерного образования: материалы международной науч.-практ. конф., 12-13 апр. 2016 г. Москва: МЭИ, 2016. С. 617 - 620.
14. Berkhin P. Survey of Clustering Data Mining Techniques / P. Berkhin. - USA: Accrue Software, 2002. 55 p.
15. CVAP: Cluster Validity Analysis Platform (cluster analysis and validation tool) [Электронный ресурс]. URL: http: //www.mathworks.com/matlabcentral/ fileexchange/14620-cvap--cluster- validity-analysis-platform--cluster-analysis-and-validation-tool/ (дата обращения 10.05.2021).
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ