АННОТАЦИЯ 2
ВВЕДЕНИЕ 4
1 ОБЗОР МЕТОДОВ ОБРАБОТКИ ДАННЫХ 5
1.1 Метод ближайшего соседа 9
1.2 Метод k-средних 12
Выводы по первой главе 17
2 BIG DATA 18
2.1 Сложности обработки BIG DATA 24
2.2 Ошибки в данных 26
2.3 Разнородность данных 28
2.4 Нехватка мощностей 31
2.5 Законодательство о персональных данных 31
Выводы по второй главе 35
III ПРЕДВАРИТЕЛЬНОЕ ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ 36
3.1 RFM - Анализ 36
3.2 Разбивка данных по критерию «R» 39
3.3 Разбивка данных по критерию «F» 40
3.4 Разбивка данных по критерию «М» 41
3.5 Анализ структуры выделенных сегментов потребителей 43
Выводы по третьей главе 46
IV КЛАСТЕРИЗАЦИЯ BIG DATA 47
Выводы по четвертой главе 71
ЗАКЛЮЧЕНИЕ 72
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 73
ПРИЛОЖЕНИЕ 81
Актуальность темы.
На сегодняшний день в мире информация измеряется в тетабайтах, что влечет за собой использование огромных ресурсов для хранения и обработки этой информации. Понятие Big Data до сих пор не получило четкого определения, но по сути своей является технологией для хранения, обработки и анализа больших объемов информации. Big Data применяется, если не во всех, то в подавляющем большинстве направлений науки, техники, бизнес - аналитики и т.д. Технологиями Big Dataактивно пользуются такие компании, как Google, IBM, VISA. MaterCard, CocaCola. Эффективность использования Big Data можно наблюдать на примере правительства Германии, которое применило данные технологии в анализе поступающих заявок на выдачу пособий по безработице. Результаты обработки данных показали, что 20% пособий выплачивалось незаконно.
Целью данной работы является исследование и сравнение качеств работы методов кластеризации данных.
Решение задачи кластеризации, то есть разбиения исходной совокупности объектов на группы со схожими в смысле какого-либо критерия свойствами, является актуальным для многих приложений, где возникает проблема анализа большого объёма информации. Кластеризация позволяет среди всей совокупности объектов и их свойств уловить определённые закономерности и тенденции.
Объектом исследования является эффективность методов кластеризации больших объемов данных, обработки информации, критерий оценки качества решения задач, а также их программная реализация .
Методами исследования в данной работе являются методы:k-средних (k- means) и метод ближайших соседей (k-nearest neighbor, KNN).
Проведенные исследования показывают, что использование методов классификации и кластеризации для решения задач Big Data требуют современных и актуальных технологических возможностей. В процессе проведения исследования были достигнуты поставленные задачи, а именно выявлено, что эффективность исследуемых методов k - средних и k - ближайших соседей достаточна для решений задач ранжирования больших объемов данных, однако, как было сказано выше - требует актуальной и современной технической оснастки. В ходе проведения исследования была произведена предварительная разбивка входных данных на кластеры посредствам RFM-анализа, что дало достаточно четкое начальное понимание рационального количества кластеров. Было выявлено, что предварительная нормализация данных, благотворно влияет на их обработку техническими средствами, а именно повышает скорость обработки входных данных, однако результаты обработки нормализованных данных тяжело воспринимаются аналитиком, в связи с чем возникает необходимость обратной нормализации (денормализации) данных.Так же выявлена достаточно весомая слабость метода к - средних, а именно необходимость корректного выбора количества начальных точек (центроидов) и их координат, но неоднократная прогонка данным методом большого объема данных показала, что метод достаточно корректно определяет координаты центроидов. Использование в ходе исследования метода k - ближайших соседей так же выявило достаточно весомый недостаток метода, который заключается в необходимости заранее владением критериев разбивки на классы, также исследование показало, что 75% данных достаточно, для формирования обучающей выборки, а оставшиеся 25% достаточно для объявления их тестовыми данными, что в условиях решения задач ранжирования больших объемов данных является иррациональным. При проведении исследования вышеуказанные метода были программно реализованы в среде Matlab.