Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
АННОТАЦИЯ 2
ВВЕДЕНИЕ 4
1 ОБЗОР МЕТОДОВ ОБРАБОТКИ ДАННЫХ 5
1.1 Метод ближайшего соседа 9
1.2 Метод k-средних 12
Выводы по первой главе 17
2 BIG DATA 18
2.1 Сложности обработки BIG DATA 24
2.2 Ошибки в данных 26
2.3 Разнородность данных 28
2.4 Нехватка мощностей 31
2.5 Законодательство о персональных данных 31
Выводы по второй главе 35
III ПРЕДВАРИТЕЛЬНОЕ ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ 36
3.1 RFM - Анализ 36
3.2 Разбивка данных по критерию «R» 39
3.3 Разбивка данных по критерию «F» 40
3.4 Разбивка данных по критерию «М» 41
3.5 Анализ структуры выделенных сегментов потребителей 43
Выводы по третьей главе 46
IV КЛАСТЕРИЗАЦИЯ BIG DATA 47
Выводы по четвертой главе 71
ЗАКЛЮЧЕНИЕ 72
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 73
ПРИЛОЖЕНИЕ 81
📖 Введение
Актуальность темы.
На сегодняшний день в мире информация измеряется в тетабайтах, что влечет за собой использование огромных ресурсов для хранения и обработки этой информации. Понятие Big Data до сих пор не получило четкого определения, но по сути своей является технологией для хранения, обработки и анализа больших объемов информации. Big Data применяется, если не во всех, то в подавляющем большинстве направлений науки, техники, бизнес - аналитики и т.д. Технологиями Big Dataактивно пользуются такие компании, как Google, IBM, VISA. MaterCard, CocaCola. Эффективность использования Big Data можно наблюдать на примере правительства Германии, которое применило данные технологии в анализе поступающих заявок на выдачу пособий по безработице. Результаты обработки данных показали, что 20% пособий выплачивалось незаконно.
Целью данной работы является исследование и сравнение качеств работы методов кластеризации данных.
Решение задачи кластеризации, то есть разбиения исходной совокупности объектов на группы со схожими в смысле какого-либо критерия свойствами, является актуальным для многих приложений, где возникает проблема анализа большого объёма информации. Кластеризация позволяет среди всей совокупности объектов и их свойств уловить определённые закономерности и тенденции.
Объектом исследования является эффективность методов кластеризации больших объемов данных, обработки информации, критерий оценки качества решения задач, а также их программная реализация .
Методами исследования в данной работе являются методы:k-средних (k- means) и метод ближайших соседей (k-nearest neighbor, KNN).
✅ Заключение
Проведенные исследования показывают, что использование методов классификации и кластеризации для решения задач Big Data требуют современных и актуальных технологических возможностей. В процессе проведения исследования были достигнуты поставленные задачи, а именно выявлено, что эффективность исследуемых методов k - средних и k - ближайших соседей достаточна для решений задач ранжирования больших объемов данных, однако, как было сказано выше - требует актуальной и современной технической оснастки. В ходе проведения исследования была произведена предварительная разбивка входных данных на кластеры посредствам RFM-анализа, что дало достаточно четкое начальное понимание рационального количества кластеров. Было выявлено, что предварительная нормализация данных, благотворно влияет на их обработку техническими средствами, а именно повышает скорость обработки входных данных, однако результаты обработки нормализованных данных тяжело воспринимаются аналитиком, в связи с чем возникает необходимость обратной нормализации (денормализации) данных.Так же выявлена достаточно весомая слабость метода к - средних, а именно необходимость корректного выбора количества начальных точек (центроидов) и их координат, но неоднократная прогонка данным методом большого объема данных показала, что метод достаточно корректно определяет координаты центроидов. Использование в ходе исследования метода k - ближайших соседей так же выявило достаточно весомый недостаток метода, который заключается в необходимости заранее владением критериев разбивки на классы, также исследование показало, что 75% данных достаточно, для формирования обучающей выборки, а оставшиеся 25% достаточно для объявления их тестовыми данными, что в условиях решения задач ранжирования больших объемов данных является иррациональным. При проведении исследования вышеуказанные метода были программно реализованы в среде Matlab.