📄Работа №202696

Тема: Исследование эффективности алгоритмов классификации для задач ранжирования данных

Характеристики работы

Тип работы Дипломные работы, ВКР
Математика
Предмет Математика
📄
Объем: 89 листов
📅
Год: 2019
👁️
Просмотров: 53
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

АННОТАЦИЯ 2
ВВЕДЕНИЕ 4
1 ОБЗОР МЕТОДОВ ОБРАБОТКИ ДАННЫХ 5
1.1 Метод ближайшего соседа 9
1.2 Метод k-средних 12
Выводы по первой главе 17
2 BIG DATA 18
2.1 Сложности обработки BIG DATA 24
2.2 Ошибки в данных 26
2.3 Разнородность данных 28
2.4 Нехватка мощностей 31
2.5 Законодательство о персональных данных 31
Выводы по второй главе 35
III ПРЕДВАРИТЕЛЬНОЕ ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ 36
3.1 RFM - Анализ 36
3.2 Разбивка данных по критерию «R» 39
3.3 Разбивка данных по критерию «F» 40
3.4 Разбивка данных по критерию «М» 41
3.5 Анализ структуры выделенных сегментов потребителей 43
Выводы по третьей главе 46
IV КЛАСТЕРИЗАЦИЯ BIG DATA 47
Выводы по четвертой главе 71
ЗАКЛЮЧЕНИЕ 72
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 73
ПРИЛОЖЕНИЕ 81

📖 Аннотация

В данной работе проводится исследование сравнительной эффективности алгоритмов классификации и кластеризации, в частности методов k-средних и k-ближайших соседей, для решения задач ранжирования и сегментации больших объемов данных (Big Data). Актуальность исследования обусловлена повсеместным распространением технологий Big Data в науке, бизнес-аналитике и государственном управлении, где критически важны эффективные методы автоматизированного выявления закономерностей в крупных массивах разнородной информации. Основные результаты заключаются в том, что оба исследуемых алгоритма демонстрируют достаточную эффективность для задач ранжирования, однако их применение сопряжено с рядом технологических и методических ограничений. Было установлено, что предварительная нормализация данных значительно ускоряет обработку, но требует последующей денормализации для интерпретации результатов аналитиком. Для метода k-средних подтверждена проблема чувствительности к выбору начальных центроидов, а для метода k-ближайших соседей выявлена высокая вычислительная сложность. Практическая значимость работы подтверждается апробацией на реальных данных с использованием RFM-анализа для предварительного определения числа кластеров, что повышает качество итоговой сегментации. Научная ценность заключается в систематизации условий и ограничений применения классических алгоритмов машинного обучения в контексте современных вызовов Big Data. Теоретической основой исследования послужили работы таких авторов, как Герасименко Н.А., рассматривающая особенности технологий Big Data, Ситникова Н.В. с соавторами, исследующие алгоритмы классификации, а также Измалкова С.А., анализирующая применение больших данных в управлении экономическими системами.

📖 Введение

Актуальность темы.
На сегодняшний день в мире информация измеряется в тетабайтах, что влечет за собой использование огромных ресурсов для хранения и обработки этой информации. Понятие Big Data до сих пор не получило четкого определения, но по сути своей является технологией для хранения, обработки и анализа больших объемов информации. Big Data применяется, если не во всех, то в подавляющем большинстве направлений науки, техники, бизнес - аналитики и т.д. Технологиями Big Dataактивно пользуются такие компании, как Google, IBM, VISA. MaterCard, CocaCola. Эффективность использования Big Data можно наблюдать на примере правительства Германии, которое применило данные технологии в анализе поступающих заявок на выдачу пособий по безработице. Результаты обработки данных показали, что 20% пособий выплачивалось незаконно.
Целью данной работы является исследование и сравнение качеств работы методов кластеризации данных.
Решение задачи кластеризации, то есть разбиения исходной совокупности объектов на группы со схожими в смысле какого-либо критерия свойствами, является актуальным для многих приложений, где возникает проблема анализа большого объёма информации. Кластеризация позволяет среди всей совокупности объектов и их свойств уловить определённые закономерности и тенденции.
Объектом исследования является эффективность методов кластеризации больших объемов данных, обработки информации, критерий оценки качества решения задач, а также их программная реализация .
Методами исследования в данной работе являются методы:k-средних (k- means) и метод ближайших соседей (k-nearest neighbor, KNN).

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Проведенные исследования показывают, что использование методов классификации и кластеризации для решения задач Big Data требуют современных и актуальных технологических возможностей. В процессе проведения исследования были достигнуты поставленные задачи, а именно выявлено, что эффективность исследуемых методов k - средних и k - ближайших соседей достаточна для решений задач ранжирования больших объемов данных, однако, как было сказано выше - требует актуальной и современной технической оснастки. В ходе проведения исследования была произведена предварительная разбивка входных данных на кластеры посредствам RFM-анализа, что дало достаточно четкое начальное понимание рационального количества кластеров. Было выявлено, что предварительная нормализация данных, благотворно влияет на их обработку техническими средствами, а именно повышает скорость обработки входных данных, однако результаты обработки нормализованных данных тяжело воспринимаются аналитиком, в связи с чем возникает необходимость обратной нормализации (денормализации) данных.Так же выявлена достаточно весомая слабость метода к - средних, а именно необходимость корректного выбора количества начальных точек (центроидов) и их координат, но неоднократная прогонка данным методом большого объема данных показала, что метод достаточно корректно определяет координаты центроидов. Использование в ходе исследования метода k - ближайших соседей так же выявило достаточно весомый недостаток метода, который заключается в необходимости заранее владением критериев разбивки на классы, также исследование показало, что 75% данных достаточно, для формирования обучающей выборки, а оставшиеся 25% достаточно для объявления их тестовыми данными, что в условиях решения задач ранжирования больших объемов данных является иррациональным. При проведении исследования вышеуказанные метода были программно реализованы в среде Matlab.
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Герасименко Н.А. О некоторых особенностях технологии BIG DATA / Н.А. Герасименко // Научноеобозрение. 2015. № 16. С. 180-184.
2. Измалкова С.А. Использование глобальных технологий «BIG DATA» в управлении экономическимисистемами / С.А. Измалкова, Т.А. Головина // Известия Тульского государственного университета.Экономические и юридические науки. 2015. Т. 4. № -1. С. 151-158.
3. Ситникова Н.В. Исследование алгоритмов классификации с применением методов обработки BIG DATA/ Н.В. Ситникова, Р.А. Парингер, А.В. Куприянов // В сборнике: XIII Королёвские чтения международнаямолодёжная научная конференция, сборник трудов. САМАРА, 2015. С. 137-138.
4. Цыпин А.П. Выбор программного обеспечения для построения и анализа рядов динамики / А.П. Цыпин //Особенности транзитивной экономики: Сборник научных статей по материалам Межвузовской конференциимолодых ученых. - Оренбург: Издательский центр ОГАУ, 2002. - С.138-140.
5. Цыпин А.П. Информационное обеспечение процесса построения исторических временных рядовсоциально-экономических показателей России / А.П.Цыпин, А.Г. Ковалев // Интернет-журнал Науковедение.- 2014. - № 6 (25). - С. 50.6. Шилина М.Г. BIG DATA, OPEN DATA как новые форматы информации: сущность, характеристики,особенности применения в журнализме / М.Г. Шилина // Вестник Тверского государственного университета.Серия: Филология. 2015. № 3. С. 235-244.
7. Яковлев В.С. BIG DATA / В.С. Яковлев // Техника и технологии: роль в развитии современного общества.2015. № 6. С. 83-90.
8. Jain A. K., Murty M. N., Flynn P. J.Data Clustering: A Review (http: //www.csee.umbe.edu/nicholas/clustering/ p264-j ain.pdf)
9. Kogan J., Nicholas C., Teboulle M Clustering Large and High Dimensional Da- ta(http: //www.csee. umbe.edu /nicholas/clustering/tutorial .pdf)
10. Ходасевич Г. Б. Обработка экспериментальных данных на ЭВМ. Учебное пособие. СПб.:СПбГУТ, 2002. (http://dvo.sut.ru/libr/opds/i130hod2/index.htm)
11. Штовба С. Д. Проектирование нечетких систем средствами MATLAB. М.: Горячая линия.Телеком, 2007. С. 72-74.
12. Гладков Л. А. и др. Биоинспирированныеметоды в оптимизации. Монография. М.: Физматлит, 2009. 384с.
13. Global Optimization Toolbox (http://matlab.ru/products/global-optimization- toolbox)
14. Лекция: Методы кластерного анализа. Иерархические методы: версиядля печати и PDA. http://vudguit.noip.biz:3232/department/database/Data Mining/13/Data Mining_13.html
15. Jolliffe I. T. Principal Component Analysis,Series: Springer Series in Statistics. 2nded.Springer.NY. 2002. XXIX. 487 p...98

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ