📄Работа №202696

Тема: Исследование эффективности алгоритмов классификации для задач ранжирования данных

📝

Тип работы Дипломные работы, ВКР

📚

Предмет математика

📄

Объем: 89 листов

📅

Год: 2019

👁️

4890 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

АННОТАЦИЯ 2
ВВЕДЕНИЕ 4
1 ОБЗОР МЕТОДОВ ОБРАБОТКИ ДАННЫХ 5
1.1 Метод ближайшего соседа 9
1.2 Метод k-средних 12
Выводы по первой главе 17
2 BIG DATA 18
2.1 Сложности обработки BIG DATA 24
2.2 Ошибки в данных 26
2.3 Разнородность данных 28
2.4 Нехватка мощностей 31
2.5 Законодательство о персональных данных 31
Выводы по второй главе 35
III ПРЕДВАРИТЕЛЬНОЕ ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ 36
3.1 RFM - Анализ 36
3.2 Разбивка данных по критерию «R» 39
3.3 Разбивка данных по критерию «F» 40
3.4 Разбивка данных по критерию «М» 41
3.5 Анализ структуры выделенных сегментов потребителей 43
Выводы по третьей главе 46
IV КЛАСТЕРИЗАЦИЯ BIG DATA 47
Выводы по четвертой главе 71
ЗАКЛЮЧЕНИЕ 72
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 73
ПРИЛОЖЕНИЕ 81

📖 Введение

Актуальность темы.
На сегодняшний день в мире информация измеряется в тетабайтах, что влечет за собой использование огромных ресурсов для хранения и обработки этой информации. Понятие Big Data до сих пор не получило четкого определения, но по сути своей является технологией для хранения, обработки и анализа больших объемов информации. Big Data применяется, если не во всех, то в подавляющем большинстве направлений науки, техники, бизнес - аналитики и т.д. Технологиями Big Dataактивно пользуются такие компании, как Google, IBM, VISA. MaterCard, CocaCola. Эффективность использования Big Data можно наблюдать на примере правительства Германии, которое применило данные технологии в анализе поступающих заявок на выдачу пособий по безработице. Результаты обработки данных показали, что 20% пособий выплачивалось незаконно.
Целью данной работы является исследование и сравнение качеств работы методов кластеризации данных.
Решение задачи кластеризации, то есть разбиения исходной совокупности объектов на группы со схожими в смысле какого-либо критерия свойствами, является актуальным для многих приложений, где возникает проблема анализа большого объёма информации. Кластеризация позволяет среди всей совокупности объектов и их свойств уловить определённые закономерности и тенденции.
Объектом исследования является эффективность методов кластеризации больших объемов данных, обработки информации, критерий оценки качества решения задач, а также их программная реализация .
Методами исследования в данной работе являются методы:k-средних (k- means) и метод ближайших соседей (k-nearest neighbor, KNN).

✅ Заключение

Проведенные исследования показывают, что использование методов классификации и кластеризации для решения задач Big Data требуют современных и актуальных технологических возможностей. В процессе проведения исследования были достигнуты поставленные задачи, а именно выявлено, что эффективность исследуемых методов k - средних и k - ближайших соседей достаточна для решений задач ранжирования больших объемов данных, однако, как было сказано выше - требует актуальной и современной технической оснастки. В ходе проведения исследования была произведена предварительная разбивка входных данных на кластеры посредствам RFM-анализа, что дало достаточно четкое начальное понимание рационального количества кластеров. Было выявлено, что предварительная нормализация данных, благотворно влияет на их обработку техническими средствами, а именно повышает скорость обработки входных данных, однако результаты обработки нормализованных данных тяжело воспринимаются аналитиком, в связи с чем возникает необходимость обратной нормализации (денормализации) данных.Так же выявлена достаточно весомая слабость метода к - средних, а именно необходимость корректного выбора количества начальных точек (центроидов) и их координат, но неоднократная прогонка данным методом большого объема данных показала, что метод достаточно корректно определяет координаты центроидов. Использование в ходе исследования метода k - ближайших соседей так же выявило достаточно весомый недостаток метода, который заключается в необходимости заранее владением критериев разбивки на классы, также исследование показало, что 75% данных достаточно, для формирования обучающей выборки, а оставшиеся 25% достаточно для объявления их тестовыми данными, что в условиях решения задач ранжирования больших объемов данных является иррациональным. При проведении исследования вышеуказанные метода были программно реализованы в среде Matlab.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Герасименко Н.А. О некоторых особенностях технологии BIG DATA / Н.А. Герасименко // Научноеобозрение. 2015. № 16. С. 180-184.
2. Измалкова С.А. Использование глобальных технологий «BIG DATA» в управлении экономическимисистемами / С.А. Измалкова, Т.А. Головина // Известия Тульского государственного университета.Экономические и юридические науки. 2015. Т. 4. № -1. С. 151-158.
3. Ситникова Н.В. Исследование алгоритмов классификации с применением методов обработки BIG DATA/ Н.В. Ситникова, Р.А. Парингер, А.В. Куприянов // В сборнике: XIII Королёвские чтения международнаямолодёжная научная конференция, сборник трудов. САМАРА, 2015. С. 137-138.
4. Цыпин А.П. Выбор программного обеспечения для построения и анализа рядов динамики / А.П. Цыпин //Особенности транзитивной экономики: Сборник научных статей по материалам Межвузовской конференциимолодых ученых. - Оренбург: Издательский центр ОГАУ, 2002. - С.138-140.
5. Цыпин А.П. Информационное обеспечение процесса построения исторических временных рядовсоциально-экономических показателей России / А.П.Цыпин, А.Г. Ковалев // Интернет-журнал Науковедение.- 2014. - № 6 (25). - С. 50.6. Шилина М.Г. BIG DATA, OPEN DATA как новые форматы информации: сущность, характеристики,особенности применения в журнализме / М.Г. Шилина // Вестник Тверского государственного университета.Серия: Филология. 2015. № 3. С. 235-244.
7. Яковлев В.С. BIG DATA / В.С. Яковлев // Техника и технологии: роль в развитии современного общества.2015. № 6. С. 83-90.
8. Jain A. K., Murty M. N., Flynn P. J.Data Clustering: A Review (http: //www.csee.umbe.edu/nicholas/clustering/ p264-j ain.pdf)
9. Kogan J., Nicholas C., Teboulle M Clustering Large and High Dimensional Da- ta(http: //www.csee. umbe.edu /nicholas/clustering/tutorial .pdf)
10. Ходасевич Г. Б. Обработка экспериментальных данных на ЭВМ. Учебное пособие. СПб.:СПбГУТ, 2002. (http://dvo.sut.ru/libr/opds/i130hod2/index.htm)
11. Штовба С. Д. Проектирование нечетких систем средствами MATLAB. М.: Горячая линия.Телеком, 2007. С. 72-74.
12. Гладков Л. А. и др. Биоинспирированныеметоды в оптимизации. Монография. М.: Физматлит, 2009. 384с.
13. Global Optimization Toolbox (http://matlab.ru/products/global-optimization- toolbox)
14. Лекция: Методы кластерного анализа. Иерархические методы: версиядля печати и PDA. http://vudguit.noip.biz:3232/department/database/Data Mining/13/Data Mining_13.html
15. Jolliffe I. T. Principal Component Analysis,Series: Springer Series in Statistics. 2nded.Springer.NY. 2002. XXIX. 487 p...98

🖼 Скриншоты

Содержание

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209284)

Статьи

»» Все статьи

Вход в личный кабинет