Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА ЭФФЕКТИВНЫХ АЛГОРИТМОВ ИЕРАРХИЧЕСКОЙ КЛАСТЕРИЗАЦИИ

Работа №77741

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы28
Год сдачи2016
Стоимость4340 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
28
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
II. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 4
Основные понятия 4
Формальная постановка задачи 5
Оценка качества работы алгоритма 7
Иерархическая кластеризация 8
Алгоритм CURE 9
Применение кластеризации 10
III. ЦЕЛЬ РАБОТЫ И ПОСТАНОВКА ЗАДАЧИ 11
IV. ТЕОРЕТИЧЕСКИЕ ОСНОВАНИЯ РАБОТЫ 12
Задача о чебышевском центре конечного числа точек 12
Метод условного градиента 13
V. ПРОЦЕСС РЕАЛИЗАЦИИ 16
Проверка на условие оптимальности 18
Определение числа кластеров 19
VI. ТЕСТИРОВАНИЕ АЛГОРИТМА НА РАЗЛИЧНЫХ НАБОРАХ ДАННЫХ 21
Сравнение результатов при поиске репрезентативных точек 21
Оценка результатов кластеризации 22
VII. ЗАКЛЮЧЕНИЕ 25
VIII. СПИСОК ЛИТЕРАТУРЫ 26
IX. ПРИЛОЖЕНИЯ 27
Приложение 1 27
Приложение 2

Ни для кого не секрет, что в современном обществе информационные ресурсы наравне с материальными, финансовыми и другими ресурсами играют немаловажную роль. Производство и потребление информации лежит в основе становления и эффективного функционирования всех сфер общественной жизни.
С развитием технологий стало возможным хранение огромного количества информации, быстрое вычисление сложных функций, что облегчает работу исследователю, однако этого мало, простой набор данных недостаточен. Часто необходимо выделить суть, т.е. определить структуру, взаимосвязь, особенности на основе той или иной информации, без участия эксперта предметной области. В этом заключается основная идея машинного обучения - выявление закономерностей для дальнейшего анализа данных.
В широком смысле все алгоритмы машинного обучения делятся на два больших раздела: обучение с учителем и обучение без учителя. Первый раздел содержит алгоритмы, которые на основе имеющихся данных об объектах и соответствующих им правильных ответов, получив на вход описание неизвестного заранее объекта, выдают результат. Но распространены случаи, когда имеется только набор данных и необходимо найти зависимость между объектами, чтобы выявить дополнительные особенности объекта по группе, которой он принадлежит, или выявить нетипичные примеры. Алгоритмы, которые решают эти проблемы, содержатся во втором разделе - обучение без учителя.
Предметом исследования данной дипломной работы является один из типов задач обучения без учителя - кластеризация, в частности, иерархический подход. Задача, поставленная перед автором работы, состоит в разработке алгоритма на основе методов оптимизации.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В настоящей дипломной работе был рассмотрен иерархический алгоритм кластеризации CURE. Результатом выполнения поставленных задач является модификация алгоритма, которая использует решение задачи о чебышевском центре и метод локтя.
На основе тестовых примеров было выявлено, что решение задачи о чебышевском центре значительно ускоряет процесс поиска репрезентативных точек кластера. Благодаря этому данный метод позволяет быстрее обрабатывать данные, особенно те, у которых большое число признаков.
Метод локтя как способ определения числа кластеров хорошо работает на данных невысокой размерности. С увеличением числа параметров на качество разбиения начинает влиять коэффициент сжатия, что демонстрируют примеры.
В дальнейшем, в модификацию алгоритма планируется внедрить методы, позволяющие быстрее решать задачу минимизации линейной функции и умножать матрицы. Также планируется выявить закономерности при работе с коэффициентом сжатия а.



1. Котов А., Красильников Н. Кластеризация данных. http://www.csee.umbc.edu/nicholas/clustering/tutorial.pdf
2. Информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных, Кластеризация http://www.machinelearning.ru/wiki/index.php?title=Кластеризация
3. University of Illinois at Urbana-Champaign Курс лекций Cluster Analysis in Data Mininghttps://www.coursera.org/learn/cluster-analysis
4. Nicholas O. Andrews, Edward A. Fox Recent Developments in Document Clustering http://eprints.cs.vt.edu/archive/00001000/01/docclust.pdf
5. Сайт Студопедия, F-мераhttp://studopedia.ru/7 41921 entropiynaya-mera.html
6. Воронцов К.С. Методы кластеризации http://www.machinelearning.ru/wiki/images/2/28/Voron-ML-Clustering-slides.pdf
7. An Introduction to Cluster Analysis for Data Mining
8. Дюран Б., Оделл П. Кластерный анализ. Пер. с англ. Е.З. Демиденко. Под ред. А.Я. Боярского, «Статистика», 1977. - 128 с.
9. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim CURE: An Efficient Clustering Algorithm for Large Databases. Электронное издание.
10. А. Л. Гаркави, О чебышевском центре множества в нормированном пространстве, Сб. «Исследования по современным проблемам конструктивной теории функций», М., Физматгиз, 1961, 328—331.
11. А. Л. Гаркави, О чебышевском центре и выпуклой оболочке множества, УМН, 1964, том 19, выпуск 6(120), 139-145
12. Васильев Ф. П. Численные методы решения экстремальных задач: Учеб. пособие для вузов.— 2-е изд., перераб. и доп.— М.: Наука. Гл. ред. физ.-мат. лит., 1988.— 552 с.
13. Аббасов М. Э. Методы оптимизации: Учеб. пособие / Аббасов М. Э. — СПб.: Издательство “ВВМ”, 2014. — 64 с.
14. Подготовка и обработка, анализ и представление данных https://psytest.wordpress.com/data treatment/normalization indicator/
15. Pierre Hansen, Brigitte Jaumard Cluster analysis and mathematical programming
16. Clustering datasetshttps://cs.joensuu.fi/sipu/datasets/


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ