Тип работы:
Предмет:
Язык работы:


Построение классификационной модели на основе кластерного анализа с использованием машинного обучения

Работа №115467

Тип работы

Магистерская диссертация

Предмет

программирование

Объем работы75
Год сдачи2021
Стоимость5450 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
136
Не подходит работа?

Узнай цену на написание


Введение 3
1 Анализ путей совершенствования алгоритмов машинного обучения 6
1.1 Анализ данных с использованием машинного обучения 6
1.2 Сравнительный анализ алгоритмов для классификации объектов на изображении 14
1.3 Пути развития технологий машинного обучения 19
2 Разработка технологии классификации данных на основе алгоритма k-means 24
2.1 Математический аппарат метрических алгоритмов кластеризации 24
2.2 Способ построения классификатора и классификации данных на основе результатов кластерного анализа 31
3 Проведение тестирования предложенных подходов 38
3.1 Программной реализация алгоритма построения классификатора и классификации данных на основе алгоритма k-means 38
3.2 Вычислительный эксперимент на наборе данных «Fisher's Iris» 50
3.3 Вычислительный эксперимент на наборе данных «Machine» 56
3.4 Вычислительный эксперимент на наборе данных «DryBean» 60
Заключение 67
Список используемой литературы 69

Актуальность и научная значимость исследования определена необходимостью увеличения универсальности алгоритмов машинного обучения за счет развития технологии перекрёстного использования алгоритмов.
Мировой опыт применения алгоритма машинного обучения предполагает приведение решаемой задачи к одному из стандартных типов (классификации, регрессии, кластеризации, аффинитивного анализа, оптимизации, поиска аномалий и т.д. ) [1], [12], [24]. С каждым типом решаемой задачи связан свой список алгоритмов машинного обучения предназначенных для их решения. Поэтому перспективным направлением в области машинного обучения является развитие технологий прекрасного использования алгоритмов, расширяющих области применения (применение в других типах задач) уже существующих алгоритмов.
В магистерской диссертации разрабатывается способ применения алгоритма кластеризации k-means для решения задач классификации.
Объектом исследования является классификация данных, предметом исследования - разработка технологии перекрёстного использования алгоритма k-means для классификации данных.
Цель исследования - разработка и тестирование концепции использования алгоритма k-means для решения задач классификации данных.
Гипотеза исследования состоит в том, что возможно построение эффективного классификатора данных на основе результатов кластерного анализа, полученных с помощью алгоритма k-means.
Для достижения поставленной цели необходимо решить следующие задачи:
• Анализ путей развития алгоритмов машинного обучения.
• Разработка технологии использования алгоритма k-means для построения классификационных моделей.
• Проектирование, разработка и апробация программного обеспечения реализующего предложенную технологию.
• Тестирование технологии на данных из открытого репозитория.
В работе применялись методы теоретического исследования, в их числе, анализ международных научных работ по теме решения практических задач с использованием алгоритмов машинного обучения. Так же в работе использовались и практические методы исследования, так кие как вычислительные эксперименты, анализ результатов вычислительных экспериментов, программное моделирование предложенных алгоритмов.
Научная новизна исследования - доказано, что алгоритм k-means можно использовать для получения классификатора данных. Это возможно путем анализа кластерной структуры и генерирования на его основе правил классификации. Также установлено, что, в этом случае, максимальная точность работы классификатора достигается при количестве кластеров, заданном из диапазона 1,5-с.. ,2,5-с, где с - количество классов в обучающей выборке.
Теоретическая значимость заключается в разработке подходов использования алгоритма k-means для построения классификатора данных. Также разработаны рекомендации, обеспечивающие максимальную точность работы получаемых классификаторов. Также показаны примеры использования предложенных подходов на реальных данных из репозитория «The UCI Machine Learning Repository».
Практическая значимость работы заключается в разработке программного обеспечения реализующего предложенные подходы.
Достоверность и обоснованность результатов исследования обеспечивалась тестированием предложенных подходов на выборках данных «Fisher's Iris», «Machine», «DryBean» из репозитория «The UCI Machine Learning Repository» и сопоставление полученных результатов с другими алгоритмами машинного обучения (случайный лес, деревья классификации, k-ближайших соседей).
Личное участие автора в организации и проведения исследования состоит в разработке технологии применения алгоритма k-means для решения задач классификации данных, разработке программного обеспечения, реализующего предложенные подходы, а также в проведении вычислительных экспериментов и обработке полученных результатов.
Апробация и внедрение результатов работы велись в течение всего исследования. Его результаты докладывались на Всероссийской студенческой научно-практической междисциплинарной конференции «Молодежь. Наука. Общество»
На защиту выносятся:
• Технология построения классификатора данных с использование результатов работы алгоритма k-means. В соответствии с этой технологией проводится кластеризация данных (без учета значений меток классов) с использование алгоритма k-means. В результате кластеризации исследуемые объекты распределяются по группам (кластерам) и рассчитываются центры кластеров. Затем проводиться статистический анализ каждого кластера для определения преобладающего в нем класса. Классификатор включает в себя параметры центров кластеров, а также для каждого кластера - метку преобладающего класса. При классификации исследуемого объекта определяется его принадлежность к одному из кластеров путем расчёта расстояния от объекта до центра кластеров. Считается, что исследуемый объект относится к тому кластеру, расстояние, до центра которого наименьшее. Исследуемому объекту присваивается метка класса, преобладающего в данном кластере.
• Результаты применения предложенной технологии построения классификаторов на наборах данных «Fisher's Iris», «Machine», «DryBean» из репозитория «The UCI Machine Learning Repository».

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В заключении приведем основные выводы по проделанной работе:
1. Анализ литературных источников по теме исследования показал, что алгоритмы машинного обучения разрабатывались для решения универсальных типов задач (классификации, регрессии, кластеризации, аффинитивного анализа, оптимизации, поиска аномалий).
2. Анализ научных статей показал, что в настоящее время сформировались две тенденции развития алгоритмов машинного обучения : увеличение доли участия алгоритмов в различных этапах анализе данных (рисунок 1.12) и разработка способов по расширению перечня типов задач, решаемых существующими алгоритмами машинного обучения (рисунок 1.14)
3. Показана связь, между типом решаемых задач и алгоритмами машинного обучения (рисунок 1.13). Также для каждого типа задачи приведены практические примеры использования алгоритмов.
4. Предложена технология синтеза классификаторов данных на основе результатов кластерного анализа (рисунок 2.8). В соответствии с этой технологией проводится кластеризация данных (без учета значений меток классов) с использование алгоритма k-means. В результате кластеризации исследуемые объекты распределяются по группам (кластерам) и рассчитываются центры кластеров. Затем проводиться статистический анализ каждого кластера для определения преобладающего в нем класса. Классификатор включает в себя параметры центров кластеров, а также для каждого кластера - метку преобладающего класса (рисунок 2.9). При классификации исследуемого объекта определяется его принадлежность к одному из кластеров путем расчёта расстояния от объекта до центра кластеров. Считается, что исследуемый объект относится к тому кластеру, расстояние, до центра которого наименьшее. Исследуемому объекту присваивается метка класса, преобладающего в данном кластере.
5. На языке Python разработано программное обеспечение, реализующее: загрузку данных из указанного файла, построение классификатора данных на основе алгоритма k-means и оценку точности работы классификаторов.
6. Тестирование предложенной технологии синтеза классификатора на основе результатов кластерного анализа проводилось на трех различных выборках данных из репозитория UCI Machine Learning Repository. Результаты тестирования показали, что точность работы получаемых классификаторов, основанных на предложенных в исследовании подходах, сопоставима с точностью стандартных классификаторов - k-nearest neighbors, Decision Tree, Random Forest.
7. Установлено, что если задавать количество кластеров равное в 1.5-2.5 раза больше количества классов в обучающей выборке, то можно добиться максимальной точности работы классификатора на большинстве выборок исходных данных.
На основании всего вышеизложенного можно сделать вывод, что цель исследования достигнута.


1. Алифбекова, Н.Р. Сравнительный анализ алгоритмов распознавания человеческого лица / Н.Р. Алифбекова, А.В. Рытов // Сборник статей Всероссийской студенческой научно-практической междисциплинарной конференции «Молодежь. Наука. Общество». 2020. - Тольяттинский государственный университет, 2020. - с. 38-41. - Текст : непосредственный.
2. Власов, А.В. Машинное обучение применительно к задаче классификации семян зерновых культур в видеопотоке / А.В. Власов, А.С. Федеев // Молодежь и современные информационные технологии - сборник трудов XIV Международной научно-практической конференции студентов, аспирантов и молодых учёных, 07-11 ноября 2016. - Национальный исследовательский Томский политехнический университет (Томск), 2016. - с. 133-135. - Текст : непосредственный.
3. Клячин В.Н. Использование агрегированных классификаторов при технической диагностике на базе машинного обучения / В.Н. Клячин, Ю.Е. Кувайскова, Д.А. Жуков // Информационные технологии и нанотехнологии (ИТНТ-2017) - сборник трудов III международной конференции и молодежной школы. Самарский национальный исследовательский университет имени академика С.П. Королева. 2017. - Предприятие "Новая техника" (Самара), 2017. - с. 1770-1773. - Текст : непосредственный.
4. Кононова, Н.В. Исследование подсистемы контентной фильтрации с использованием методов машинного обучения / Н.В. Кононова, Ю.А. Андрусенко, Т.А. Самокаева // Студенческая наука для развития информационного общества - сборник материалов VI Всероссийской научно-технической конференции. 22-26 мая 2017. - Северо-Кавказский федеральный университет (Ставрополь), 2017. - с. 268-270. - Текст : непосредственный.
5. Мелдебай, М.А. Анализ мнений покупателей на основе машинного обучения / М.А. Мелдебай, А.К. Сарбасова // Прикладная математика и информатика: современные исследования в области естественных и технических наук - материалы III научно-практической всероссийской конференции (школы-семинара) молодых ученых. 24-25 апреля 2017 года. - Издатель Качалин Александр Васильевич, 2017. - с. 360­363. - Текст : непосредственный.
6. Наумов, Д.П. Регулятор CAP на основе машинного обучения / Д.П. Наумов, Д.П. Стариков // Информационные технологии в управлении, автоматизации и мехатронике - сборник научных трудов Международной научно-технической конференции. 06-07 апреля 2017 года. - ЗАО "Университетская книга" (Курск), 2017. - с. 106-114. - Текст : непосредственный.
7. Осколков, В.М. Использование метода машинного обучения для повышения продуктивности на предприятии / В.М. Осколков, Н.И. Шаханов, И.А. Варфоломеев, О.В. Юдина, Е.В. Ершов // Автоматизация и энергосбережение машиностроительного и металлургического производств, технология и надежность машин, приборов и оборудования - материалы XII Международной научно-технической конференции, 21 марта 2017. - Вологодский государственный университет (Вологда), 2017. - с. 177-180. - Текст : непосредственный.
8. Осколков, В.М. Применение параллельных вычислений для прогнозирования на основе алгоритма машинного обучения Random Forest / В.М. Осколков, Н.И. Шаханов, И.А. Варфоломеев, О.В. Юдина, Л.Н. Виноградова, Е.В. Ершов // Сборник трудов конференции Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание, Курск, 16-19 мая 2017 года. - Юго-Западный государственный университет (Курск), 2017. - c. 267-269. - Текст: непосредственный.
9. Соловьев, А.Ю. Применение машинного обучения для прогнозирования неблагоприятных исходов в ургентной хирургии / Соловьев А.Ю., Берегов М.М., Вахеева Ю.М., Баутин А.Н., Гусев А.В. // Медико­биологические, клинические и социальные вопросы здоровья и патологии человека - материалы III Всероссийской образовательно-научной конференции студентов и молодых ученых с международным участием в рамках XIII областного фестиваля "Молодые ученые - развитию Ивановской области". 2017. - Ивановская государственная медицинская академия (Иваново), 2017. - с. 129-130. - Текст : непосредственный.
10. Ткач, Т.Ч. Машинное обучение и обработка больших данных - обучение в основной и средней школе / Т.Ч. Ткач // Актуальные проблемы методики обучения информатике и математике в современной школе - материалы международной научно-практической интернет-конференции. Московский педагогический государственный университет, Москва, 24 апреля 2020 года. - Московский педагогический государственный университет (Москва), 2020. - с. 217-223. - Текст : непосредственный.
11. Федотов, И.А. Применение технологий машинного обучения для прогнозирования ситуации на финансовых рынках / И.А. Федотов // Студенческая наука для развития информационного общества - сборник материалов VI Всероссийской научно-технической конференции. 22-26 мая 2017. - Северо-Кавказский федеральный университет (Ставрополь), 2017. - с. 361-363. - Текст : непосредственный.
12. Якимчук, А.А. Глубокое обучение как эффективный метод машинного обучения / А.А. Якимчук // Научное сообщество студентов XXI столетия. Технические науки - сборник статей по материалам XCII студенческой международной научно-практической конференции. 2020. - ООО “Сибирская академическая книга” (Новосибирск), 2020. - с. 40-43. - Текст : непосредственный.
13. Filipczuk P. Automatic Breast Cancer Diagnosis Based on K-Means Clustering and Adaptive Thresholding Hybrid Segmentation [Text] / Pawel Filipczuk, Marek Kowal, Andrzej Obuchowicz // Image Processing and Communications Challenges 3 - Advances in Intelligent and Soft Computing - Springer-Verlag Berlin Heidelberg 2011. - pp. 295-302. - Текст: непосредственный.
14. Fu L. A Robust Text Segmentation Approach in Complex Background Based on Multiple Constraints [Text] / Libo Fu, Weiqiang Wang, Yaowen Zhan // Pacific-Rim Conference on Multimedia - 6th Pacific Rim Conference on Multimedia, Jeju Island, Korea, November 13-16, 2005, Proceedings, Part I: Advances in Multimedia Information Processing - PCM 2005. - Springer-Verlag Berlin Heidelberg 2005. - pp. 594-605. - Текст : непосредственный.
15. Ghosh S. Aggregation Pheromone Density Based Image Segmentation [Text] / Susmita Ghosh, Megha Kothari, Ashish Ghosh // 5th Indian Conference, ICVGIP 2006, Madurai, India, December 13-16, 2006. Proceedings - Computer Vision, Graphics and Image Processing. - Springer-Verlag Berlin Heidelberg 2006. - pp. 118-127. - Текст : непосредственный.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ