Тема: Задача медицинской диагностики по выборке без учителя
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Общая постановка задачи кластеризации 6
1.1 Задача машинного обучения 6
1.2 Постановка задачи классификации 11
1.3 Задача кластеризации. Методы решения задачи 13
1.4 Задача из репозитория данных 15
1.5 Выводы 20
2 Решение задачи кластеризации 21
2.1 FOREL 21
2.2 Нейронная сеть Кохонена 26
2.3 Алгоритм минимального покрывающего дерева 30
2.4 Алгоритм минимальной выборки 35
2.5 Выводы 37
3 Практическое применение 38
3.1 Выборка - Iris Data Set 38
3.2 Выборка - Breast Cancer Wisconsin (Original) Data Set 41
3.3 Выборка - Breast Cancer Wisconsin (Diagnostic) Data Set 43
3.4 Выводы 46
ЗАКЛЮЧЕНИЕ 47
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 48
ПРИЛОЖЕНИЕ А Техническое задание 49
📖 Введение
Одним из методов машинного обучения является кластерный анализ. Этот метод имеет широкое применение в различных дисциплинах: психологии, археологии, химия, медицине и многих других дисциплинах. Кластеризацию определяют как разбиение выборки объектов на неопределенное количество непересекающихся подмножеств, называющиеся кластерами, так что бы каждый кластер состоял из объектов по схожим признакам, а объекты разных кластеров имели существенные отличительные признаки. Разбиение выборки объектов на группы по схожести признаков упрощает дальнейшую работу с таким группами и позволяет применять к каждому кластеру свой метод анализа, что способствует ускорению обработки данных.
На сегодняшний день машинное обучение встречается во многих задачах, одной из таких задач является медицинская диагностика. Эта задача подразумевает под собой выявление заболеваний и степени инвалидностей, распознавание болезней через изменение характеристик пациента с целью выявления и прогнозирования болезни на ранних стадиях. Данная задача является очень важной, так как от точности решения такой задача зависит очень многое. Если для технической диагностики ошибка в 2% считается допустимой, то для задачи, в которой исследуется человеческое здоровье, это непозволительно.
Для задач медицинской диагностики используются данные большой размерности, которые представлены различными характеристиками пациентов. Эти данные имеют ряд особенностей:
• качественный характер информации;
• наличие пропусков данных;
• большое число переменных при небольшом наблюдении;
• ограниченное число наблюдений.
Для работы из репозитория данных был выбран набор медицинских данных «Диагностика рака молочной железы Висконсин». Этот набор данных представляет собой 569 экземпляров и 32 атрибута реальных данных.
В выборке имеются пропуски: в 17 экземплярах отсутствует по одному различному атрибуту.
В последние годы для задачи медицинской диагностики разработано множество различных решений, методов и алгоритмов, которые включают в себя изучение выбранной задачи, сбор данных и различных характеристик, написание алгоритма или метода, а так же проверку правильности его работы.
Целью работы является повышение точности решения задачи медицинской диагностики с помощью методов кластеризации.
Для достижения поставленной цели необходимо выполнить следующие задачи:
• изучить существующие методы кластеризации;
• реализовать и исследовать алгоритмы кластеризации: FOREL, алгоритм минимальной выборки, алгоритм минимального покрывающего дерева;
• исследовать работу алгоритма нейронная сеть Кохонена с использованием аналитической платформы Deductor Academic 5.3;
• проанализировать особенности работы алгоритмов на модельных и реальных данных;
Данная работа является исследовательской и может быть полезна при решении задачи медицинской диагностики.
✅ Заключение
Алгоритмы FOREL и минимального покрывающего дерева показали не способность работать с выборкой больших данных или близко расположенных кластеров. Алгоритм минимальной выборки, верно определив 524 из 569 объектов, показал удовлетворительный результат. Нейронные сетей Кохонена показал лучший результат, но присутствие ошибок первого и второго рода снижает качество его работы.
Для задачи медицинской диагностики очень важно не только правильно распределить выборку по кластерам, но и не допустить ошибок первого и второго рода.



