Реферат 2
Введение 4
Глава 1 Бинарные объекты и задача их классификации 7
1.1 Представление данных 7
1.2 Дихотомический классификатор 9
Глава 2 Исследование дихотомического классификатора бинарных объектов с искажениями 11
2.1 Постановка задачи оценки качества классификации бинарных объектов с искажениями 11
2.2 Аналитический метод анализа работы классификатора при искаженных бинарных объектах 12
2.3 Экспериментальный метод анализа работы классификатора при бинарных объектах с
искажениями 18
ГЛАВА 3 Исследование дихотомического классификатора бинарных объектов с ошибками (искажёнными и пропущенными данными) 21
3.1 Постановка задачи оценки качества классификации бинарных объектов с ошибками 21
3.2 Экспериментальный метод анализа работы классификатора при бинарных объектах с
ошибками 23
Глава 4 Разработка приложения для исследования работы классификатора 26
4.1 Требования к системе 26
4.2 Инструменты разработки 26
4.3 Общая модель 26
4.4 Обработка событий 28
ГЛАВА 5 РАБОТА С ПРИЛОЖЕНИЕМ 35
Заключение 40
Список использованных источников и литературы 41
В современной науке, такой как интеллектуальный анализ данных, активно решаются задачи классификации, кластеризации и прогнозирования, применяемые для выявления неявных закономерностей и свойств, присутствующих в данных.
В данной работе, исследуется задача классификации данных. В общем виде задача классификации заключается в том, чтобы определить, к какому классу (типу, категории) относятся те или иные данные в соответствии с некоторым набором атрибутов (признаков). Тут же надо уточнить, что каждый объект принадлежит одному и только одному из заранее известных классов.
Существует огромное количество задач классификаций, возникающих в самых различных сферах. Например, банковский сектор (определение кредитоспособности клиента), медицинский сектор (диагностика,
классификация клеток крови) и т.д. А необходимость решения таких задач, как распознавание речи, текстов, образов, которые также являются задачами классификации, могут возникнуть в совершенно любой сфере.
Сами классифицируемые данные могут быть очень различными и добываться почти повсеместно, начиная с сенсорных сетей на Марсе, заканчивая опросами общественного мнения по социально-общественным вопросам.
В реальном мире многие из них имеют общий недостаток - отсутствие (неизвестность, потеря) данных или их искажение (случайная замена/ошибочный выбор результатов). Все это в общем называется ошибками в данных, и дальше приведены примеры подобных случаев. В промышленном эксперименте некоторые результаты могут отсутствовать из- за механических/электронных сбоев в процессе сбора данных. В медицинской диагностике некоторые тесты не могут быть выполнены, потому что либо в больнице отсутствует необходимое медицинское оборудование, либо некоторые медицинские тесты могут не подходить для определенных пациентов. В этом же контексте другим примером может быть осмотр врача, который проводит различные виды диагностики и по какому-то человеческому фактору пропускает некоторые значения признаков или записывает неверный результат, вследствие чего возникают ошибки. Также некоторые результаты тестов могут быть доступны мгновенно, другие - только через несколько дней. Во всяком случае, может возникнуть необходимость немедленно получить предварительный диагноз на основе только тех результатов, которые уже доступны. В социальном опросе респонденты могут отказаться отвечать на некоторые вопросы. Данная тема недостающих данных широко освещалась в литературе статистического анализа [1, 2, 3], а также в литературе по распознаванию образов.
Из-за неверных данных, в принципе правильно работающий алгоритм классификации может выдать неверный результат. Источниками «грязных» данных могут быть поврежденные инструменты сбора данных, проблемы во введении исходных данных, проблемы в каналах передачи данных , «человеческий фактор», и т.п. В таких случаях практичность алгоритма сводится к нулю и возникает ошибка уже самого классификатора (алгоритма классификации). В случаях, когда происходят только искажения значений признаков в наблюдаемом объекте, классификатор может однозначно определить его класс, который может оказаться правильным (если искаженный объект принадлежит тому же классу, что и исходный) или неправильным (класс искаженного объекта отличается от класса исходного объекта). При неправильном определении класса считается, что классификатор совершил ошибку. При потере значений признаков обработка данных немного сложнее (стр. 23), так как неправильное обращение с отсутствующими данными может привести к более частым ошибкам классификации. Так как это наиболее распространенная проблема в реальных данных, имеется большое количество работ, посвященных анализу влияния искажений признаков [4,5] и пропусков признаков на качество классификации объектов [6,7,8].
В данной работе мы постараемся исследовать вероятность ошибки классификатора (вероятность неправильного определения класса объекта) при различных вероятностях ошибки в данных.
Цель работы состоит в том, чтобы смоделировать дихотомические классификаторы и исследовать вероятности ошибок классификации бинарных объектов при наличии ошибок в данных.
Для достижения поставленной цели требуется решить следующие задачи:
1. разобрать и описать поставленные требования;
2. задать алгоритм работы дихотомического классификатора;
3. реализовать приложение;
4. получить результаты исследования.
В результате проделанной работы была достигнута поставленная цель, а именно: смоделирован дихотомический классификатор и исследованы вероятности его ошибок на основе бинарных объектов при наличии ошибок в них. Кроме того, все задачи выпускной квалификационной работы решены, а именно:
1. разобраны и описаны поставленные требования;
2. задан алгоритм работы дихотомического классификатора;
3. реализовано приложение;
4. получены результаты исследования.
Приложение может быть полезно для специалистов, занимающиеся задачами классификации, а также для исследователей в области имитационного моделирования.
В дальнейшем планируется усовершенствование приложения. Например, добавление аналитического метода анализа работы дихотомического классификатора при наблюдении бинарных объектов с ошибками.