Реферат 2
Введение 4
Глава 1 Бинарные объекты и задача их классификации 7
1.1 Представление данных 7
1.2 Дихотомический классификатор 9
Глава 2 Исследование дихотомического классификатора бинарных объектов с искажениями 11
2.1 Постановка задачи оценки качества классификации бинарных объектов с искажениями 11
2.2 Аналитический метод анализа работы классификатора при искаженных бинарных объектах 12
2.3 Экспериментальный метод анализа работы классификатора при бинарных объектах с
искажениями 18
ГЛАВА 3 Исследование дихотомического классификатора бинарных объектов с ошибками (искажёнными и пропущенными данными) 21
3.1 Постановка задачи оценки качества классификации бинарных объектов с ошибками 21
3.2 Экспериментальный метод анализа работы классификатора при бинарных объектах с
ошибками 23
Глава 4 Разработка приложения для исследования работы классификатора 26
4.1 Требования к системе 26
4.2 Инструменты разработки 26
4.3 Общая модель 26
4.4 Обработка событий 28
ГЛАВА 5 РАБОТА С ПРИЛОЖЕНИЕМ 35
Заключение 40
Список использованных источников и литературы 41
В современной науке, такой как интеллектуальный анализ данных, активно решаются задачи классификации, кластеризации и прогнозирования, применяемые для выявления неявных закономерностей и свойств, присутствующих в данных.
В данной работе, исследуется задача классификации данных. В общем виде задача классификации заключается в том, чтобы определить, к какому классу (типу, категории) относятся те или иные данные в соответствии с некоторым набором атрибутов (признаков). Тут же надо уточнить, что каждый объект принадлежит одному и только одному из заранее известных классов.
Существует огромное количество задач классификаций, возникающих в самых различных сферах. Например, банковский сектор (определение кредитоспособности клиента), медицинский сектор (диагностика,
классификация клеток крови) и т.д. А необходимость решения таких задач, как распознавание речи, текстов, образов, которые также являются задачами классификации, могут возникнуть в совершенно любой сфере.
Сами классифицируемые данные могут быть очень различными и добываться почти повсеместно, начиная с сенсорных сетей на Марсе, заканчивая опросами общественного мнения по социально-общественным вопросам.
В реальном мире многие из них имеют общий недостаток - отсутствие (неизвестность, потеря) данных или их искажение (случайная замена/ошибочный выбор результатов). Все это в общем называется ошибками в данных, и дальше приведены примеры подобных случаев. В промышленном эксперименте некоторые результаты могут отсутствовать из- за механических/электронных сбоев в процессе сбора данных. В медицинской диагностике некоторые тесты не могут быть выполнены, потому что либо в больнице отсутствует необходимое медицинское оборудование, либо некоторые медицинские тесты могут не подходить для определенных пациентов. В этом же контексте другим примером может быть осмотр врача, который проводит различные виды диагностики и по какому-то человеческому фактору пропускает некоторые значения признаков или записывает неверный результат, вследствие чего возникают ошибки. Также некоторые результаты тестов могут быть доступны мгновенно, другие - только через несколько дней. Во всяком случае, может возникнуть необходимость немедленно получить предварительный диагноз на основе только тех результатов, которые уже доступны. В социальном опросе респонденты могут отказаться отвечать на некоторые вопросы. Данная тема недостающих данных широко освещалась в литературе статистического анализа [1, 2, 3], а также в литературе по распознаванию образов.
Из-за неверных данных, в принципе правильно работающий алгоритм классификации может выдать неверный результат. Источниками «грязных» данных могут быть поврежденные инструменты сбора данных, проблемы во введении исходных данных, проблемы в каналах передачи данных , «человеческий фактор», и т.п. В таких случаях практичность алгоритма сводится к нулю и возникает ошибка уже самого классификатора (алгоритма классификации). В случаях, когда происходят только искажения значений признаков в наблюдаемом объекте, классификатор может однозначно определить его класс, который может оказаться правильным (если искаженный объект принадлежит тому же классу, что и исходный) или неправильным (класс искаженного объекта отличается от класса исходного объекта). При неправильном определении класса считается, что классификатор совершил ошибку. При потере значений признаков обработка данных немного сложнее (стр. 23), так как неправильное обращение с отсутствующими данными может привести к более частым ошибкам классификации. Так как это наиболее распространенная проблема в реальных данных, имеется большое количество работ, посвященных анализу влияния искажений признаков [4,5] и пропусков признаков на качество классификации объектов [6,7,8].
В данной работе мы постараемся исследовать вероятность ошибки классификатора (вероятность неправильного определения класса объекта) при различных вероятностях ошибки в данных.
Цель работы состоит в том, чтобы смоделировать дихотомические классификаторы и исследовать вероятности ошибок классификации бинарных объектов при наличии ошибок в данных.
Для достижения поставленной цели требуется решить следующие задачи:
1. разобрать и описать поставленные требования;
2. задать алгоритм работы дихотомического классификатора;
3. реализовать приложение;
4. получить результаты исследования.
В результате проделанной работы была достигнута поставленная цель, а именно: смоделирован дихотомический классификатор и исследованы вероятности его ошибок на основе бинарных объектов при наличии ошибок в них. Кроме того, все задачи выпускной квалификационной работы решены, а именно:
1. разобраны и описаны поставленные требования;
2. задан алгоритм работы дихотомического классификатора;
3. реализовано приложение;
4. получены результаты исследования.
Приложение может быть полезно для специалистов, занимающиеся задачами классификации, а также для исследователей в области имитационного моделирования.
В дальнейшем планируется усовершенствование приложения. Например, добавление аналитического метода анализа работы дихотомического классификатора при наблюдении бинарных объектов с ошибками.
1 Little RJA, Rubin DB (2002) Statistical analysis with missing data, 2nd edn. Wiley, New Jersey MATHGoogle Scholar
2 Schafer JL (1997) Analysis of incomplete multivariate data. Chapman & Hall, FloridaMATHGoogle Scholar
3 Allison PD (2001) Missing data. Sage university papers series on
quantitative applications in the social sciences. Thousan Oaks,
CaliforniaGoogle Scholar
4 Мерков А.Б. Распознавание образок. Введение в метода статического обучения. М.:Едиториал УРСС, 2011. 256 с.
5 Pedro J. Garcia Laencina, Jose Luis Sancho-Gomez, Anibal R. Figueiras- Vidal. Pattern classification with missing data: A review // Neural Computing and Applications. 2010. Vol. 19(2). Pp. 263-282.
6 Little R. J. A. and Rubin D. B. Statistical Analysis with Missing Data. Wiley Series in Probability and Statistics. New York: Wiley, 2-nd edition, 2002. 278 pp.
7 Alireza Farhangfara, Lukasz Kurganb, Jennifer Dyc. Impact of imputation of missing values on classification error for discrete data // Pattern Recognition. 2008. Vol. 41. Pp. 3692-3705.
8 Васин В. А., Ивашов Е. Н., Степанчиков С. В. Особенности распознавания образов в кластерных системах обработки информации // Вопросы защиты информации. 2013. №1 С.52-60
9 Двоичное кодирование графики [Электронный ресурс] // Теория информатики - [Б.м., б.г.] - URL: http://informatika.sch880.ru/p22aa1.html
10 Таблично-волновой синтез [Электронный ресурс] // Создание электронной музыки - [Б.м., б.г.] - URL: http://fierymusic.ru/rabota-so- zvukom/sintez-zvuka/wavetable
11 Понятие данных и информации [Электронный ресурс] // Пособие для
изучающих дисциплину «Информатика» - [Б.м., б.г.] - URL:
http://vtit.kuzstu.ru/books/shelf/book4/doc/chapter_3.html
12 Понятие разбиения множества на классы [Электронный ресурс] //
Пособие по основным дисциплинам - [Б.м., б.г.] - URL:
http: //uchilok. net/matematika/928-ponj atie-razbienij a-mnozhestva-na- klassy.html
13 Дихотомия [Электронный ресурс] // Википедия - [Б.м., б.г.] - URL: https://ru.wikipedia. org/wiki/%D0%94%D0%B8%D 1 %85%D0%BE%D 1 % 82%D0%BE%D0%BC%D0%B8%D 1 %8F '
14 Кудрявцев В. Б., Андреев А. Е., Гассанов Э. Э. Теория тестового распознавания. М.; Физматлит, 2007. 320 с.
15 Теорема умножения вероятностей [Электронный ресурс] //
Образовательный онлайн сервис - [Б.м., б.г.] - URL:
http://www. webmath. ru/poleznoe/formules_19_16.php...20