Тип работы:	Предмет:	Язык работы:

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ БИНАРНОЙ КЛАССИФИКАЦИИ

Работа №	35546
Тип работы	Магистерская диссертация
Предмет	информатика
Объем работы	47
Год сдачи	2019
Стоимость	4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	312

Не подходит работа?

Узнай цену на написание

Содержание

ВВЕДЕНИЕ 3
1. Формулировка и методы решения задачи бинарной классификации 7
1.1. Задача бинарной классификации 7
1.2. Формулировка SVM 7
1.3. Обучение SVM 13
2. Экспериментальные исследования 20
2.1. Постановка экспериментов 20
2.2. Критерии качества модели 21
2.3. Статистический анализ 23
3. Детали имплементации 24
4. Результаты 31
4.1. Сравнение точности работы алгоритмов 31
4.2. Сравнение скорости сходимости алгоритмов 34
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 37
СПИСОК ИЛЛЮСТРИРОВАННОГО МАТЕРИАЛА 39
СПИСОК ТАБЛИЦ 40
ПРИЛОЖЕНИЕ. Листинг

Введение

В настоящее время во многих сферах жизни человека все более и более широкое применение находят методы искусственного интеллекта(ИИ). Они привели к существенным изменениям во многих отраслях промышленности, медицины, бизнеса и науки. Толчком этому послужило появление множества эффективных способов решений сложных задач, которые в свою очередь были найдены благодаря разработке новейших методов машинного обучения (например, глубокого обучения) и развитию технологий (например, вычислений на GPU).
Особую популярность ИИ имеют в области компьютерного зрения. Таким образом приложения ИИ получили особый стимул к развитию после запуска проекта ILSVRC (англ. ImageNet Large Scale Visual Recognition Challenge), в рамках которого сверточная нейронная сеть показала беспрецедентное улучшение качества классификации изображений в сравнении с существующими на тот момент методами машинного обучения.
Независимо от области, в которой они используются, множество приложений ИИ реализованы методами машинного обучения (см. Рис. 1). В частности, многие практические задачи, такие как обнаружение объекта на видеозаписи или прогнозирование реакции на лечение на основе генетической предрасположенности, сводятся к задаче классификации. В таком случае, для каждого интересующего нас объекта формируется вектор признаков, и каждому из них присваиваются метки класса. В большинстве случаев требуется решить задачу многоклассовой классификации, но бинарная классификация составляет базу для всех других видов классификации. Таким образом, задачу многоклассовой классификации можно свести к бинарной с использованием таких методов, как «один против всех».
Значительный вклад в теорию машинного обучения, в частности в классификацию объектов, внес Вапник В.М., который имел математический взгляд на задачу машинного обучения. Вапник предложил рассматривать обучение как задачу оптимизации [3], что дает возможность применить теорию оптимизации при разработке систем искусственного интеллекта. В данный момент машинное обучение включает в себя множество дисциплин, такие как математическая статистика, теория информации, теория алгоритмов, теория вероятностей и функциональный анализ.
В 1963 году Владимир Вапник и Алексей Червоненкис предложили метод построения оптимальной разделяющей гиперплоскости, который стал основой для разработки метода опорных векторов (англ. Support Vector Machine, SVM) [4]. Метод стал одним из самых популярных алгоритмов машинного обучения с учителем для классификации объектов. Реализовано множество успешных приложений, использующих в своей основе SVM и примененных в различных областях, как анализ изображений, распознавание символов, биоинформатика и классификация документов.
Часто, опираясь на регрессионный анализ или на свойства задачи регрессионного анализа, мы предполагаем для оценки отклонения при построении классификационной гиперплоскости использовать критерий минимизации суммы квадратов отклонений, то есть мы проводим гиперплоскость так, чтобы она на обучающей последовательности минимизировала сумму квадратов отклонений с двух сторон. Однако, стоит заметить, что это не единственный критерий, а также нам не известен тип и свойства данных, которые берутся для классификации.
Когда отклонения в обучающих данных небольшие, тогда метод наименьших квадратов дает улучшение при классификации. В том случае, когда есть достаточно большие выбросы, тогда используются другие критерии, например, негладкие или равномерные. Наша задача сравнить критерии разного типа, таким образом, наша задача состоит в том, чтобы сравнить известный традиционный критерий и новый нетрадиционный критерий. В данном случае мы берем критерий по минимизации максимального отклонения, который дает равномерное отклонение.
В данной работе были реализованы два линейных классификатора с наиболее распространенными критериями: базовый SVM, который использует минимизацию сумму квадратов отклонений, и модифицированный SVM с равномерными штрафами, то есть с критерием минимизации максимума отклонений. Для решения возникающих задач используются методы бикоординатного типа [5].
Одной из задач диссертационной работы является проведение сравнительного анализа двух реализованных нами алгоритмов бинарной классификации. В рамках наших экспериментов для обучения и тестирования моделей использовалась база данных «Ирисы Фишера», содержащая данные о трех видах ирисов (по 50 экземпляров каждый). В нашем случае перед нами стояла задача отделения вида «Ириса виргинского» (англ. Iris virginica) от двух других, «Ириса щетинистого» (англ. Iris setosa) и «Ириса разноцветного» (англ. Iris versicolor). Далее нами были сравнены точность и скорость схождения обученных классификаторов. Результаты наших экспериментов продемонстрировали статистически значимые улучшения нового классификатора как с точки зрения точности, так и скорости обучения, по сравнению с базовым алгоритмом SVM. Таким образом, этот метод может быть реализован в реальных приложениях, как более эффективный с точки
Цель нашей работы провести сравнительный анализ алгоритмов бинарной классификации.
В рамках нашей диссертационной работы получены следующие новые научные результаты:
- разработан алгоритм линейного SVM с равномерными штрафами;
- разработан алгоритм обучения для нового алгоритма SVM;
- проведен сравнительный анализ двух алгоритмов бинарной классификации.
Для решения поставленной задачи нами были применены методы теории оптимизации, машинного обучения и математической статистики. Для практической реализации были использованы современные методы программирования на языке Python в веб-оболочке Jupyter Notebook.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

При решении задач машинного обучения обычно приходится идти на компромисс между точностью алгоритма и скоростью его обучения, поскольку точные методы зачастую требуют больших вычислительных затрат. В этой работе мы разработали и реализовали новую модификацию алгоритма SVM. Данный метод показал улучшения показателей точности и скорости схождения алгоритма в сравнении со стандартным линейным SVM.
Наши эксперименты, проведенные на основе базы данных «Ирисы Фишера», демонстрируют, что новый алгоритм имеет статистически значимые улучшения показаний численных метрик качества классификации, таких как Accuracy, Precision и fl-score. Значение оценки Recall были на том же уровне, что и у стандартной модели SVM, то есть без существенных различий, что указывало на то, что источником значительного улучшения на 9,0% для показателя fl-score была метрика Precision (со статистически значимым улучшением на 14,0%). Данные результаты могут оказать положительное влияние на решение таких задач, как лабораторная диагностика по снимкам. Увеличение значения критерия Precision позволит снизить число ложной постановки диагноза, что в свою очередь поспособствует уменьшению числа пациентов, которым потребуются дальнейшие медицинские обследования. Это снизит как психологическое давление на них, так и финансовые затраты, связанные с проведением дополнительных тестов [13].
Количество итераций, необходимых для схождения метода, также оказывают влияние на выбор модели на практике. Как показывают результаты наших экспериментов, предлагаемый новый метод может уменьшить количество итераций со статистически значимой разницей. Таким образом, его имплементация в реальных приложениях и системах может потенциально снизить временные затраты на обучение. Для оценки качества работы алгоритмов был использован метод MCCV. Поскольку основной целью было сравнительное изучение двух алгоритмов, для того, чтобы сравнение было справедливым, оба метода были обучены и протестированы на одних и тех же наборах данных, а также были использованы одинаковые исходные параметры. Критерием оценки метрик качества методов послужил Т-критерий Вилкоксона.
В заключении нами была разработана и реализована новая модификация алгоритма линейного SVM: в предложенном методе используется новый способ регуляризации. Эксперименты с использованными данными продемонстрировали статистически значимые улучшения как с точки зрения точности, так и скорости обучения по сравнению с базовым алгоритмом SVM. Таким образом, этот метод может быть реализован в реальных приложениях.
Дальнейшая работа будет посвящена исследованию вопросов улучшения качества работы и реализации нового метода, формированию других критериев оценки отклонения классификатора SVM, а также анализу работы алгоритмов на разных типах распределения данных, определению случаев, когда проведение классификации предпочтительнее новым методом.

Литература

[1] LeCun Y., Bengio Y., and Hinton G. Deep learning// Nature. - 2015. - Vol.521,
- No. 7553. - P. 436-444.
[2] Russakovsky O. et al., ImageNet Large Scale Visual Recognition Challenge// Int J Comput Vis. - 2015. - Vol. 115. - No. 3. -P. 211-252.
[3] Cortes C. and V. Vapnik Support-Vector Networks// Machine Learning. - 1995.
- Vol. 20. - No. 3. - P. 273-297.
[4] Vapnik V. N. Statistical Learning Theory / Vladimir N. Vapnik. — [S.
I.] : Wiley-Interscience, 1998. - September. - ISBN: 0471030031.
[5] Корпелевич Г.М. Метод покоординатного спуска для задач минимизации с ограничениями линейных неравенств и матричных игр// Матем. мет. реш. экон. задач. - М.: Наука, 1980. - Вып. 9. - С. 84-97.
[6] Konnov I.V., Selective bi-coordinate variations for resource allocation type problems// Computational Optimization and Applications. - 2016. - Vol.64, Is.3.
- P.821-842.
[7] Platt J. C. Fast training support vector machines using sequential minimal optimization // Advances in Kernel Methods / Ed. by B. Scholkopf, C. C. Burges, A. J. Smola. - MIT Press, 1999. - P. 185-208.
[8] Osuna E., Freund R., Girosi F. An improved training algorithm for support vector machines // Neural Networks for Signal Processing VII. IEEE Workshop. - 1997. - P. 276-285.
[9] UCI Machine Learning Repository: Iris Data Set. [Электронный ресурс] - Режим доступа: http://archive.ics.uci.edu/ml/datasets/Iris. (Дата обращения: 21.05.2019).
[10] Fisher R. A. The Use of Multiple Measurements in Taxonomic Problems// Annals of Eugenics. - 1936. - Vol. 7. - No. 2. - P. 179-188.
[11] Wilcoxon F. Individual Comparisons by Ranking Methods// Biometrics Bulletin. - 1945. - Vol. 1. - No. 6. - P. 80-83.
[12] Benavoli A., Corani G., Demsar J., and Zaffalon M. Time for a change: a tutorial for comparing multiple classifiers through Bayesian analysis// arXiv:1606.04316 [cs, stat]. - 2016. - P. 1-36
[13] Vaccarella S., Franceschi S., Bray F.,Wild C. P., Plummer M., and Dal Maso L. Worldwide Thyroid-Cancer Epidemic? The Increasing Impact of Overdiagnosis// N. Engl. J. Med. - 2016 - Vol. 375. - No. 7. - P. 614-617.