Аннотация 2
ВВЕДЕНИЕ 7
1 АНАЛИЗ ПРОБЛЕМЫ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ И МЕТОДОВ ДИАГНОСТИКИ 10
1.1 Онкологические заболевания. Классификация рака 10
1.2 Рак кожи. Базально-клеточная карцинома, меланома, сквамозноклеточная карцинома 11
1.3 Статистика заболеваний за 2017-2018 год 13
1.4 Методы диагностики онкологических заболеваний кожи 15
1.5 Спектроскопия комбинационного рассеяния, как метод диагностики онкологических заболеваний кожи 18
1.6 Анализ разработанных решений 20
2 АНАЛИЗ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ 21
2.1 Формальное определение задачи классификации 21
2.2 Предобработка входных данных 22
2.3 Алгоритмы машинного обучения 24
2.4 Сравнительный анализ моделей машинного обучения 33
2.5 Подбор параметров моделей машинного обучения 37
3 ФОРМИРОВАНИЕ И ТЕСТИРОВАНИЕ АНСАМБЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ 42
3.1 Метрики анализа качества классификации 42
3.2 Формирование и тестирование ансамбля алгоритмов машинного обучения на входных данных 46
ЗАКЛЮЧЕНИЕ 61
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 62
ПРИЛОЖЕНИЕ А 65
ПРИЛОЖЕНИЕ Б 74
За 2017 год, как сообщает Министерство здравоохранения, самым частым онкологическим заболеванием стал рак кожи.
Общее число онкологических заболеваний выросло на 3% за 2017 год (с 599,3 тыс. до 617,2 тыс.) Диагноз - новообразование кожи не первый раз становится лидером, такая же ситуация складывалась в 2014-2016 годах. [9]
Рак кожи - это обобщенное название большого количества разновидностей злокачественных опухолей. Каждая опухоль имеет свои специфические биологические особенности: клиническое проявление, тканевую структуру, метастазирование и т.д.
Существует три основных типа рака кожи: базальноклеточный рак, плоскоклеточный рак и злокачественная меланома. Среди всех раков кожи злокачественная меланома кожи является наиболее опасным видом рака, так как в подавляющем большинстве случаев приводит к гибели пациентов, особенно при обнаружении патологии на поздней стадии. При этом заболеваемость и смертность от меланомы кожи увеличивается в большинстве стран по всему миру.
Трудности диагностики меланом врачами общей практики связаны со сложностью в интерпретации клинических признаков опухоли и невозможностью отличить меланому от доброкачественных пигментных образований на ранней стадии развития. Также при подозрении на наличие меланомы медицинский персонал лишён возможности использования инвазивных методов исследования, таких как биопсия с гистологическим или цитологическим исследованием, в связи с повышенным риском прогрессирования поражений. В этой связи оптические методы имеют огромный потенциал для неинвазивного выявления и определения конкретного типа опухолевых образований в тканях кожи с применением инструментальных методов.
Наиболее широко развивающимися в этой области являются методы оптической спектроскопии, они позволяют неинвазивно диагностировать раковые опухоли. Сегодня в арсенале ученых существует несколько способов спектроскопического анализа биологических сред - спектроскопия обратного рассеяния, автофлуоресценция, спектроскопия комбинационного рассеяния (КР), отражательная спектроскопия и другие. [14]
При выполнении бакалаврской работы использовались объектно-ориентированный язык программирования Python 3.7.3, библиотека для машинного обучения с открытым исходным кодом Scikit-learn V0.21.2, среда разработки Announcing Anaconda Enterprise 5.3 и облачный сервис Google Colaboratory с интерактивной оболочкой Jupyter Notebook.
Проект разрабатывается при поддержке Самарского национального исследовательского университета имени академика С.П. Королева, материалы для исследования предоставлены ГБУЗ Самарским областным клиническим онкологическим диспансером.
Цель выпускной квалификационной работы - повышение качества дифференциации злокачественных новообразований кожи на спектрах комбинационного рассеяния с помощью алгоритмов машинного обучения.
Задачи выпускной квалификационной работы - подготовка входных данных, тестирование моделей машинного обучения на задаче классификации результатов спектроскопии комбинационного рассеяния, разработка ансамбля алгоритмов машинного обучения, тестирование ансамбля на результатах спектроскопии комбинационного рассеяния.
Объект исследования - процесс дифференциации образцов биоткани по результатам спектроскопии комбинационного рассеяния.
Предмет исследования - алгоритмы машинного обучения.
Выпускная квалификационная работа состоит из введения, трех глав и заключения.
Во введении описывается актуальность рассматриваемой темы, определяются объект и предмет выпускной квалификационной работы, ставится цель и выявляются задачи.
В первой главе обосновывается актуальность проделанной работы, анализируется проблема онкологии, представляется статистика заболеваний за 2017-2018 года, проанализированы текущие исследования и разработки в данной области.
Во второй главе описываются отобранные алгоритма машинного обучения, так же подготавливаются наборы данных для их обучения. Происходит обучение моделей и сравнительный анализ точности классификации, а также отбор лучших моделей классификации.
В третьей главе происходит формирование ансамбля из отобранных алгоритмов классификации и его тестирование на основе подготовленных наборов данных.
В заключении подводятся итоги исследования, формируются окончательные выводы по рассматриваемой теме.
В ходе выпускной квалификационной работы была описана актуальность рассматриваемой темы, определены объект и предмет выпускной квалификационной, поставлена цель и выявлены задачи. Так же, было рассмотрено два различных подхода к дифференциации патологи.
Для решения задачи был привлечен один из методов диагностики онкологии - спектроскопия комбинационного рассеяния. Полученные данные, то есть спектр КР, были преобразованы в необходимую форму для использования в алгоритмах машинного обучения.
Были поставлены и выполнены следующие задачи - подготовка входных данных, тестирование моделей машинного обучения на задаче классификации результатов спектроскопии комбинационного рассеяния, разработка ансамбля алгоритмов машинного обучения, тестирование ансамбля на результатах спектроскопии комбинационного рассеяния.
В качестве инструментов решения поставленной задачи были использованы объектно-ориентированный язык программирования Python 3.7.3, библиотека для машинного обучения Scikit-learn V0.21.2, среда разработки Announcing Anaconda Enterprise 5.3 и облачный сервис Google Colaboratory с интерактивной оболочкой Jupyter Notebook.
На начальном этапе было проведено обучение 16 моделей классификации, проанализирована точность работы алгоритмов, проведен отбор классификаторов с наиболее высокой оценкой разбиения данных по классам с последующим подборов лучших параметров классификации.
Заключительным этапом был анализ кривых валидации и обучения отобранных классификаторов, формирование ансамбля и его тестирование на входных данных. Результаты: точность классификации - 87%, полнота - 85%, гармоническое среднее между точностью и полнотой (мера F1) - 86%.
Анализ кривых валидации и обучения указал на малый размер тренировочных данных и, для некоторых случаев, высокую сложность модели, что привело к падению точности классификации.
1. Nilsson, R., Pena, J.M., Bjorkegren, J., Tegner, J.: Consistent feature selection for pattern recognition in polynomial time. The Journal of Machine Learning Research 8, 2017. - 687 с.
2. Сержантов К.А. Автофлуоресцентный анализ кожных патологий, с использованием нейросетевого алгоритма: науч. работа /К.А. Сержантов, М.Г. Лисовская, В.П. Захаров, А.А. Морятов, С.В. Козлов / сборник статей «Информационные технологии в моделировании и управлении: подходы, методы, решения», 2017. - 256-263 с.
3. Chollet, F. Deep Learning with Python / Francois Chollet: - Manning Publications - December 22, 2016.
4. Guyon, I., Elisseeff, A.: An Introduction to Variable and Feature Selection. Journal of Machine Learning Research 3, 1157-1182, 2017.
5. X. Pan, Y. Luo, Y. Xu, “K-nearest neighbour based structural twin support vector machine,” KnowledgeBased Systems, vol. 88, pp. 34-44, 2015.
6. Газета «Комсомольская правда» Айна Утибаева [Электронный ресурс] - «Тревога: каждый 40-й житель Самарской области - на учете в онкологическом диспансере» от 09.10.16. URL: https://www.samara.kp.ru/daily/26592.7/3606520/ (дата обращения: 08.03.2019)
7. V. Utkin, Y. A. Zhuk, “An one-class classification support vector machine model by interval-valued training data,” Knowledge-Based Systems, vol. 120, pp. 43-56, 2015.
8. M. Baig, M .M. Awais, E. M. El-Alfy, “AdaBoost-based artificial neural network learning,” Neurocomputing, vol. 16, pp. 22 - 41, 2017.
9. Падило Л.П. ОНКОЛОГИЧЕСКИЕ ЗАБОЛЕВАНИЯ: ПРИЧИНЫ, ВИДЫ, ПРОФИЛАКТИКА, ЛЕЧЕНИЕ [Электронный ресурс]// Молодежный научный форум: Естественные и медицинские науки: электр. сб. ст. по мат. XXIV междунар. студ. науч.-практ. конф. № 5(23). URL: https://nauchforum.ru/archive/MNF_nature/5(23).pdf (дата обращения: 10.04.2019)
10. L. D. Miller and L. K. Soh, "Cluster-Based Boosting," IEEE Transactions on Knowledge and Data Engineering, vol. 27, pp. 1491-1504, 2015.
11. A. C. Bahnsen, D. Aouada, B. Ottersten, “Exampledependent cost-sensitive decision trees,” Expert Systems with Applications, vol. 42, pp. 6609-6619, 2015.
12. Y. Lertworaprachaya, Y. Yang, R. John, “Interval-valued fuzzy decision trees with optimal neighbourhood perimeter,” Applied Soft Computing, vol. 24, pp. 851- 866, 2014.
13. Holzinger, D. Blanchard, M. Bloice, K. Holzinger, V. Palade, R. Rabadan, “Darwin, Lamarck, or Baldwin: Applying Evolutionary Algorithms to Machine Learning Techniques”, International Joint Conferences on Web Intelligence and Intelligent Agent Technologies, 2014.
14. Ищеряков, С. Н. Развитие паллиативной помощи больным злокачественными новообразованиями в системе здравоохранения Самарской области / C. Н. Ищеряков, Э. М. Гимранова, А. А. Саланов // Управление качеством медицинской помощи. - 2012. - № 2. - С. 18-24.
15. Каприн А. Д., Старинский В. В., Петрова Г. В., ред. Злокачественные новообразования в России в 2012 году (заболеваемость и смертность). М.: ФГБУ «МНИОИ им П. А. Герцена» Минздрава России; 2015. 249 с.
...