Тема: Анализ спектров комбинационного рассеяния с помощью алгоритмов машинного обучения
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 7
1 АНАЛИЗ ПРОБЛЕМЫ ОНКОЛОГИЧЕСКИХ ЗАБОЛЕВАНИЙ И МЕТОДОВ ДИАГНОСТИКИ 10
1.1 Онкологические заболевания. Классификация рака 10
1.2 Рак кожи. Базально-клеточная карцинома, меланома, сквамозноклеточная карцинома 11
1.3 Статистика заболеваний за 2017-2018 год 13
1.4 Методы диагностики онкологических заболеваний кожи 15
1.5 Спектроскопия комбинационного рассеяния, как метод диагностики онкологических заболеваний кожи 18
1.6 Анализ разработанных решений 20
2 АНАЛИЗ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ 21
2.1 Формальное определение задачи классификации 21
2.2 Предобработка входных данных 22
2.3 Алгоритмы машинного обучения 24
2.4 Сравнительный анализ моделей машинного обучения 33
2.5 Подбор параметров моделей машинного обучения 37
3 ФОРМИРОВАНИЕ И ТЕСТИРОВАНИЕ АНСАМБЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ 42
3.1 Метрики анализа качества классификации 42
3.2 Формирование и тестирование ансамбля алгоритмов машинного обучения на входных данных 46
ЗАКЛЮЧЕНИЕ 61
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 62
ПРИЛОЖЕНИЕ А 65
ПРИЛОЖЕНИЕ Б 74
📖 Введение
Общее число онкологических заболеваний выросло на 3% за 2017 год (с 599,3 тыс. до 617,2 тыс.) Диагноз - новообразование кожи не первый раз становится лидером, такая же ситуация складывалась в 2014-2016 годах. [9]
Рак кожи - это обобщенное название большого количества разновидностей злокачественных опухолей. Каждая опухоль имеет свои специфические биологические особенности: клиническое проявление, тканевую структуру, метастазирование и т.д.
Существует три основных типа рака кожи: базальноклеточный рак, плоскоклеточный рак и злокачественная меланома. Среди всех раков кожи злокачественная меланома кожи является наиболее опасным видом рака, так как в подавляющем большинстве случаев приводит к гибели пациентов, особенно при обнаружении патологии на поздней стадии. При этом заболеваемость и смертность от меланомы кожи увеличивается в большинстве стран по всему миру.
Трудности диагностики меланом врачами общей практики связаны со сложностью в интерпретации клинических признаков опухоли и невозможностью отличить меланому от доброкачественных пигментных образований на ранней стадии развития. Также при подозрении на наличие меланомы медицинский персонал лишён возможности использования инвазивных методов исследования, таких как биопсия с гистологическим или цитологическим исследованием, в связи с повышенным риском прогрессирования поражений. В этой связи оптические методы имеют огромный потенциал для неинвазивного выявления и определения конкретного типа опухолевых образований в тканях кожи с применением инструментальных методов.
Наиболее широко развивающимися в этой области являются методы оптической спектроскопии, они позволяют неинвазивно диагностировать раковые опухоли. Сегодня в арсенале ученых существует несколько способов спектроскопического анализа биологических сред - спектроскопия обратного рассеяния, автофлуоресценция, спектроскопия комбинационного рассеяния (КР), отражательная спектроскопия и другие. [14]
При выполнении бакалаврской работы использовались объектно-ориентированный язык программирования Python 3.7.3, библиотека для машинного обучения с открытым исходным кодом Scikit-learn V0.21.2, среда разработки Announcing Anaconda Enterprise 5.3 и облачный сервис Google Colaboratory с интерактивной оболочкой Jupyter Notebook.
Проект разрабатывается при поддержке Самарского национального исследовательского университета имени академика С.П. Королева, материалы для исследования предоставлены ГБУЗ Самарским областным клиническим онкологическим диспансером.
Цель выпускной квалификационной работы - повышение качества дифференциации злокачественных новообразований кожи на спектрах комбинационного рассеяния с помощью алгоритмов машинного обучения.
Задачи выпускной квалификационной работы - подготовка входных данных, тестирование моделей машинного обучения на задаче классификации результатов спектроскопии комбинационного рассеяния, разработка ансамбля алгоритмов машинного обучения, тестирование ансамбля на результатах спектроскопии комбинационного рассеяния.
Объект исследования - процесс дифференциации образцов биоткани по результатам спектроскопии комбинационного рассеяния.
Предмет исследования - алгоритмы машинного обучения.
Выпускная квалификационная работа состоит из введения, трех глав и заключения.
Во введении описывается актуальность рассматриваемой темы, определяются объект и предмет выпускной квалификационной работы, ставится цель и выявляются задачи.
В первой главе обосновывается актуальность проделанной работы, анализируется проблема онкологии, представляется статистика заболеваний за 2017-2018 года, проанализированы текущие исследования и разработки в данной области.
Во второй главе описываются отобранные алгоритма машинного обучения, так же подготавливаются наборы данных для их обучения. Происходит обучение моделей и сравнительный анализ точности классификации, а также отбор лучших моделей классификации.
В третьей главе происходит формирование ансамбля из отобранных алгоритмов классификации и его тестирование на основе подготовленных наборов данных.
В заключении подводятся итоги исследования, формируются окончательные выводы по рассматриваемой теме.
✅ Заключение
Для решения задачи был привлечен один из методов диагностики онкологии - спектроскопия комбинационного рассеяния. Полученные данные, то есть спектр КР, были преобразованы в необходимую форму для использования в алгоритмах машинного обучения.
Были поставлены и выполнены следующие задачи - подготовка входных данных, тестирование моделей машинного обучения на задаче классификации результатов спектроскопии комбинационного рассеяния, разработка ансамбля алгоритмов машинного обучения, тестирование ансамбля на результатах спектроскопии комбинационного рассеяния.
В качестве инструментов решения поставленной задачи были использованы объектно-ориентированный язык программирования Python 3.7.3, библиотека для машинного обучения Scikit-learn V0.21.2, среда разработки Announcing Anaconda Enterprise 5.3 и облачный сервис Google Colaboratory с интерактивной оболочкой Jupyter Notebook.
На начальном этапе было проведено обучение 16 моделей классификации, проанализирована точность работы алгоритмов, проведен отбор классификаторов с наиболее высокой оценкой разбиения данных по классам с последующим подборов лучших параметров классификации.
Заключительным этапом был анализ кривых валидации и обучения отобранных классификаторов, формирование ансамбля и его тестирование на входных данных. Результаты: точность классификации - 87%, полнота - 85%, гармоническое среднее между точностью и полнотой (мера F1) - 86%.
Анализ кривых валидации и обучения указал на малый размер тренировочных данных и, для некоторых случаев, высокую сложность модели, что привело к падению точности классификации.





