Тип работы:
Предмет:
Язык работы:


Анализ онкологических патологий с использованием нейронных сетей

Работа №108462

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы102
Год сдачи2020
Стоимость4880 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
129
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1 Анализ проблемы онкологических заболеваний и методов
диагностики 9
1.1 Злокачественные опухоли 9
1.2 Классификация кожно-раковых патологий 13
1.2.1 Меланома 13
1.2.2 Невус 15
1.2.3 Диспластические меланоцитарные невусы 16
1.3 Метод проведения исследования 18
1.4 Спектроскопия комбинационного рассеивания 20
1.5 Способы анализа спектров комбинационного рассеивания 21
1.6 Машинное обучение и перспективы его использования в медицине ... 22
1.7 Примеры использования машинного обучения в медицине 25
Глава 2 Поиск решения задачи дифференциации кожных патологий с
использованием алгоритмов машинного обучения 30
2.1 Поиск оптимального подхода к дифференциации патологий по
спектрам комбинационного рассеивания 30
2.2 Составление математической модели 32
2.3 Методы предварительной обработки обучающих данных 34
2.4 Метод понижения размерности 36
2.5 Методы машинного обучения 37
2.5.1 Метод «Логическая регрессия» 38
2.5.2 Метод опорных векторов 40
2.5.3 Деревья принятия решений 42
2.5.4 Метод «k-ближайший сосед» 45
2.5.5 Наивный байесовский алгоритм 47
2.6 Ансамблирование классификаторов 49
2.7 Оценка качества работы классификаторов 50
Глава 3 Разработка системы дифференциации патологий 57
3.1 Общие сведения о системе дифференциации патологий 57
3.2 Выбор средств реализации 58
3.3 Разработка модуля предобработки данных 59
3.4 Разработка диаграммы классов 61
3.5 Разработка модуля уменьшения размерности 64
3.6 Разработка модуля обучение классификаторов 66
3.7 Разработка модуля ансамблирования классификаторов 68
3.8 Разработка модуля визуализации обучения классификаторов 69
Глава 4 Тестирование разработанных программных модулей 74
4.1 Создание наборов данных 74
4.2 Уменьшение размерности входного вектора признаков 75
4.3 Обучение классификаторов 77
4.3.1 Деревья принятия решений 78
4.3.2 Метод опорных векторов 79
4.3.3 Логическая регрессия 80
4.3.4 Алгоритм k-NN 81
4.4 Обучение ансамбля 82
Заключение 86
Список используемых источников 88
Приложение А Листинг класса CreateDataSet 93
Приложение Б Листинг класса Classification 94
Приложение В Листинг класса TestClassifications 98
Приложение Г Листинг класса AnsamblesFit 101
Приложение Д Листинг класса Classifer


Темой магистерской диссертации является анализ онкологических патологий с использованием нейронных сетей.
Заболеваемость онкологическими патологиями в России составляет порядка 330 случаев на сто тысяч населения. Рак кожи стоит на первом месте по диагностируемости. По статистике за 2018 год, представленной на рисунке 1.1, было выявлено 78.5 тысяч заболевших из которых 5.46 тысяч случаев приходится на меланому [26]. Заболеваемость меланомными кожи в Российской Федерации и в мире увеличивается, по данным Всемирной организации здравоохранения(ВОЗ) к 2025 году ожидается прирост заболеваний меланомы кожи на 25% [24].
Высокая летальность связанна с трудностями диагностики меланомы врачами общей практики. Существуют сложности в интерпретации признаков заболевания из-за которых невозможно на ранних стадиях отличить меланому от доброкачественных пигментных образований. А риск вызвать резкое прогрессирования опухоли лишает врачей возможности использовать инвазивные методы исследования (биопсия с гистологическим или цитологическим исследованием).
В выпускной квалификационной работе (ВКР) рассматривается неинвазивная методика диагностики патологий - спектроскопия комбинационного рассеяния (КР, Рамановская спектроскопия).
Рамановская спектроскопия основана на анализе неупругого рассеяния фотонов, предоставляя информацию о внутримолекулярных и межмолекулярных колебаниях помогая получить более полную картину состава тканей кожи. Поскольку опухоль имеет иную биохимическую структуру нежели здоровая ткань, спектроскопия комбинационного рассеяния дает характерную картину молекулярных колебаний («молекулярный отпечаток») и тем самым решает проблему дифференциации патологически измененной ткани кожи [24].
Разработка и тестирование программных модулей осуществлялась на языке программирования высокого уровня Python 3.8. Алгоритмы машинного обучения брались из библиотеки с открытым исходным кодом Scikit-learn V0.21.2, разработка программного кода осуществлялась в редакторе кода Visual Studio Code. По мимо этого в работе использовались и другие библиотеки программирование. Все они имею открытый исходный код и репозитории на github.
Проект разрабатывается при поддержке Самарского национального исследовательского университета имени академика С.П. Королева, материалы для исследования предоставлены ГБУЗ Самарским областным клиническим онкологическим диспансером. Протокол исследования был одобрен этическим комитетом Самарского государственного медицинского университета и проведен в Самарском клиническом онкологическом диспансере. Всем пациентам было не менее 18 лет. От каждого пациента было получено добровольное согласия на проведение in ViVo исследования.
Данная магистерская диссертация является продолжением выпускной квалификационной работы, защищенной в 2018 году по теме: «Разработка системы анализа результатов диагностики кожных патологий для выявления злокачественных новообразований на основе нейронных сетей», в ходе которой проводилось исследование использования глубоких нейронных сетей в задачи дифференциации патологий.
Результатом предыдущей работы стал разработанный алгоритм принятия взвешенного решения, основанном на логическом выводе предобученных и тонко настроенных глубоких нейронных сетей. Точность работы данного алгоритма составила 70%, специфичность - 53%, чувствительность - 93,64 [31].
Низкие показатели точности и специфичности в совокупности с использованием сравнительно небольшого набора данных стали причиной отказа от использования нейронных сетей на данном этапе исследования. В качестве альтернативы было решено исследовать использование алгоритмов машинного обучения.
Цель выпускной квалификационной работы: повышение качества дифференциации злокачественных новообразований от здоровой кожи на спектрах комбинационного рассеяния с помощью алгоритмов машинного обучения.
Объект исследования - процесс дифференциации образцов биоткани по результатам спектроскопии комбинационного рассеивания.
Предмет исследования - алгоритмы машинного обучения.
Выпускная квалификационная работа состоит из аннотации, введения, четырех глав и заключения.
Во введении описывается актуальность рассматриваемой темы, определяются объект и предмет выпускной квалификационной работы, ставится цель и выявляются задачи.
В первой главе выпускной квалификационной работы была обоснована актуальность рассматриваемой темы. Рассмотрены патологии, присутствующие в наборе данных. Выявлены перспективы использования машинного обучения в медицине. Проведен анализ актуальных способов диагностики патологий различными алгоритмами машинного обучения, на основе различных научных работ в данной области.
Во второй главе выпускной квалификационной работы был рассмотрен обучающий набор данных представленный ГБУЗ Самарским областным клиническим онкологическим диспансером, содержащий спектрограммы патологий и образцов кожи. Опираясь на исследования спектров комбинационного рассеивания были сформированы рекомендации по предобработке обучающего набора. Была составлена математическая модель обучения системы дифференциации патологий, а также написан псевдокод для иллюстрации ее работы. Были рассмотрены основные алгоритмы машинного обучения применяемые в данного рода задачах: k-NN, наивный байесовский алгоритм, деревья принятия решений, логическая регрессия, опорные вектора.
В третьей главе был осуществлен выбор средств разработки подсистема обучения классификаторов. На основе математической модели и псевдокода сформулированных во второй главе, был реализован класс Classifications, включающий в семя метод уменьшения размерности входных данных, функции нормализации, обучения и тестирования классификаторов.
В четвертой главе проводилось тестирование разработанного программного кода.
В заключении подводятся итоги исследования, формируются окончательные выводы по рассматриваемой теме.
Практическая значимость диссертационного исследования заключается в применении системы в качестве вспомогательного инструмента врача в диагностике заболеваний, что позволит повысить эффективность и уменьшить коэффициент ошибки.
Методы исследования, которые использовались в процессе формирования диссертационной работы: анализ и синтез модели, математическое моделирование, экспериментальные измерения и анализ.
Диссертационное исследование производилось с 2018 по 2020 гг. в три этапа:
1. Констатирующий этап исследования (2018 г.) состоял в формализации темы, цели, задач, гипотезы исследования, подтверждении актуальности решения проблемы, произведения обзора современного состояния темы и определении методики решения задач.
2. Моделирующий этап (2018-2019 гг.) состоял в обзоре и выборе методов классификаций, моделировании математической модели, апробации результатов исследования на научных конференциях и формализации статей.
3. Экспериментальный этап (2020 г.) состоял в программной реализации разработанной математической модели системы дифференциации патологий. И разработке пограничных методов необходимых для работы системы в целом
1. Участие в онлайн конференции SPIE.PHOTONICS EUROPE Digiral Forum 6-10 April 2020, Статья и видео презентация.
2. Публикация во II всероссийской научной конференции с международным участием «информационные технологии в моделировании и управлении: подходы, методы, решения».
3. Публикация в III всероссийской научной конференции с международным участием «информационные технологии в моделировании и управлении: подходы, методы, решения».
Научная новизна заключается в получении высокой точности дифференциации патологий по спектрам комбинационного рассеивания в задаче бинарной классификации на основе набора данных в котором большую долю патологий занимают меланомы и ее пограничные состояния с помощью различных алгоритмов машинного обучения и их ансамблей.
На защиту предоставляются:
1. Задача дифференциации патологий по спектрам комбинационного рассеивания.
2. Математическая модель системы дифференциации патологий.
3. Программный код системы дифференциации патологий.
4. Обученный классификатор.
Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и пяти приложений. Работа изложена на 102 страницах, включает 41 иллюстрацию, 5 таблиц, 29 формул, 38 использованных источников.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В процессе работы над магистерской диссертацией были описаны актуальность и проблематика рассматриваемой темы, выявлен объект, предмет, поставлена цель и сформулированы задачи по теме исследования.
Проанализированы виды кожно-раковых патологий. Проведено сравнение подходов к анализу патологий. Выявлены перспективы использования спектрального анализа в работе с кожно-раковыми патологиями. Сформулированы требования и задачи для выполнения решения проблемы исследования.
Рассмотрен обучающий набор данных. Сформированы рекомендации по предобработке обучающего набора. Выбран подход к реализации задачи дифференциации патологий. Произведен анализ основных алгоритмов машинного обучения применяемые в данного рода задачах: k-NN, наивный байесовский алгоритм, логическая регрессия, деревья принятия решений, опорные вектора. Рассмотрена возможность использования ансамблей для оптимизации работы классификаторов. Опираясь на рассмотренные методы предобработки данных, алгоритмы построения классификаторов и ансамблей составлена математическая модель обучения системы дифференциации патологий. Написан псевдокод подробно описывающий принцип работы математической модели.
Выбраны средства разработки программного кода. Язык программирования Python, для работы с алгоритмами машинного обучения была выбрана библиотека Scikit-learn.
Реализован программный модулю, включающий в себя помимо логики математической модели, функции предобработки обучающего набора и алгоритмы уменьшения размерности, тестирования и анализа процесса обучения классификаторов. Разработка программного кода выполнена с учетом возможной масштабируемости системы.
Проведено тестирование работоспособности программного модуля. Созданы обучающие наборы для обучения классификаторов. Проведено обучение классификаторов. Сформирован и обучен ансамбль классификаторов.
С помощью алгоритма мягкого взвешенного голосования удалось достичь значения f1 -score - 91%, специфичность - 93%, чувствительность - 88%, значение доверительного интервала 67,5% - 83,5%.
Разработанный в процессе диссертационной работы программный код поможет быть интегрирован в систему диагностирования патологий. Возможность использования различных алгоритмов машинного обучения делает программный код более гибким в работе с различными наборами данных. Качество работы классификатора может быть улучшено за счет увеличения набора данных.
Так же классификатор может быть применен для совместного использования с классификаторами обученными на других видах данных, фотографии, результаты дермоскопии, УЗИ и тд.
Всесторонний анализ патологий с использованием различных типов данных имеет огромный потенциал к поиску скрытых зависимостей для получения высокой точности дифференциации патологий.



1. ГОСТ 19.701-90. Схемы алгоритмов, программ, данных и систем. Условные обозначения и правила выполнения [Текст]. Введ. 1992-01-01. - М.: Изд-во стандартов, 1992. - 14 с.
2. ГОСТ 2.105-95. Общие требования к текстовым документам [Текст]. - Введ. 1995-04-26. - М. : Госстандарт России: Изд-во стандартов, 1996 - 29 с.
3. ГОСТ 7.1-2003. Библиографическая запись.
Библиографическое описание. Общие требования и правила составления [Текст]. - Введ. 2004-07-01. - М. : Госстандарт России: Изд-во стандартов, 2004.
4. ГОСТ 7.32-2001. Отчет о научно-исследовательской работе. Структура и правила оформления [Текст]. Введ. 2002-07-01. - М. : Госстандарт России: Изд-во стандартов, 2002.
5. ГОСТ 7.82-2001. Библиографическая запись.
Библиографическое описание электронных ресурсов. [Текст]. Введ. 2001-05-01. - М. : Госстандарт России: Изд-во стандартов, 2001.
Научная и методическая литература
6. Жерон O. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. Концепции, инструменты и техники для создания интеллектуальных систем [Текст] / О Жерон, - [2018] - 199-222 с.
7. Никонов А.В. Фильтрация методом Савицкого-Голея спектральных характеристик чувствительности матричных фотоприемных устройств: журнал / А. В. Никонов, Р. В. Давлетшин, Н. И. Яковлева, П. С. Лазарев - АО «НПО «Орион»-2016. - С. 198-205.
8. Потекаев Н.Н. Современные диагностические технологии в дерматовенерологии / Н.Н. Потекаев, Н.В. Фриго, О.Л. Новожилова, Л.С. Круглова - 2018 - 104-113с.
9. Сержантов К.А. Дифференциация онкологических патологий с использованием алгоритмов машинного обучения [Текст] / К.А. Сержантов, М.Г. Лисовская; сборник статей «Информационные технологии в моделировании и управлении: подходы, методы, решения». - Тольятти, 2019. - 564-570 с.
10. Сержантов К.А. Разработка системы анализа результатов диагностики кожных патологий для выявления злокачественных новообразований на основе нейронных сетей [Текст] / К.А. Сержантов; выпускная квалификационная работа. - [2018] - 10 с.
11. Сержантов К.А. Реализация метода предобработки спектров комбинационного рассеяния для дифференциации кожных патологий ансамблем алгоритмов машинного обучения [Текст] / К.А. Сержантов, М.Г. Лисовская; сборник статей «Информационные технологии в моделировании и управлении: подходы, методы, решения». - Тольятти, 2020.
12. Холлок Г., Проспективное исследование точности диагностики хирурга при 2000 иссеченных опухолях кожи / Г. Холлок, Д.А.Лутц, Plast Reconstr Surg - 1998 - 1255-1261 с.
Электронные ресурсы
13. About GitHub [Электронный ресурс] / GitHub - Электрон. дан. - [2020]. - Режим доступа: https://github.com/about.
14. Automated detection of nonmelanoma skin cancer using digital images: a systematic review. - Электрон. дан. - [2019] - Режим доступа: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6394090/.
15. Chan S., Machine Learning in Dermatology: Current Applications, Opportunities, and Limitations. - Электрон. дан. - [2020] - Режим доступа: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7211783/.
16. Decision Trees [Электронный ресурс] / Scikit-learn - Электрон. дан. - [2020] - Режим доступа: https://scikit-learn.org/dev/modules/tree.html.
17. GitHub is how people build software / Wikipedia- Электрон. дан. - [2020] - Режим доступа: https://ru.wikipedia.org/wiki/GitHub.
18. Heath N. GitHub: The top 10 programming languages for machine
learning/N. Heath. - Электрон. дан - [2020] - Режим доступа:
https://www.techrepublic.com/article/github-the-top- 10-programming-languages- for-machine-learning/.
19. Curry JL, Pathology of Dysplastic (Atypical) Melanocytic Nevi . - Электрон. дан. - [2015] - Режим доступа: https://emedicine.medscape.com/ article/1960604-overview.
20. Ngan V, Writer S., Amanda O., Atypical melanocytic naevus / DermNet
NZ - Электрон. дан. - [2003] - Режим доступа: https://dermnetnz.org
/topics/atypical-melanocytic-naevus/.
21. scipy.signal.savgol_filter [Электронный ресурс] / Scipy- Электрон. дан. - [2020] - Режим доступа: https://docs.scipy.org/doc/scipy-0.18T/ reference/generated/scipy.signal. savgol_filter.html.
22. Ultraviolet (UV) radiation and skin cancer filter [Электронный ресурс] / World Health Organization. - Электрон. дан. - [2019] - Режим доступа: https://www.who.int/news-room/q-a-detail/ultraviolet-(uv)-radiation-and-skin- cancer.
23. Взвешенное голосование [Электронный ресурс] / Студопедия -
Электрон. дан. - [2020] - Режим доступа: https://studopedia.ru/
5_164917_vzveshennoe-golosovanie.html.
24. Меланома кожи / Московский клинический научный центр - Электрон. дан. - [2019] - Режим доступа: https://mknc.ru/album_view.php? album_id=9682&dir=melanoma-koji-chto-eto-za-opuhol-i-kak-vovremya-ee- raspoznat.
25. Методы классификации и прогнозирования. Деревья решений [Электронный ресурс] / ИНТУИТ - Электрон. дан. - [2020]. - Режим доступа: https://www. intuit. ru/studies/professional_skill_improvements/1210/courses/6/lect ure/174?page=3.
26. Назван самый смертельный вид рака в России. / Наши издания - Электрон. дан. - [2019]. - Режим доступа: https://rg.ru/2019/06/21/nazvan- samyj-smertelnyj -vid-raka-v-rossii.html.
27. C++ CART algorithm. / Github. - Электрон. дан. - [2020]. - Режим доступа: https://github.com/KirSerz/machine_learning/blob/master/CART.cpp.
28. Топ 10 библиотек Python для машинного обучения [Электронный
ресурс] / kverner - Электрон. дан. - [2020]. - Режим доступа:
https://www.kverner.ru/top-10-bibliotek-python-dlya-mashinnogo-obucheniya/.
29. Формула Байеса - Электрон. дан. - [2015]. - Режим доступа: https://nsu.ru/mmf/tvims/chernova/tv/lec/node15.html.
Литература на иностранном языке
30. Geraud C. Re: Deep learning outperformed 11 pathologists in the classification of histopathological melanoma images/ C. Geraud, KG. Griewank, - 2019.
31. Hekler A. Deep learning outperformed 11 pathologists in the classification of histopathological melanoma images / A. Hekler; European Journal of Cancer - 2019.
32. Khristoforova Y, “In vivo Raman and autofluorescence study of the pigmented skin neoplasms / Y. Khristoforova, I. Bratchenko, S. Konovalov, A. Andreeva, A. Moryatov, D. Kassirov, A. Orlov, S. Kozlov, V. Zakharov; Journal of Physics: Conference Series - 2019.
33. Khristoforova, Y. Optical diagnostics of malignant and benign skin neoplasms / Y. Khristoforova, L. Bratchenko, D.N. Artemyev, A Moryatov, O.O. Myakinina, A.A. Moryatovb, O.I. Kaganovb, S.V. Kozlovb, V.P. Zakharova; Information Technology and Nanotechnology - [2011] - 141-148 pg.
34. Lodha S, Discordance in the histopathologic diagnosis of difficult melanocytic neoplasms in the clinical setting. J Cutan Pathol./ S Lodha, S Saggar, JT Celebi, DN Silvers; Journal of Cutaneous Pathology - 2008.
35. Powers D.M.W., Evaluation: From Precision, Recall And F-Measure To Roc, Informedness, Markedness & Correlation / D.M.W Powers; Journal of Machine Learning Technologies 2 - 2011.
36. Powers D.M.W., Recall & Precision versus The Bookmaker / D.M.W Powers; International Conference on Cognitive Science International Conference on Cognitive Science - 2003.
37. Serzhantov K.A. Comparison testing of machine learning algorithms separability on Raman spectra of skin cancer / K.A. Serzhantov, O.O. Myakinin, M.G. Lisovskaya, I.A. Bratchenko, A.A. Moryatov, S.V. Kozlov, V.P. Zakharov; Proc. SPIE 11359, Biomedical Spectroscopy, Microscopy, and Imaging, - 2020.
38. Tran, B.X. Global Evolution of Research in Artificial Intelligence in Health and Medicine / B.X. Tran, G.T. Vu, G.H. Ha; Journal of Clinical Medicine - 2019.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ