ВВЕДЕНИЕ 6
1 ОБЗОР ЛИТЕРАТУРЫ 10
1.1 Скрининг 10
1.1.1 Цель скрининга 10
1.1.2 История развития скрининга 11
1.1.3 Фазы скрининга 12
1.1.4 Условия скрининга 14
1.1.5 Чувствительность и специфичность теста 16
1.1.6 Чувствительность теста и программы скрининга 18
1.1.7 Популяционный скрининг 19
1.1.8 Понятие гипердиагностики 21
1.1.9 Потенциал скрининга 22
1.2 Методы машинного обучения в задачах классификации 23
1.2.1 Машинное обучение в ранней диагностике меланомы 24
1.2.2 Нейросеть как алгоритм для оценки эффективности противораковых
лекарств 25
1.2.3 Нейронные сети в борьбе с раком 28
2 ОБЪЕКТ И МЕТОДЫ ИССЛЕДОВАНИЯ 32
2.1 Объект исследования 32
2.2 Характеристики объекта 32
2.3 Предобработка и описание данных 34
2.3.1 Признаковое описание данных 34
2.3.2 Предобработка данных 35
2.4 Обучающая и тестовая выборка 41
2.5 Метод ближайших соседей 41
2.6 Метод машины опорных векторов 42
2.7 Метод случайного леса 47
2.8 Отбор признаков с помощью случайного леса 48
2.9 Бустинг деревьев решений 49
3 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ 52
3.1 Метод ближайших соседей 52
3.2 Метод опорных векторов 54
3.3 Метод случайного леса 57
3.4 Метод бустинга деревьев 60
3.5 Чувствительность и специфичность 60
ОБСУЖДЕНИЕ 64
ВЫВОДЫ 66
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Не так давно получил распространение термин «большие данные», обозначивший новую прикладную область — поиск способов автоматического быстрого анализа огромных объёмов разнородной информации. Наука о больших данных ещё только оформляется, но уже сейчас она очень востребована — и в будущем будет востребована только больше. Большими данными может оказаться что угодно: результаты научных экспериментов, логи банковских транзакций, метеорологические наблюдения, профили в социальных сетях — словом, всё, что может быть полезно, проанализировать. Самым перспективным подходом к анализу больших данных считается применение машинного обучения — набора методов, благодаря которым компьютер может находить в массивах изначально неизвестные взаимосвязи и закономерности.
Для того чтобы компьютер складывал числа или управлял автопилотом самолета, программисты составляют сложнейшие алгоритмы, объясняющие машине, что именно от нее требуется. Однако машинное обучение работает совсем иначе. Компьютеры угадывают все сами, принимая решения на основе данных, и чем их больше, тем точнее и лучше получается. Это значит, что компьютерам не нужно скрупулёзно писать алгоритм, они программируют себя сами.
Главной задачей машинного обучения является - прогнозирование. Когда- то людям приходилось полагаться на шаманов и прорицателей, что оказалось ненадежным. Затем человечество начало полагаться на научные прогнозы. Наука ограниченна областями, которые поддаются моделированию. Большие данные и машинное обучение заметно увеличивает эти границы. Иногда человек может предсказывать и без помощи машины, но часто такие прогнозы либо очень простые, либо не точные. Бывает, что предсказать не получится, как бы ни старались. Между этими крайностями лежит огромнейшая область, для которой пригодится машинный интеллект.
Медицина не является исключением. С помощью машинного обучения решается множество таких задач, как классификация больных по видам заболеваний, определение наиболее целесообразного способа лечения, предсказание длительности и исхода заболевания, оценка риска осложнения, нахождение синдромов, наиболее характерных для определённого вида заболевания и т.п.
За несколько лет работы компании «Онкоревизор» в сотрудничестве с «MedInnovation GmbH» были накоплены данные по пациентам, проходивших процедуру раннего выявления рака методом ЭПР-ТСА. Тест функциональности альбумина (ТСА) использует метод электронного парамагнитного резонанса (ЭПР) для оценки функциональности альбумина в сыворотке крови. Тест ЭПР- ТСА показал чувствительность - 91.1%, и специфичность метода - 88.9% для диагностирования активного злокачественного процесса, что значительно превзошло эффективность специфичных опухолевых маркеров. Диагностика раковых процессов на ранних стадиях по этому методу запатентована и сертифицирована в России.
В последние годы число онкологических патологий значительно возросло в России. По данным Российского Центра информационных технологий и эпидемиологических исследований в области онкологии за 2015 год в Татарстане заболеваемость составила 0,38% на 100 тыс. населения, а смертность 0,19%. Процент летальных исходов от числа заболевших составил 50%. Этим обусловлена актуальность и потребность скрининговой тест системы.
Основной причиной смертей является выявление рака на поздних стадиях, когда с болезнью бороться крайне тяжело. Онкология сложно поддается диагностике на ранних стадиях, и так же плохо поддается лечению на поздних стадиях. Онкология это не одно, а целый комплекс заболеваний, сильно отличающихся друг от друга по локализации и многим другим параметрам. Опухоли бывают вызваны невообразимо широким спектром причин, к тому же они мутируют и дают метастазы.
Самый надежный способ борьбы с онкологией — это найти ее на самых ранних стадиях, и не дать возможности ей прогрессировать. Самое сложное в этой задаче как раз и состоит в классификации или отборе потенциально рисковых пациентов. Ни один врач не в состоянии овладеть всеми необходимыми для этого знаниями, но решение таких задач — идеальная работа для машинного обучения. По семантическому сбору статистики сервиса «Scopus» была проведена оценка количества работ в базе за последние 10 лет. Данные по ключевым фразам: screening cancer - рост 230%, machine learning - рост 309%. На пересечении ключевых фраз “screening cancer machine learning” найдено всего 230 статей по всему миру, из них ни одной работы из России. Этим обусловлена научная новизна предложенной темы в России, а также еще раз подтверждена актуальность.
Целью выпускной квалификационной работы является получение самообучаемого алгоритма для диагностики рака с прогнозной моделью для ранних стадий рака, на основе проведенного анализа данных по пациентам, проходивших обследование на раннее выявление рака методом ЭПР-ТСА.
Достижение указанной цели подразумевает решение следующих основных задач:
1) Изучить методы машинного обучения;
2) Разработать научно методический подход оценки метода машинного обучения в задаче классификации;
3) Построить прогностические модели машинного обучения методами классификации;
4) Сравнить и выбрать рациональный метод машинного обучения на основе величины ошибки;
5) Оценить качество модели рационального метода на основе тестовой выборки.
Положения, выносимые на защиту:
1) Разработанная скрининговая система может эффективно использоваться в качестве профилактики онкологии среди населения России;
2) При внедрении скрининговой системы как меры профилактики, есть возможность повлиять на среднегодовой темп уменьшения смертности;
3) Использование системы на постоянной основе поможет выявлять признаки оказывающие значительное воздействие на риск развития онкопатологии в разрезе не только возрастного, но и социального, личного, и поведенческого критерия.
1) Изучены методы машинного обучения;
2) Разработан научно-методический подход выбора метода машинного обучения, основанный на замере величины ошибки алгоритма на тестовой выборке;
3) Построены прогностические модели с точностью: (МБС - 15,4%; МОВ - 38%; МСЛ - 71,9%; МБД - 67,4%);
4) Рациональным методом машинного обучения в задаче онкоскрининга является - Случайный лес (71,9%);
Проведена оценка качества построения модели на тестовой выборке, с помощью показателей информативности диагностических методов. Чувствительность - 79%, Специфичность - 88%.
1. Скрининг и раннее выявление рака. [Электронный ресурс]. - Режим доступа: http://omr.by - Заглавие с экрана. - (Дата обращения: 21.02.2017)
2. Что такое скрининг. [Электронный ресурс]. - Режим доступа:
http: //www.pror.ru - Заглавие с экрана. - (Дата обращения: 3.03.2017)
3. Скрининг злокачественных новообразований. [Электронный ресурс]. -
Режим доступа: http://www.help-patient.ru - Заглавие с экрана. - (Дата обращения: 3.03.2017)
4. Скрининг на рак шейки матки. [Электронный ресурс]. - Режим доступа: http://www.who.int - Заглавие с экрана. - (Дата обращения: 17.03.2017)
5. Скрининг рака. [Электронный ресурс]. - Режим доступа: http://medportal.ru - Заглавие с экрана. - (Дата обращения: 17.03.2017)
6. Скрининговые тесты. [Электронный ресурс]. - Режим доступа:
http://worldofoncology.com - Заглавие с экрана. - (Дата обращения: 22.03.2017)
7. История организации и современное состояние цитологического скрининга
рака шейки матки в России. [Электронный ресурс]. - Режим доступа:
http://netoncology.ru - Заглавие с экрана. - (Дата обращения: 02.04.2017)
8. Скрининг онкозаболеваний: когда вреда больше чем пользы. [Электронный ресурс]. - Режим доступа: http://www.infox.ru - Заглавие с экрана. - (Дата обращения: 02.04.2017)
9. IBM Watson for Oncology: помощь когнитивной системы в борьбе с раком
SavePearlHarbor. [Электронный ресурс]. - Режим доступа:
http: //savepearlharbor.com - Заглавие с экрана. - (Дата обращения: 03.04.2017)
10. Методы обработки статистических и медицинских данных. [Электронный
ресурс]. - Режим доступа: http://fedlab.ru - Заглавие с экрана. - (Дата
обращения: 03.04.2017)
11. Предобработка данных, Data Preprocessing. [Электронный ресурс]. - Режим доступа: http://basegroup.ru - Заглавие с экрана. - (Дата обращения: 03.04.2017)
12. Машинное обучение. [Электронный ресурс]. - Режим доступа:
http://ru.wikipedia.org - Заглавие с экрана. - (Дата обращения: 04.04.2017)
13. Айвазян, С.А. Прикладная статистика. Классификация и снижение
размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин.
- 1989. - С. 32-39.
14. Белецкий, Н.Г. Применение колистетов для многоклассовой классификации / Н.Г. Белецкий. - 1983. - С. 2-17.
15. Вапник, В.Н. Восстановление зависимостей по эмпирическим данным / В.М. Вапник. - М.: Наука, 1979. - С. 61-97.
16. Воронцов, К.В. Лекции по алгоритмическим композициям / К.В. Воронцов.
- 2009. - С. 2-25
17. Воронцов, К.В. Математические методы обучения по прецедентам / К.В. Воронцов. - 2009. - С. 13-19.
18. Вьюгин, В.В. Элементы математической теории обучения / В.В. Вьюгин. - М.: МФТИ, 2010. - С. 231-240.
19. Гланц, С.Г. Медико-биологическая статистика / С.Г. Гланц. - М.:
Практика,1999. - С. 334-338.
20. Дронов, С.В. Многомерный статистический анализ / С.В. Дронов. - М.: Алт.гос, 2003. - С. 65-72.
21. Дьяков, А.Г. Методы решения задач классификации с категориальными признаками / А.Г. Дьяков. - 2014. - С. 75-89.
22. Дюличева, Ю.Ю. Стратегии редукции решающих деревьев / Ю.Ю. Дюличева. - 2002. - С. 20-22.
23. Ким, Д.О. Факторный дискриминантный и кластерный анализ / Д.О. Ким, Ч.У. Мьюллер, У.Р. Клекка. - М.: Финансы и статистика, 1989. - 215 с.
24. Ланг, Т.А. Описание статистики в медицине. Руководство для авторов,
редакторов и рецензентов / Т.А.Ланг, М.Сесик. - М.: Практическая
медицина. - 2011. - 477 с.
25. Мандель, И.Д. Кластерный анализ / И.Д. Мандель. - М.: Финансы и статистика, 1988. - 177 с.
26. Новиков, Д.А. Статистические методы в медико-биологическом эксперименте / Д.А. Новиков, В.В. Новочадов. - Волгоград: ВолГМУ, 2005.
- 84 с.
27. Платонов, А.Е. Статистический анализ в медицине и биологии: задачи,
терминология, логика, компьютерные методы / А.Е. Платонов. - М.:
Издательство РАМН, 2001. - 52 с.
28. Пэтри, А. Наглядная статистика в медицине / А. Пэтри, К. Сэбин. - М.:ГЭОТАР-МЕД, 2003. - 144 с.
29. Юнкеров, В.И. Математико-статистическая обработка данных медицинских исследований / В.И. Юнкеров, С.Е. Григорьев. - СПб.: ВМедА, 2002. - 266 с.
30. Яблонский С. В. Введение в дискретную математику / С.В. Яблонский. - М.: Наука, 1986. - 163 с.