Глава 1. Методы и сервисы машинного обучения для обработки и анализа данных 5
1.1 Предобработка и анализ данных 6
1.1.1 Признаковое описание данных 6
1.1.2 Предобработка данных 7
1.1.3 Анализ данных 11
1.2 Методы машинного обучения в задаче бинарной классификации 15
1.2.1 Постановка задачи бинарной классификации 15
1.2.2 Алгоритмы бинарной классификации 17
1.2.3 Метрики определения качества работы алгоритмов классификации ... 19
1.3 Сервисы для обработки и анализа данных 22
1.3.1 Microsoft Azure Machine Learning 22
1.3.2 Amazon Machine Learning 23
1.3.3 Google Cloud Machine Learning 25
Глава 2. Создание модели машинного обучения с помощью Microsoft Azure
Machine Learning 26
2.1 Предобработка данных 26
2.2 Анализ данных 27
2.3 Построение моделей классификации 28
2.4 Оценка качества моделей 28
Глава 3. Разработка сайта взаимодействия пользователей с созданной моделью 33
3.1 Создание web-сервиса с API 33
3.2 Разработка сайта на основе CMS WordPress 33
Заключение 35
Библиографический список 36
Приложение 1 38
Приложение 2 40
Приложение 3 41
Приложение 4 43
В настоящее время машинное обучение применяется во многих областях науки и производства. Медицина не является исключением. С помощью машинного обучения решается множество таких задач, как классификация больных по видам заболеваний, определение наиболее целесообразного способа лечения, предсказание длительности и исхода заболевания, оценка риска осложнения, нахождение синдромов, наиболее характерных для определённого вида заболевания и т.п.
За годы работы Алтайского краевого онкологического диспансера «Надежда» были накоплены данные по пациентам, проходившим обследования на выявление рака молочной железы. Рак молочной железы — это заболевание, вызванное перерождением нормальных клеток железистой ткани в раковые. В мире это наиболее частая форма рака среди женщин, поражающая в течение жизни от 1/13 до 1/9 женщин в возрасте от 13 до 90 лет.
Этим обусловлена актуальность темы выпускной квалификационной работы «Разработка web-сервиса для диагностики рака молочной железы с помощью Microsoft Azure Machine Learning».
Объектом исследования в работе являются данные по пациентам Алтайского краевого онкологического диспансера «Надежда», предметом исследования — сервисы машинного обучения, как инструмент анализа данных и построения прогностической модели.
Целью выпускной квалификационной работы является разработка web- сервиса для диагностики рака молочной железы, на основе проведенного анализа данных по пациентам, проходившим обследование на выявления данного вида заболевания.
Достижение указанной цели подразумевает решение следующих основных задач:
- изучение методов обработки медицинских данных;
- изучение алгоритмов машинного обучения для построения прогностической модели;
- выбор наиболее подходящего сервиса машинного обучения;
- построение прогностической модели по полученным данным;
- оценка качества построенной модели;
- разработка сайта для взаимодействия медицинских работников с сервисом машинного обучения.
Данный web-сервис был реализован с помощью облачной платформы прогностической аналитики Microsoft Azure Machine Learning и CMS WordPress для диагностики рака молочной железы.
В процессе работы были изучены:
• методы обработки медицинских данных;
• алгоритмы бинарной классификации;
• метрики определения качества работы алгоритмов классификации.
Также была построена прогностическая модель по полученным данным.
После построения модели бинарной классификации пациентов был разработан web-сайт с сервисом Microsoft Azure Machine Learning для удобства работы сотрудников онкологического диспансера, который включает в себя следующий функционал:
• просмотр результатов корреляционного, регрессионного и
факторного анализов;
• загрузка новых данных для анализа и прогнозирования диагноза.
Разработанный web-сайт может быть непосредственно использован в качестве системы поддержки принятия решений для сотрудников онкологического диспансера с целью диагностики рака молочной железы.
1. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. _ М.: Финансы и статистика, 1989.
2. Белецкий Н.Г. Применение колистетов для многоклассовой классификации, 1983
3. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979.
4. Воронцов К.В. Лекции по алгоритмическим композициям // 7 октября 2012 г.
5. Воронцов К.В Лекции по линейным алгоритмам классификации // 19 января 2009 г.
6. Воронцов К.В Математические методы обучения по
прецедентам(теория обучения машин) // курс лекций, МФТИ(2004).
7. Вьюгин В.В. Элементы математической теории обучения: учеб. пособие - М.: МФТИ: ИППИ РАН, 2010. - 231 с.
8. Гланц, С. Медико-биологическая статистика / С. Гланц. - М. : Практика, 1999. - 334 с.
9. Дронов С.В. Многомерный статистический анализ. Барнаул: Изд-во Алт.гос. ун-та. 2003
10. Дьяков А.Г. Методы решения задач классификации с категориальными признаками. Прикладная математика и информатика, 46, 2014
11. Дюличева Ю.Ю. Стратегии редукции решающих деревьев, 2002
12. Ким, Дж.О. Факторный, дискриминантный и кластерный анализ / Дж.О. Ким, Ч.У. Мьюллер, У.Р. Клекка. - М. : Финансы и статистика, 1989. - 215с.
13. Ланг, Т.А. Описание статистики в медицине. Руководство для авторов, редакторов и рецензентов / Т.А.Ланг, М.Сесик. - М. : Практическая медицина. - 2011. - 477с.
14. Мандель, И.Д. Кластерный анализ / И.Д. Мандель. - М. : Финансы и статистика, 1988. - 176с.
15. Новиков, Д.А. Статистические методы в медико-биологическом эксперименте (типовые случаи) / Д.А. Новиков, В.В. Новочадов. - Волгоград: ВолГМУ, 2005. - 84 с.
16. Платонов, А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы / А.Е. Платонов. - М. :Издательство РАМН, 2001. - 52 с.
17. Пэтри, А. Наглядная статистика в медицине / А. Пэтри, К. Сэбин. - М. :ГЭОТАР-МЕД, 2003. - 144 с.
18. Юнкеров, В.И. Математико-статистическая обработка данных медицинских исследований / В.И. Юнкеров, С.Е. Григорьев. - СПб.: ВМедА, 2002. - 266 с.
19. Яблонский С. В. Введение в дискретную математику._ М.: Наука, 1986.
20. Язык программирования г. http://www.r-project.org