Глава 1. Методы и сервисы машинного обучения для обработки и анализа данных 5
1.1 Предобработка и анализ данных 6
1.1.1 Признаковое описание данных 6
1.1.2 Предобработка данных 7
1.1.3 Анализ данных 11
1.2 Методы машинного обучения в задаче бинарной классификации 15
1.2.1 Постановка задачи бинарной классификации 15
1.2.2 Алгоритмы бинарной классификации 17
1.2.3 Метрики определения качества работы алгоритмов классификации ... 19
1.3 Сервисы для обработки и анализа данных 22
1.3.1 Microsoft Azure Machine Learning 22
1.3.2 Amazon Machine Learning 23
1.3.3 Google Cloud Machine Learning 25
Глава 2. Создание модели машинного обучения с помощью Microsoft Azure
Machine Learning 26
2.1 Предобработка данных 26
2.2 Анализ данных 27
2.3 Построение моделей классификации 28
2.4 Оценка качества моделей 28
Глава 3. Разработка сайта взаимодействия пользователей с созданной моделью 33
3.1 Создание web-сервиса с API 33
3.2 Разработка сайта на основе CMS WordPress 33
Заключение 35
Библиографический список 36
Приложение 1 38
Приложение 2 40
Приложение 3 41
Приложение 4 43
В настоящее время машинное обучение применяется во многих областях науки и производства. Медицина не является исключением. С помощью машинного обучения решается множество таких задач, как классификация больных по видам заболеваний, определение наиболее целесообразного способа лечения, предсказание длительности и исхода заболевания, оценка риска осложнения, нахождение синдромов, наиболее характерных для определённого вида заболевания и т.п.
За годы работы Алтайского краевого онкологического диспансера «Надежда» были накоплены данные по пациентам, проходившим обследования на выявление рака молочной железы. Рак молочной железы — это заболевание, вызванное перерождением нормальных клеток железистой ткани в раковые. В мире это наиболее частая форма рака среди женщин, поражающая в течение жизни от 1/13 до 1/9 женщин в возрасте от 13 до 90 лет.
Этим обусловлена актуальность темы выпускной квалификационной работы «Разработка web-сервиса для диагностики рака молочной железы с помощью Microsoft Azure Machine Learning».
Объектом исследования в работе являются данные по пациентам Алтайского краевого онкологического диспансера «Надежда», предметом исследования — сервисы машинного обучения, как инструмент анализа данных и построения прогностической модели.
Целью выпускной квалификационной работы является разработка web- сервиса для диагностики рака молочной железы, на основе проведенного анализа данных по пациентам, проходившим обследование на выявления данного вида заболевания.
Достижение указанной цели подразумевает решение следующих основных задач:
- изучение методов обработки медицинских данных;
- изучение алгоритмов машинного обучения для построения прогностической модели;
- выбор наиболее подходящего сервиса машинного обучения;
- построение прогностической модели по полученным данным;
- оценка качества построенной модели;
- разработка сайта для взаимодействия медицинских работников с сервисом машинного обучения.
Данный web-сервис был реализован с помощью облачной платформы прогностической аналитики Microsoft Azure Machine Learning и CMS WordPress для диагностики рака молочной железы.
В процессе работы были изучены:
• методы обработки медицинских данных;
• алгоритмы бинарной классификации;
• метрики определения качества работы алгоритмов классификации.
Также была построена прогностическая модель по полученным данным.
После построения модели бинарной классификации пациентов был разработан web-сайт с сервисом Microsoft Azure Machine Learning для удобства работы сотрудников онкологического диспансера, который включает в себя следующий функционал:
• просмотр результатов корреляционного, регрессионного и
факторного анализов;
• загрузка новых данных для анализа и прогнозирования диагноза.
Разработанный web-сайт может быть непосредственно использован в качестве системы поддержки принятия решений для сотрудников онкологического диспансера с целью диагностики рака молочной железы.