Аннотация
ВВЕДЕНИЕ 4
ГЛОССАРИЙ 6
ГЛАВА 1 ТЕОРЕТИЧЕСКАЯ БАЗА 7
1.1 Анализ информационных медицинских аналитических систем 7
1.2 Хранилища данных 7
1.3 OLAP-средства 8
1.4 Информационно-аналитические системы 8
1.5 Инструменты конечного пользователя 9
1.6 Классификация задач и обзор научных работ, посвящённых анализу
данных в сфере медицины 10
1.7 Описание задачи 13
Выводы по главе 1 14
ГЛАВА 2 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА 16
2.1 Обзор методов интеллектуального анализа данных 16
2.2 Примеры использования механизмов машинного обучения в медицине . 17
Выводы по главе 2 21
ГЛАВА 3 РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ СИСТЕМЫ
АНАЛИЗА ДАННЫХ 23
3.1 Разработка программного обеспечения системы анализа данных 23
3.2 Описание исходных данных 24
3.3 Подготовка данных к анализу 30
3.4 Оценка математического обеспечения механизма прогнозирования 35
3.5 Выбор определяющих признаков и определение математического
обеспечения механизма прогнозирования 36
Выводы по главе 3 41
ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 42
4.1 Актуальность коммерциализации 42
4.2 Цели и задачи 42
Выводы по главе 4 44
ЗАКЛЮЧЕНИЕ 45
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 47
Аналитические системы на основе алгоритмов машинного обучения успешно применяются в медицинской сфере более 10 лет [13]. Такие системы позволяют обрабатывать медицинские клинические данные пациентов в совокупности с сопутствующей демографической информацией (возраст, пол, место жительства и т.д.) и выявлять скрытые закономерности. На основе полученных закономерностей можно ставить диагнозы, прогнозировать развитие болезней и многое другое.
Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают аналитические системы, позволяет сократить время на выполнение анализа, а значит сделать его дешевле. Снижение цены благоприятно сказывается на распространении Data Mining, особенно в сфере коммерческой медицины.
В контексте российской медицины, применение таких систем часто осложнено организационными и финансовыми проблемами. В свою очередь открытые для бесплатного использования библиотеки машинного обучения (например, Scickit Learn, TensorFlow, Pandas, и т. д.) для на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [13] без глубоких научных изысканий и программирования сложных систем.
Таким образом, целесообразно создание медицинской статистической аналитической системы на основе алгоритмов машинного обучения, которая поможет медицинским аналитикам получить доступ к современным мощным и бесплатным библиотекам машинного обучения и использовать их в своей работе. При этом им не будут требоваться дополнительные знания языков программирования таких как Python или R.
Цель магистерской работы - разработка медицинской информационной системы для анализа исходных данных пациента и предсказания его диагноза и стадии протекания болезни.
Задачи магистерской работы:
1) анализ информационных медицинских аналитических систем;
2) классификация задач и обзор научных работ, посвящённых анализу данных в сфере медицины;
3) постановка задачи для проведения исследования и разработки математического и программного обеспечений;
4) обзор существующих методов интеллектуального анализа данных;
5) анализ научных работ по использованию механизмов машинного обучения в медицине и описание примеров использования механизмов;
6) разработка математического и программного обеспечений медицинской аналитической системы;
7) разработка плана коммерциализации проекта.
При работе над магистерской работой использовались научная и научно-исследовательская литература.
В рамках работы определено понятие медицинской информационно- аналитической системы - комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ для решения задачи сферы медицины. Проведён анализ аналитического программного обеспечения.
Проведён анализ задач и обзор научных работ, посвящённых анализу данных в сфере медицины, в ходе которого выделено четыре основных класса задач.
1) задачи медицинской диагностики;
2) задачи анализа изображений (томография, рентгеновские снимки и т.п.);
3) задачи классификации и кластеризации;
4) задачи предсказания (например, предсказание заболеваемости).
Определенна задача для проведения исследования, на примере решения которой разработан проект математического и программного обеспечения медицинской аналитической системы: прогнозирование факта смерти пациента, больного злокачественным новообразованием на основе базы данных с информацией о мониторинге злокачественных новообразований у детей и подростков.
Для разработки математического программного обеспечения был проведён обзор существующих методов интеллектуального анализа данных. Проведён анализ научных работ по использованию механизмов машинного обучения в медицине и описаны примеры их использования.
Разработан проект реализации программного обеспечения медицинской аналитической системы: система разделена на две основные части.
1) Подсистема ввода, хранения и управления данными.
2) Подсистема анализа данных.
В качестве СУБД для хранения данных выбрана PostgreSQL, подсис- 45
тема ввода, хранения и управления данными будет реализована на основе фреймворка Django работающего на основе Python 3. Подсистема анализа данных реализуется, с использованием различных библиотек для решения конкретных задач в контексте системы.
Определено математическое обеспечение системы: наиболее эффективными на примере решаемой задачи показали себя алгоритмы Random Forest (0,781) и Gradient Tree (0,779).
Кроме того, составлена дорожная карта коммерциализации проекта на два года и составлен календарный план работ на первый год коммерциализации проекта. Предполагаемый срок разработки и тестирования такого программного продукта - 1 год.
Таким образом, решены все поставленные в данной работе задачи и основную цель магистерской работы можно считать достигнутой.