Разработка математического и программного обеспечения медицинской аналитической системы
|
Аннотация
ВВЕДЕНИЕ 6
ГЛОССАРИЙ 8
ГЛАВА 1 МЕДИЦИНСКИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ
СИСТЕМЫ 9
1.1 Анализ информационных медицинских аналитических систем 9
1.2.1 Хранилища данных 11
1.2.2 OLAP-средства 12
1.2.3 Информационно-аналитические системы 13
1.2.4 Средства интеллектуальной добычи данных 13
1.2.5 Инструменты конечного пользователя 14
1.2 Классификация задач и обзор научных работ, посвящённых анализу данных
в сфере медицины 16
1.3 Описание задачи 18
Выводы по главе 1 19
ГЛАВА 2 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДЛЯ РЕШЕНИЯ
ЗАДАЧ В ОБЛАСТИ МЕДИЦИНЫ 21
2.2 Обзор существующих методов интеллектуального анализа данных 21
2.2 Примеры использования механизмов машинного обучения в медицине 23
2.2.1 Предсказание сердечных заболеваний (пример 1) 23
2.2.2 Предсказание сердечных заболеваний (пример 2) 23
2.2.3 Предсказание сердечных заболеваний (пример 3) 24
2.2.4 Масштаб применения Data Mining в медицине и предсказание успешности
искусственного оплодотворения (пример 4) 24
Выводы по главе 2 27
ГЛАВА 3 РАЗРАБОТКА МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ СИСТЕМЫ АНАЛИЗА ДАННЫХ 29
3.1 Разработка программного обеспечения системы анализа данных 29
3.2 Разработка математического обеспечения системы анализа данных 30
3.2.1 Описание исходных данных 30
3.2.2 Подготовка данных к анализу 39
3.2.3 Оценка математического обеспечения механизма прогнозирования 44
3.2.4 Выбор определяющих признаков и определение математического
обеспечения механизма прогнозирования 45
Выводы по главе 3 52
ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 53
4.1 Актуальность коммерциализации 53
4.2 Дорожная карта коммерциализации проекта 53
4.3 Цели и задачи 57
Выводы по главе 4 59
ЗАКЛЮЧЕНИЕ 61
БИБЛИГОРАФИЧЕСКИЙ СПИСОК 63
ВВЕДЕНИЕ 6
ГЛОССАРИЙ 8
ГЛАВА 1 МЕДИЦИНСКИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ
СИСТЕМЫ 9
1.1 Анализ информационных медицинских аналитических систем 9
1.2.1 Хранилища данных 11
1.2.2 OLAP-средства 12
1.2.3 Информационно-аналитические системы 13
1.2.4 Средства интеллектуальной добычи данных 13
1.2.5 Инструменты конечного пользователя 14
1.2 Классификация задач и обзор научных работ, посвящённых анализу данных
в сфере медицины 16
1.3 Описание задачи 18
Выводы по главе 1 19
ГЛАВА 2 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДЛЯ РЕШЕНИЯ
ЗАДАЧ В ОБЛАСТИ МЕДИЦИНЫ 21
2.2 Обзор существующих методов интеллектуального анализа данных 21
2.2 Примеры использования механизмов машинного обучения в медицине 23
2.2.1 Предсказание сердечных заболеваний (пример 1) 23
2.2.2 Предсказание сердечных заболеваний (пример 2) 23
2.2.3 Предсказание сердечных заболеваний (пример 3) 24
2.2.4 Масштаб применения Data Mining в медицине и предсказание успешности
искусственного оплодотворения (пример 4) 24
Выводы по главе 2 27
ГЛАВА 3 РАЗРАБОТКА МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ СИСТЕМЫ АНАЛИЗА ДАННЫХ 29
3.1 Разработка программного обеспечения системы анализа данных 29
3.2 Разработка математического обеспечения системы анализа данных 30
3.2.1 Описание исходных данных 30
3.2.2 Подготовка данных к анализу 39
3.2.3 Оценка математического обеспечения механизма прогнозирования 44
3.2.4 Выбор определяющих признаков и определение математического
обеспечения механизма прогнозирования 45
Выводы по главе 3 52
ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 53
4.1 Актуальность коммерциализации 53
4.2 Дорожная карта коммерциализации проекта 53
4.3 Цели и задачи 57
Выводы по главе 4 59
ЗАКЛЮЧЕНИЕ 61
БИБЛИГОРАФИЧЕСКИЙ СПИСОК 63
Современную медицину невозможно представить без использования точных и надёжных методов анализа и прогнозирования. На текущий день в связи с развитием электронных медицинских карт, созданием межрегиональных медицинских баз данных в сфере здравоохранения и медицины происходит накопление большего объёма медицинских данных [1]. Данная тенденция позволяет решать различные медицинские задачи на основе анализа данных о пациентах.
Аналитические системы на основе алгоритмов машинного обучения успешно применяются в медицинской сфере более 10 лет [2]. Такие системы позволяют обрабатывать медицинские клинические данные пациентов в совокупности с сопутствующей демографической информацией (возраст, пол, место жительства и т.д.) и выявлять скрытые закономерности. На основе полученных закономерностей можно ставить диагнозы, прогнозировать развитие болезней и многое другое.
Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают аналитические системы, позволяет сократить время на выполнение анализа, а значит сделать его дешевле, что подтверждает практическую значимость работы. Снижение цены благоприятно сказывается на распространении Data Mining, особенно в сфере коммерческой медицины.
В контексте российской медицины, применение таких систем часто осложнено организационными и финансовыми проблемами. В свою очередь открытые для бесплатного использования библиотеки машинного обучения (например, Scickit Learn, TensorFlow, Pandas, и т. д.) для на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [2] без глубоких научных изысканий и программирования сложных систем.
Таким образом, целесообразно создание медицинской статистической аналитической системы на основе алгоритмов машинного обучения, которая поможет медицинским аналитикам получить доступ к современным мощным и бесплатным библиотекам машинного обучения и использовать их в своей работе. При этом им не будут требоваться дополнительные знания языков программирования таких как Python или R.
Объектом исследования является медицинская информационно-аналитическая система. Предметом исследования - методы интеллектуального анализа данных для решения задач в области медицины.
Целью работы является разработка проекта реализации программного и математического обеспечения медицинской аналитической системы.
Задачи магистерской работы:
1) анализ информационных медицинских аналитических систем;
2) классификация задач и обзор научных работ, посвящённых анализу данных в сфере медицины;
3) постановка задачи для проведения исследования и разработки математического и программного обеспечений;
4) обзор существующих методов интеллектуального анализа данных;
5) анализ научных работ по использованию механизмов машинного обучения в медицине и описание примеров использования механизмов;
6) разработка математического и программного обеспечений медицинской аналитической системы;
7) разработка плана коммерциализации проекта.
При работе над магистерской работой использовались научная и научно-исследовательская литература. Кроме того, в ходе подготовки работы была проведена апробация программного и математического обеспечения, результаты которой представлены в статье «Медицинская аналитическая система на основе Data Mining» в сборнике материалов LIV Студенческой международной научно-практической конференции «НАУЧНОЕ СООБЩЕСТВО СТУДЕНТОВ XXI СТОЛЕТИЯ» технические Науки.
Аналитические системы на основе алгоритмов машинного обучения успешно применяются в медицинской сфере более 10 лет [2]. Такие системы позволяют обрабатывать медицинские клинические данные пациентов в совокупности с сопутствующей демографической информацией (возраст, пол, место жительства и т.д.) и выявлять скрытые закономерности. На основе полученных закономерностей можно ставить диагнозы, прогнозировать развитие болезней и многое другое.
Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают аналитические системы, позволяет сократить время на выполнение анализа, а значит сделать его дешевле, что подтверждает практическую значимость работы. Снижение цены благоприятно сказывается на распространении Data Mining, особенно в сфере коммерческой медицины.
В контексте российской медицины, применение таких систем часто осложнено организационными и финансовыми проблемами. В свою очередь открытые для бесплатного использования библиотеки машинного обучения (например, Scickit Learn, TensorFlow, Pandas, и т. д.) для на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [2] без глубоких научных изысканий и программирования сложных систем.
Таким образом, целесообразно создание медицинской статистической аналитической системы на основе алгоритмов машинного обучения, которая поможет медицинским аналитикам получить доступ к современным мощным и бесплатным библиотекам машинного обучения и использовать их в своей работе. При этом им не будут требоваться дополнительные знания языков программирования таких как Python или R.
Объектом исследования является медицинская информационно-аналитическая система. Предметом исследования - методы интеллектуального анализа данных для решения задач в области медицины.
Целью работы является разработка проекта реализации программного и математического обеспечения медицинской аналитической системы.
Задачи магистерской работы:
1) анализ информационных медицинских аналитических систем;
2) классификация задач и обзор научных работ, посвящённых анализу данных в сфере медицины;
3) постановка задачи для проведения исследования и разработки математического и программного обеспечений;
4) обзор существующих методов интеллектуального анализа данных;
5) анализ научных работ по использованию механизмов машинного обучения в медицине и описание примеров использования механизмов;
6) разработка математического и программного обеспечений медицинской аналитической системы;
7) разработка плана коммерциализации проекта.
При работе над магистерской работой использовались научная и научно-исследовательская литература. Кроме того, в ходе подготовки работы была проведена апробация программного и математического обеспечения, результаты которой представлены в статье «Медицинская аналитическая система на основе Data Mining» в сборнике материалов LIV Студенческой международной научно-практической конференции «НАУЧНОЕ СООБЩЕСТВО СТУДЕНТОВ XXI СТОЛЕТИЯ» технические Науки.
На основе полученных знаний во время обучения по направлению «Бизнес- информатика» и анализа научной и научно-исследовательской литературы и публикаций была проведена работа над разработкой математического и программного обеспечения медицинской аналитической системы.
В рамках проведённого исследования:
1. Определено понятие медицинской информационно-аналитической системы - комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ для решения задачи сферы медицины. Проведён анализ аналитического программного обеспечения.
2. Проведён анализ задач и обзор научных работ, посвящённых анализу данных в сфере медицины, в ходе которого выделено четыре основных класса задач:
- задачи медицинской диагностики;
- задачи анализа изображений (томография, рентгеновские снимки и т.п.);
- задачи классификации и кластеризации;
- задачи предсказания (например, предсказание заболеваемости).
3. Определенна задача для проведения исследования, на примере решения которой разработан проект математического и программного обеспечения медицинской аналитической системы: прогнозирование факта смерти пациента, больного злокачественным новообразованием на основе базы данных с информацией о мониторинге злокачественных новообразований у детей и подростков.
4. Проведено исследование существующих методов интеллектуального анализа данных для разработки математического программного обеспечения. Проведён анализ научных работ по использованию механизмов машинного обучения в медицине и описаны примеры их использования.
5. Разработан проект реализации программного обеспечения медицинской аналитической системы: система разделена на две основные части:
- подсистема ввода, хранения и управления данными.
- подсистема анализа данных.
В качестве СУБД для хранения данных выбрана PostgreSQL, подсистема ввода, хранения и управления данными будет реализована на основе фреймворка Django работающего на основе Python 3. Подсистема анализа данных реализуется, с использованием различных библиотек для решения конкретных задач в контексте системы.
6. Определено математическое обеспечение системы: наиболее эффективными на примере решаемой задачи показали себя алгоритмы Random Forest (0,781) и Gradient Tree (0,779).
7. Составлена дорожная карта коммерциализации проекта на два года и составлен календарный план работ на первый год коммерциализации проекта. Предполагаемый срок разработки и тестирования такого программного продукта - 1 год.
Таким образом, решены все поставленные в данной работе задачи и цель магистерской работы можно считать достигнутой. Результаты исследования планируется внедрить в онкогематологическом отделении «Челябинской областной детской клинической больнице».
Направление дальнейшего исследования: повышение эффективности механизмов анализа данных.
В рамках проведённого исследования:
1. Определено понятие медицинской информационно-аналитической системы - комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ для решения задачи сферы медицины. Проведён анализ аналитического программного обеспечения.
2. Проведён анализ задач и обзор научных работ, посвящённых анализу данных в сфере медицины, в ходе которого выделено четыре основных класса задач:
- задачи медицинской диагностики;
- задачи анализа изображений (томография, рентгеновские снимки и т.п.);
- задачи классификации и кластеризации;
- задачи предсказания (например, предсказание заболеваемости).
3. Определенна задача для проведения исследования, на примере решения которой разработан проект математического и программного обеспечения медицинской аналитической системы: прогнозирование факта смерти пациента, больного злокачественным новообразованием на основе базы данных с информацией о мониторинге злокачественных новообразований у детей и подростков.
4. Проведено исследование существующих методов интеллектуального анализа данных для разработки математического программного обеспечения. Проведён анализ научных работ по использованию механизмов машинного обучения в медицине и описаны примеры их использования.
5. Разработан проект реализации программного обеспечения медицинской аналитической системы: система разделена на две основные части:
- подсистема ввода, хранения и управления данными.
- подсистема анализа данных.
В качестве СУБД для хранения данных выбрана PostgreSQL, подсистема ввода, хранения и управления данными будет реализована на основе фреймворка Django работающего на основе Python 3. Подсистема анализа данных реализуется, с использованием различных библиотек для решения конкретных задач в контексте системы.
6. Определено математическое обеспечение системы: наиболее эффективными на примере решаемой задачи показали себя алгоритмы Random Forest (0,781) и Gradient Tree (0,779).
7. Составлена дорожная карта коммерциализации проекта на два года и составлен календарный план работ на первый год коммерциализации проекта. Предполагаемый срок разработки и тестирования такого программного продукта - 1 год.
Таким образом, решены все поставленные в данной работе задачи и цель магистерской работы можно считать достигнутой. Результаты исследования планируется внедрить в онкогематологическом отделении «Челябинской областной детской клинической больнице».
Направление дальнейшего исследования: повышение эффективности механизмов анализа данных.





