Аннотация
ВВЕДЕНИЕ 6
ГЛОССАРИЙ 8
ГЛАВА 1 МЕДИЦИНСКИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ
СИСТЕМЫ 9
1.1 Анализ информационных медицинских аналитических систем 9
1.2.1 Хранилища данных 11
1.2.2 OLAP-средства 12
1.2.3 Информационно-аналитические системы 13
1.2.4 Средства интеллектуальной добычи данных 13
1.2.5 Инструменты конечного пользователя 14
1.2 Классификация задач и обзор научных работ, посвящённых анализу данных
в сфере медицины 16
1.3 Описание задачи 18
Выводы по главе 1 19
ГЛАВА 2 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДЛЯ РЕШЕНИЯ
ЗАДАЧ В ОБЛАСТИ МЕДИЦИНЫ 21
2.2 Обзор существующих методов интеллектуального анализа данных 21
2.2 Примеры использования механизмов машинного обучения в медицине 23
2.2.1 Предсказание сердечных заболеваний (пример 1) 23
2.2.2 Предсказание сердечных заболеваний (пример 2) 23
2.2.3 Предсказание сердечных заболеваний (пример 3) 24
2.2.4 Масштаб применения Data Mining в медицине и предсказание успешности
искусственного оплодотворения (пример 4) 24
Выводы по главе 2 27
ГЛАВА 3 РАЗРАБОТКА МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ СИСТЕМЫ АНАЛИЗА ДАННЫХ 29
3.1 Разработка программного обеспечения системы анализа данных 29
3.2 Разработка математического обеспечения системы анализа данных 30
3.2.1 Описание исходных данных 30
3.2.2 Подготовка данных к анализу 39
3.2.3 Оценка математического обеспечения механизма прогнозирования 44
3.2.4 Выбор определяющих признаков и определение математического
обеспечения механизма прогнозирования 45
Выводы по главе 3 52
ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 53
4.1 Актуальность коммерциализации 53
4.2 Дорожная карта коммерциализации проекта 53
4.3 Цели и задачи 57
Выводы по главе 4 59
ЗАКЛЮЧЕНИЕ 61
БИБЛИГОРАФИЧЕСКИЙ СПИСОК 63
Современную медицину невозможно представить без использования точных и надёжных методов анализа и прогнозирования. На текущий день в связи с развитием электронных медицинских карт, созданием межрегиональных медицинских баз данных в сфере здравоохранения и медицины происходит накопление большего объёма медицинских данных [1]. Данная тенденция позволяет решать различные медицинские задачи на основе анализа данных о пациентах.
Аналитические системы на основе алгоритмов машинного обучения успешно применяются в медицинской сфере более 10 лет [2]. Такие системы позволяют обрабатывать медицинские клинические данные пациентов в совокупности с сопутствующей демографической информацией (возраст, пол, место жительства и т.д.) и выявлять скрытые закономерности. На основе полученных закономерностей можно ставить диагнозы, прогнозировать развитие болезней и многое другое.
Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают аналитические системы, позволяет сократить время на выполнение анализа, а значит сделать его дешевле, что подтверждает практическую значимость работы. Снижение цены благоприятно сказывается на распространении Data Mining, особенно в сфере коммерческой медицины.
В контексте российской медицины, применение таких систем часто осложнено организационными и финансовыми проблемами. В свою очередь открытые для бесплатного использования библиотеки машинного обучения (например, Scickit Learn, TensorFlow, Pandas, и т. д.) для на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [2] без глубоких научных изысканий и программирования сложных систем.
Таким образом, целесообразно создание медицинской статистической аналитической системы на основе алгоритмов машинного обучения, которая поможет медицинским аналитикам получить доступ к современным мощным и бесплатным библиотекам машинного обучения и использовать их в своей работе. При этом им не будут требоваться дополнительные знания языков программирования таких как Python или R.
Объектом исследования является медицинская информационно-аналитическая система. Предметом исследования - методы интеллектуального анализа данных для решения задач в области медицины.
Целью работы является разработка проекта реализации программного и математического обеспечения медицинской аналитической системы.
Задачи магистерской работы:
1) анализ информационных медицинских аналитических систем;
2) классификация задач и обзор научных работ, посвящённых анализу данных в сфере медицины;
3) постановка задачи для проведения исследования и разработки математического и программного обеспечений;
4) обзор существующих методов интеллектуального анализа данных;
5) анализ научных работ по использованию механизмов машинного обучения в медицине и описание примеров использования механизмов;
6) разработка математического и программного обеспечений медицинской аналитической системы;
7) разработка плана коммерциализации проекта.
При работе над магистерской работой использовались научная и научно-исследовательская литература. Кроме того, в ходе подготовки работы была проведена апробация программного и математического обеспечения, результаты которой представлены в статье «Медицинская аналитическая система на основе Data Mining» в сборнике материалов LIV Студенческой международной научно-практической конференции «НАУЧНОЕ СООБЩЕСТВО СТУДЕНТОВ XXI СТОЛЕТИЯ» технические Науки.
На основе полученных знаний во время обучения по направлению «Бизнес- информатика» и анализа научной и научно-исследовательской литературы и публикаций была проведена работа над разработкой математического и программного обеспечения медицинской аналитической системы.
В рамках проведённого исследования:
1. Определено понятие медицинской информационно-аналитической системы - комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ для решения задачи сферы медицины. Проведён анализ аналитического программного обеспечения.
2. Проведён анализ задач и обзор научных работ, посвящённых анализу данных в сфере медицины, в ходе которого выделено четыре основных класса задач:
- задачи медицинской диагностики;
- задачи анализа изображений (томография, рентгеновские снимки и т.п.);
- задачи классификации и кластеризации;
- задачи предсказания (например, предсказание заболеваемости).
3. Определенна задача для проведения исследования, на примере решения которой разработан проект математического и программного обеспечения медицинской аналитической системы: прогнозирование факта смерти пациента, больного злокачественным новообразованием на основе базы данных с информацией о мониторинге злокачественных новообразований у детей и подростков.
4. Проведено исследование существующих методов интеллектуального анализа данных для разработки математического программного обеспечения. Проведён анализ научных работ по использованию механизмов машинного обучения в медицине и описаны примеры их использования.
5. Разработан проект реализации программного обеспечения медицинской аналитической системы: система разделена на две основные части:
- подсистема ввода, хранения и управления данными.
- подсистема анализа данных.
В качестве СУБД для хранения данных выбрана PostgreSQL, подсистема ввода, хранения и управления данными будет реализована на основе фреймворка Django работающего на основе Python 3. Подсистема анализа данных реализуется, с использованием различных библиотек для решения конкретных задач в контексте системы.
6. Определено математическое обеспечение системы: наиболее эффективными на примере решаемой задачи показали себя алгоритмы Random Forest (0,781) и Gradient Tree (0,779).
7. Составлена дорожная карта коммерциализации проекта на два года и составлен календарный план работ на первый год коммерциализации проекта. Предполагаемый срок разработки и тестирования такого программного продукта - 1 год.
Таким образом, решены все поставленные в данной работе задачи и цель магистерской работы можно считать достигнутой. Результаты исследования планируется внедрить в онкогематологическом отделении «Челябинской областной детской клинической больнице».
Направление дальнейшего исследования: повышение эффективности механизмов анализа данных.
1. Ревякина О. Большие Данные в медицине и здравоохранении // Издательство «Открытые Системы». 2014. URL:
https://www.osp.ru/medit/2014/04/13040834.html (дата обращения: 20.05.2018).
2. Tomar D., Agarwal S. A survey on Data Mining approaches for Healthcare // International Journal of Bio-Science and Bio-Technology. - 2013. - Vol. 5 № 5. - P. 241266.
3. Некоммерческая организация «Ассоциация московских вузов». Россий
ский национальный исследовательский медицинский университет имени И. И. Пирогова Министерства здравоохранения и социального развития Российской Федерации. Научно-образовательный материал «Современные информационные технологии в здравоохранении, комплексные АИС ЛПУ» Москва, 2011. // URL:
http://rsmu.ru/fileadmin/rsmu/img/about_rsmu/assoc_mosk_vuz_soc_obsluzh_obraz/20 11/ n5_68_1/nom_n5_68_1_2_1_z.pdf. Дата обращения: 20.05.2018.
4. Кобринский Б.А., Зарубина Т.В. Учебник «Медицинская информатика» // М.: Изд. Центр «Академия», 2009, 192с.
5. Белов В.С. ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ СИСТЕМЫ. Основы проектирования и применения: учебное пособие, руководство, практикум / Московский государственный университет экономики, статистики и информатики.
— М., 2015. — 111 с.
6. Inmon W. H.Building the Data Warehouse, Third Edition John Wiley & Sons, Inc. New York, 2002 - 428 p.
7. Iqbal, M.I. Detection of vascular intersection in retina fundus image using modified cross point number and neural network technique / A.M. Aibinu, M. Nilsson, I.B. Tijani more authors // Int. Conf. Comput. Commun. Eng. - 2008. - P. 241-246.
8. Баевский Р.М. Прогнозирование состояний на грани нормы и патологии.
— М.: Медицина, 1979. — 298 с
9. Карасева Т.С. Решение задач медицинской диагностики методами интеллектуального анализа данных // Решетневские чтения. 2015. №19. URL:
https://cyberleninka.ru/article/nZreshenie-zadach-meditsinskoy-diagnostiki-metodami- intellektualnogo-analiza-dannyh (дата обращения: 20.05.2018).
10. Langley P., Iba W., Thompson K. An analysis of Bayesian classifiers // Proceedings of the Tenth National Conference on Artificial Intelligence. San Jose, CA : AAAI, 1992. P. 223-228.
11. Дмитриев Г.А., Аль-Факих Али Салех Али Система диагностики и
оценки риска остеопоротического перелома на основе интеллектуального анализа данных // Программные продукты и системы. 2016. №3 (115). URL:
https://cyberleninka.ru/article/n/sistema-diagnostiki-i-otsenki-riska- osteoporoticheskogo-pereloma-na-osnove-intellektualnogo-analiza-dannyh (дата обращения: 20.05.2018).
12. Beck, T. Robust model-based centerline extraction of vessels in CTA data / T. Beck, C. Biermann, D. Fritz, R. Dillmann // Proceedings of SPIE. - 2009. - Vol. 7259. - 72593O(9 pp). -doi:10.1117/12.810753.
13. Sinthanayothin, C. Automated localisation of the optic disc, fovea, and retinal blood vessels from digital colour fundus images / C. Sinthanayothin, J. Boyce, H. Cook, T. Williamson // British Journal of Ophthalmology. - 1999. - Vol. 83(8). - P. 902910.
14. Abramoff, M. Web-based screening for diabetic retinopathy in a primary care population: The eye check project / M. Abramoff, M. Suttorp // Telemedicine and eHealth. - 2005. - Vol. 11(6). - P. 668-674.
15. Jan, J. Retinal image analysis aimed at blood vessel tree segmentation and early detection of neural-layer deterioration / J. Jan, J. Odstrcilik, J. Gazarek, R. Kolar // Computerized Medical Imaging and Graphics. - 2012. - Vol. 36(6). - P. 431-441....40