Аннотация
ВВЕДЕНИЕ 4
ГЛОССАРИЙ 6
ГЛАВА 1 ТЕОРЕТИЧЕСКАЯ БАЗА 7
1.1 Анализ информационных медицинских аналитических систем 7
1.2 Хранилища данных 7
1.3 OLAP-средства 8
1.4 Информационно-аналитические системы 8
1.5 Инструменты конечного пользователя 9
1.6 Классификация задач и обзор научных работ, посвящённых анализу
данных в сфере медицины 10
1.7 Описание задачи 13
Выводы по главе 1 14
ГЛАВА 2 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА 16
2.1 Обзор методов интеллектуального анализа данных 16
2.2 Примеры использования механизмов машинного обучения в медицине . 17
Выводы по главе 2 21
ГЛАВА 3 РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ СИСТЕМЫ
АНАЛИЗА ДАННЫХ 23
3.1 Разработка программного обеспечения системы анализа данных 23
3.2 Описание исходных данных 24
3.3 Подготовка данных к анализу 30
3.4 Оценка математического обеспечения механизма прогнозирования 35
3.5 Выбор определяющих признаков и определение математического
обеспечения механизма прогнозирования 36
Выводы по главе 3 41
ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 42
4.1 Актуальность коммерциализации 42
4.2 Цели и задачи 42
Выводы по главе 4 44
ЗАКЛЮЧЕНИЕ 45
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 47
Аналитические системы на основе алгоритмов машинного обучения успешно применяются в медицинской сфере более 10 лет [13]. Такие системы позволяют обрабатывать медицинские клинические данные пациентов в совокупности с сопутствующей демографической информацией (возраст, пол, место жительства и т.д.) и выявлять скрытые закономерности. На основе полученных закономерностей можно ставить диагнозы, прогнозировать развитие болезней и многое другое.
Выполнение такой работы человеком не всегда рентабельно, поскольку анализ может оказаться трудоемким и требовать привлечения специалистов высокой квалификации. Кроме того, закономерности, скрытые в данных, не всегда могут быть обнаружены человеком. Частичная автоматизация процесса, которую обеспечивают аналитические системы, позволяет сократить время на выполнение анализа, а значит сделать его дешевле. Снижение цены благоприятно сказывается на распространении Data Mining, особенно в сфере коммерческой медицины.
В контексте российской медицины, применение таких систем часто осложнено организационными и финансовыми проблемами. В свою очередь открытые для бесплатного использования библиотеки машинного обучения (например, Scickit Learn, TensorFlow, Pandas, и т. д.) для на сегодняшний день при грамотном использовании позволяют достичь высоких результатов [13] без глубоких научных изысканий и программирования сложных систем.
Таким образом, целесообразно создание медицинской статистической аналитической системы на основе алгоритмов машинного обучения, которая поможет медицинским аналитикам получить доступ к современным мощным и бесплатным библиотекам машинного обучения и использовать их в своей работе. При этом им не будут требоваться дополнительные знания языков программирования таких как Python или R.
Цель магистерской работы - разработка медицинской информационной системы для анализа исходных данных пациента и предсказания его диагноза и стадии протекания болезни.
Задачи магистерской работы:
1) анализ информационных медицинских аналитических систем;
2) классификация задач и обзор научных работ, посвящённых анализу данных в сфере медицины;
3) постановка задачи для проведения исследования и разработки математического и программного обеспечений;
4) обзор существующих методов интеллектуального анализа данных;
5) анализ научных работ по использованию механизмов машинного обучения в медицине и описание примеров использования механизмов;
6) разработка математического и программного обеспечений медицинской аналитической системы;
7) разработка плана коммерциализации проекта.
При работе над магистерской работой использовались научная и научно-исследовательская литература.
В рамках работы определено понятие медицинской информационно- аналитической системы - комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ для решения задачи сферы медицины. Проведён анализ аналитического программного обеспечения.
Проведён анализ задач и обзор научных работ, посвящённых анализу данных в сфере медицины, в ходе которого выделено четыре основных класса задач.
1) задачи медицинской диагностики;
2) задачи анализа изображений (томография, рентгеновские снимки и т.п.);
3) задачи классификации и кластеризации;
4) задачи предсказания (например, предсказание заболеваемости).
Определенна задача для проведения исследования, на примере решения которой разработан проект математического и программного обеспечения медицинской аналитической системы: прогнозирование факта смерти пациента, больного злокачественным новообразованием на основе базы данных с информацией о мониторинге злокачественных новообразований у детей и подростков.
Для разработки математического программного обеспечения был проведён обзор существующих методов интеллектуального анализа данных. Проведён анализ научных работ по использованию механизмов машинного обучения в медицине и описаны примеры их использования.
Разработан проект реализации программного обеспечения медицинской аналитической системы: система разделена на две основные части.
1) Подсистема ввода, хранения и управления данными.
2) Подсистема анализа данных.
В качестве СУБД для хранения данных выбрана PostgreSQL, подсис- 45
тема ввода, хранения и управления данными будет реализована на основе фреймворка Django работающего на основе Python 3. Подсистема анализа данных реализуется, с использованием различных библиотек для решения конкретных задач в контексте системы.
Определено математическое обеспечение системы: наиболее эффективными на примере решаемой задачи показали себя алгоритмы Random Forest (0,781) и Gradient Tree (0,779).
Кроме того, составлена дорожная карта коммерциализации проекта на два года и составлен календарный план работ на первый год коммерциализации проекта. Предполагаемый срок разработки и тестирования такого программного продукта - 1 год.
Таким образом, решены все поставленные в данной работе задачи и основную цель магистерской работы можно считать достигнутой.
1. Abramoff, M. Web-based screening for diabetic retinopathy in a primary care population: The eye check project / M. Abramoff, M. Suttorp // Telemedicine and e-Health. - 2005. - Vol. 11(6). - P. 668-674.
2. ANBARASI M., ANUPRIYA E., N.CH.S.N.IYENGAR, Enhanced Prediction of Heart Disease with Feature Subset Selection using Genetic Algorithm, International Journal of Engineering Science and Technology Vol. 2(10), 2010, 5370-5376.
3. Cao Z., Cao S., Xiong G., Guo L.Progress in Study of Encrypted Traffic Classification. In Proceedings of International standard conference on trustworthy computing and services, 2012, Beijing, China, pp. 78-86
4. Gregory, S. Nearest-neighbor methods in learning and vision: theory and practice / S. Gregory, D. Trevor, I. Piotr // Neural Information Processing / MIT Press, 2006.
5. Iqbal, M.I. Detection of vascular intersection in retina fundus image using modified cross point number and neural network technique / A.M. Aibinu, M. Nilsson, I.B. Tijani more authors // Int. Conf. Comput. Commun. Eng. - 2008. - P. 241-246.
6. Jan, J. Retinal image analysis aimed at blood vessel tree segmentation and early detection of neural-layer deterioration / J. Jan, J. Odstrcilik, J. Gazarek, R. Kolar // Computerized Medical Imaging and Graphics. - 2012. - Vol. 36(6). - P. 431-441.
7. Kheng, G.G. An automatic diabetic retinal image screening system book chapter in medical data mining and knowledge discovery / G.G. Kheng, H.S. Wynne, M. Li, H. Wang // Edited by Krzysztof Cios. - 2001. - Vol. 29. - P. 181210.
8. M. Durairaj, V. Ranjani, Data Mining Applications In Healthcare Sector: A Study, International Journal of Engineering Science and Technology Vol. 2(10), 2013, 2277-8616.
9. Marin, D. A new supervised method for blood vessel segmentation in retinal images by using gray-level and moment invariants-based features / D. Marin, A. Aquino, M.E. Gegundez-Arias, J.M. Bravo // IEEE Transactions on Medical Imaging. - 2011. - Vol. 30(1). -P. 146-158.
10. Newey, V.R. Online artery diameter measurement in ultrasound images using artificial neural networks / V.R. Newey, D.K. Nassiri // Ultrasound Med. Biol. - 2002. - Vol. 28(2). - P. 209-216.
11. Rajkumar Asha, G.Sophia Reena, Diagnosis Of Heart Disease Using Datamining Algorithm, Global Journal of Computer Science and Technology 38 Vol. 10 Issue 10 Ver. 1.0 September 2010.
12. Sellappan Palaniappan Rafiah Awang, Intelligent Heart Disease Prediction System Using Data Mining Techniques, IJCSNS International Journal of Computer Science and Network Security, VOL.8 No.8, August 2008.
13. Sinthanayothin, C. Automated localisation of the optic disc, fovea, and retinal blood vessels from digital colour fundus images / C. Sinthanayothin, J. Boyce, H. Cook, T. Williamson // British Journal of Ophthalmology. - 1999. - Vol. 83(8). - P. 902-910.
14. Tomar D., Agarwal S. A survey on Data Mining approaches for Healthcare // International Journal of Bio-Science and Bio-Technology. - 2013. - Vol. 5 № 5. - P. 241-266.
15. Баевский Р.М. Прогнозирование состояний на грани нормы и патологии. — М.: Медицина, 1979. — 298 с....24