Введение 3
ГЛАВА 1. ОБЗОР ПРОБЛЕМ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ПРОТОКОЛОВ
ОСМОТРА ЭЛЕКТРОННЫХ МЕДИЦИНСКИХ КАРТ 6
1.1. АНАЛИЗ СОВРЕМЕННОГО СОСТОЯНИЯ ИССЛЕДОВАНИЙ В ОБЛАСТИ ЗДРАВООХРАНЕНИЯ 6
1.2. МЕТОДЫ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ЭМК 7
1.2.1. Способы решения задачи извлечения
именованных сущностей 7
1.2.2. Методы извлечения именованных сущностей
и з ЭМК 10
ГЛАВА 2. МЕТОДЫ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ПРОТОКОЛОВ ОСМОТРА 13
2.1. Описание данных 13
2.2. Артериальное давление 14
2.3. По Л ПАЦИЕНТА 16
2.4. ЛЕКАРСТВА, ВЫПИСАННЫЕ ПАЦИЕНТУ 19
2.5. ИШЕМИЧЕСКАЯ БОЛЕЗНЬ СЕРДЦА 23
2.6. ВИЗУАЛИЗАЦИЯ ДАННЫХ 3 4
ЗАКЛЮЧЕНИЕ 39
СПИСОК ЛИТЕРАТУРЫ 40
Приложение
В настоящее время современные медицинские информационные системы (МИС) используются в качестве основы для системы электронного документооборота в здравоохранении. МИС осуществляет автоматическую генерацию необходимых отчетных документов и обеспечивает контролируемый доступ к данным пациента и персоналу медицинского учреждения. Для научных исследований биомедицинские данные в том виде, в котором они хранятся в МИС, не представляют особой ценности, поскольку не существует адекватных инструментов для их обработки.
Предварительный анализ данных имеет особое значение для проектирования и разработки хранилища информации, в котором обеспечивается структурированность, правильность и согласованность хранимых биомедицинских данных. Цель анализа - определить неочевидные связи и закономерности, необходимые для извлечения объективной информации.
Наибольшей ценностью обладают данные, содержащиеся в электронных медицинских картах(ЭМК). Электронная медицинская карта - медицинская карта пациента медицинского учреждения в электронной форме. Основная проблема при работе с ЭМК заключается в неоднородности данных, содержащихся в них. Данные могут быть структурированными(результаты лабораторных исследований, результаты биохимического анализа крови), так и частично структурированными или неструктурированными(протокол осмотра пациента).
Поэтому разработка инструментов извлечения данных является одним из перспективных направлений для информационной поддержки биомедицинских исследований. Важную роль в этом контексте играет анализ данных ЭМК, которые вместе определяют цифровой отпечаток пациента. Основываясь на цифровом отпечатке, можно определить закономерности изменений состояния здоровья, особенно течения заболеваний, эффективности назначенного лечения и, как следствие, формирования цифрового фенотипа пациента.
Данные ЭМК также позволяют оценить качество медицинской помощи, адекватность и своевременность медицинских рекомендаций. В то же время основная задача извлечения достоверной информации из неструктурированных данных ЭМК (прежде всего, протоколов обследования пациентов) не имеет универсальных решений, так как клинические тексты на русском языке не стандартизированы. Поэтому для получения необходимых данных необходимо использовать подходы, связанные с извлечением именованных сущностей.
Извлечение именованных сущностей (Named Entity Recognition) является подзадачей извлечения информации, которая стремится найти именованную сущность, упомянутую в неструктурированном тексте, и определить ее в заранее обозначенные категории, такие как имена людей, организации, медицинские коды, даты, количественные показатели и т. д.
В данной работе рассматривается несколько подходов для определения и извлечения именованных сущностей из ЭМК.
Таким образом, целью выпускной квалификационной работы является разработка и программная реализация методов извлечения именованных сущностей из данных ЭМК.
Задачи:
• Исследование методов извлечения именованных сущностей из неструктурированных данных электронных медицинских карт.
• Разработка и программная реализация алгоритмов получения данных по артериальному давлению из текстов протоколов осмотра
• Разработка и программная реализация алгоритмов извлечения имен, фамилий и отчеств из текстов протоколов осмотра для определения пола пациента.
• Разработка и программная реализация алгоритмов получения ишемических болезней сердца из текстов протокола осмотра.
В ходе выполнения дипломной работы были исследованы методы извлечения именованных сущностей из неструктурированных данных ЭМК, разработаны и исследованы алгоритмы извлечения именованных сущностей из текстов протоколов осмотра, а именно: данные по артериальному давлению, ФИО, лекарственным препаратам, названия заболеваний группы “Ишемическая болезнь сердца”; разработанные алгоритмы реализованы в составе сервиса для врача-исследователя.
1. Концепция создания информационной системы в здравоохранении на
период до 2020 года. URL:
http://remedium.ru/legislation/other/detail.php?ID=36180.
2. Приложение к приказу Министерства здравоохранения и социального
развития Российской Федерации от 28 апреля 2011 № 364 «Концепция создания единой государственной информационной системы в сфере здравоохранения». URL: https://www.rosminzdrav.ru/documents/
%207200-prikaz-minzdravsotsrazvitiya-rossii-364-ot-28-aprelya-2011-g.
3. Тавровский В. М., Гусев А. В. К чему должна привести информатизация здравоохранения: попытка спроектировать будущее // Врач и информационные технологии. 2011. № 5. С. 60-76.
4. Лактионова Л. В. Организация информационного пространства медицинского учреждения // Социальные аспекты здоровья населения. 2013. Т. 30. № 2. URL: http://vestnik.mednet.ru/content/view/470/30.
5. Жиляев П. С., Горюнова Т. И. Организация телемедицинской системы Пензенской области // Современные наукоемкие технологии. 2014. № 5-1. С. 127-127.
6. Брумштейн Ю. М., Сивер О. В., Кузьмина А. Б.
Функционально-стоимостные характеристики медицинских информационных систем: опыт системного анализа // Инженерный вестник Дона. 2014. Т. 32. № 4-2. URL:
http://www.ivdon.ru/ru/magazine/archive/n4p2y2014/2638.
7. Куликова И. Б. и др. Современное состояние здравоохранения Тюменской области // Медицинская наука и образование Урала. 2016. Т. 17. № 3. С. 102-105.
8. Garde S. et al. Expressing clinical data sets with openEHR archetypes: a solid basis for ubiquitous computing // International Journal of Medical Informatics. 2007. V. 76. P. 334-341.
9. Dolin R. H. et al. HL7 clinical document architecture, release 2 // Journal of the American Medical Informatics Association. 2006. V. 13. № 1. P. 30-39.
10. Белышев Д. В., Кочуров Е. В. Анализ методов хранения данных в современных медицинских информационных системах // Программные системы: теория и приложения. 2016. Т. 7. № 2 (29). С.85-103.
11. Кобринский Б. А. Автоматизированные регистры медицинского назначения: теория и практика применения. М.: Директ-Медиа, 2016. 149 c.
12. Rapsomaniki, E., Shah, A., Perel, P., Denaxas, S., George, J., Nicholas, O., ... & Smeeth, L. (2013). Prognostic models for stable coronary artery disease based on electronic health record cohort of 102 023 patients. European heart journal, 35(13), 844-852.
13. Miotto, R., Li, L., Kidd, B. A., & Dudley, J. T. (2016). Deep patient: an
unsupervised representation to predict the future of patients from the electronic health records. Scientific reports, 6, 26094. URL:
https://www.nature.com/articles/srep26094
14. Choi, E., Bahadori, M. T., Schuetz, A., Stewart, W. F., & Sun, J. (2016, December). Doctor ai: Predicting clinical events via recurrent neural networks. In Machine Learning for Healthcare Conference (pp. 301-318).
15. Ravi, D., Wong, C., Deligianni, F., Berthelot, M., Andreu-Perez, J., Lo, B., & Yang, G. Z. (2017). Deep learning for health informatics. IEEE journal of biomedical and health informatics, 21(1), 4-21.
16. Shickel, B., Tighe, P. J., Bihorac, A., & Rashidi, P. (2018). Deep EHR: a survey of recent advances in deep learning techniques for electronic health record (EHR) analysis. IEEE journal of biomedical and health informatics, 22(5), 1589-1604.
17. Luo, L., Li, L., Hu, J., Wang, X., Hou, B., Zhang, T., & Zhao, L. P. (2016). A hybrid solution for extracting structured medical information from unstructured data in medical records via a double-reading/entry system. BMC medical informatics and decision making, 16(1), 114. URL: https://bmcmedinformdecismak.biomedcentral.com/track/pdf710.1186/s1291 1-016-0357-5.
18. Kreimeyer, K., Foster, M., Pandey, A., Arya, N., Halford, G., Jones, S. F., ... & Botsis, T. (2017). Natural language processing systems for capturing and standardizing unstructured clinical information: A systematic review. Journal of biomedical informatics, 73, 14-29.
19. Neveol, A., Dalianis, H., Velupillai, S., Savova, G., & Zweigenbaum, P. (2018). Clinical natural language processing in languages other than english: opportunities and challenges. Journal of biomedical semantics, 9(1), 12. URL: https://jbiomedsem.biomedcentral.com/articles/10.1186/s13326-018-0179-8.
20. Baranov A. A., Namazova-Baranova, L.S., Smirnov, I.V., Devyatkin, D.A., Shelmanov, A.O., Vishneva, E.A. et al Methods and means of integrated intellectual analysis of medical data // Proceedings of the Institute for System Analysis of the Russian Academy of Sciences. - 2015. - T. 65. - No. 2.- S. 81-93.
21. Baranov A.A., Namazova-Baranova, L.S., Smirnov, I.V., Devyatkin, D.A., Shelmanov, A.O., Vishneva, E.A. et al Technologies for the integrated intellectual analysis of clinical data // Bulletin of the Russian Academy of Medical Sciences. - 2016. - T. 71. - No. 2. - S. 160-171.
22. Dudchenko P. V., Dudchenko A. V., Kopanitsa G. D. Methods of extracting data from unstructured medical records // Intelligent analysis of signals, data and knowledge: methods and tools. Collection of articles of the II All-Russian scientific-practical conference with international participation.
23. Ratinov L., Roth D. Design challenges and misconceptions in named entity recognition. // Proceedings of the Thirteenth Conference on Computational Natural Language Learning / Association for Computational Linguistics.
2009. P. 147-155.
24. Tjong Kim Sang E.F., De Meulder F. Introduction to the CoNLL-2003 Shared Task: Language-independent Named Entity Recognition // Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 / Association for Computational Linguistics. 2003. P. 142-147.
25. Kim J.-D., Ohta T., Tsuruoka Y., Tateisi Y. Introduction to the Bio-Entity Recognition Task at JNLPBA // Proceedings of the international joint workshop on natural language processing in biomedicine and its applications / Association for Computational Linguistics. 2004. P. 70-75.
26. Nadeau D., Sekine S. A survey of named entity recognition and classification // Lingvisticae Investigationes. 2007. Vol. 30, no. 1. P. 3-26.
27. Rea, S., Pathak, J., Savova, G., Oniki, T. A., Westberg, L., Beebe, C. E. Chute, C. G. (2012). Building a robust, scalable and standards-driven infrastructure for secondary use of EHR data
28. Pathak, J., Bailey, K. R., Beebe, C. E., Bethard, S., Carrell, D. S., Chen, P. J., ... & Huff, S. M. (2013). Normalization and standardization of electronic health records for high-throughput phenotyping: the SHARPn consortium. Journal of the American Medical Informatics Association, 20(e2): e341-e348.
29. Peek N., Holmes J. H., Sun J. (2014) Technical challenges for big data in biomedicine and health: data sources, infrastructure, and analytics //Yearbook of medical informatics. 9(1), 42-47.
30. Hripcsak, G., & Albers, D. J. (2017). High-fidelity phenotyping: richness and freedom from bias. Journal of the American Medical Informatics Association, 25(3), 289-294.
31. Wang, Y., Wang, L., Rastegar-Mojarad, M., Moon, S., Shen, F., Afzal, N., ... & Liu, H. (2018). Clinical information extraction applications: a literature review. Journal of biomedical informatics, 77, 34-49
32. Luo, Y. (2017). Recurrent neural networks for classifying relations in clinical notes. Journal of biomedical informatics, 72, 85-95.
33. Wang, L., Wang, Y., Shen, F., Rastegar-Mojarad, M., & Liu, H. (2018, July). Predicting Practice Setting Using Topic Modeling. In 6th IEEE International Conference on Healthcare Informatics Workshops, ICHI-W 2018 (pp. 62-63). Institute of Electrical and Electronics Engineers Inc.
34. Haendel, M. A., Chute, C. G., & Robinson, P. N. (2018). Classification, ontology, and precision medicine. New England Journal of Medicine, 379(15), 1452-1462.
35. Gribova V.V. et al. Ontology of medical diagnostics for intelligent decision support systems// Design Ontology. - 2018. - T. 8. - No. 1 (27).