Тип работы:
Предмет:
Язык работы:


ВЫЯВЛЕНИЕ ДУБЛИКАТОВ ДОКУМЕНТОВ ДЛЯ ИДЕНТИФИКАЦИИ ПАЦИЕНТОВ В МЕДИЦИНСКИХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

Работа №20858

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы26
Год сдачи2016
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
403
Не подходит работа?

Узнай цену на написание


Введение
1 Постановка задачи
1.1 Уровни структуризации данных
1.2 Формулировка задачи выявления дубликатов структурированных документов
1.3 Средства и методы выявления дубликатов 9
2 Особенности решения задачи в РМИС 11
2.1 Структура ЭМК 11
2.2 Состав демографических признаков и причины возникновения
дубликатов 12
3 Алгоритмы поиска дубликатов ЭМК 13
3.1 Схема реализации метода шинглирования 13
3.2 Канонизация ЭМК 14
3.3 Алгоритм Shingles 15
3.4 Алгоритм MinHash 16
3.5 Алгоритм Sketch формирования краткого образа ЭМК 18
4 Экспериментальные исследования 20
4.1 Описание программы 20
4.2 Результаты вычислительных экспериментов 20
Заключение 22
Список использованных источников 23



Региональная медицинская информационная система (РМИС) - это единая информационная база медицинского обслуживания пациентов всех клиник некоторого региона. В настоящее время такие системы создаются и внедряются во многих регионах Российской федерации, включая Красноярский край. База данных РМИС включает в себя фонд электронных медицинских карт (ЭМК) пациентов, единый регистр застрахованных лиц (РСЛ), архив медицинских документов (результатов функциональной диагностики, лабораторных исследований и др.). Вся эта информация поступает из различных источников, не гарантирующих полноту указания основных демографических данных и отсутствие опечаток, неточностей. В результате сведения, относящиеся к истории болезни одного и того же пациента, в РМИС могут быть привязаны к различным доку-ментам (ЭМК или записям РСЛ), которые в основном совпадают, но все же имеют некоторые различия. Такие документы принято называть почти дубликатами или просто дубликатами. Два документа считаются дубликатами, если не-которая количественная оценка их сходства превышает определённый порог.
Наличие дубликатов в РМИС затрудняет идентификацию пациентов, а в ряде случаев может привести к серьёзным последствиям. Основным препятствием для успешного решения описанной выше проблемы является очень большой объем (порядка нескольких миллионов) хранимых в РМИС документов, каждый из которых может содержать несколько тысяч символов. Такой объем данных делает практически невозможным (в разумное время) непосредственное попарное сравнение ЭМК. Одним из путей решения этой проблемы в настоящее время является разработка методов создания кратких образов (скетчей) документов для последующей обработки.
Объектом исследования выпускной квалификационной работы являются методы формирования кратких образов текстовых документов, а предметом исследования - выявление дубликатов документов в РМИС на основе их кратких образов. Методы исследования: методы анализа текстовых данных.
Цель работы: разработка алгоритмов и программ выявления дубликатов текстовых документов, используемых для идентификации пациентов в РМИС.
Для достижения поставленной цели в работе необходимо
- сформулировать задачу выявления дубликатов структурированных документов;
- изучить основные особенности ЭМК пациента, выявить демографические признаки, по которым осуществляется идентификация пациентов, установить причины возникновения дубликатов ЭМК;
- изучить известные методы и средства выявления дубликатов структурированных документов и исследовать возможности их применения в РМИС;
- разработать модель краткого образа документа, алгоритмы и программу её формирования;
- разработать алгоритм и программу выявления дубликатов ЭМК;
- выполнить вычислительные эксперименты.
Выпускная квалификационная работа состоит из введения, четырех разделов, заключения, списка использованных источников и приложения. В разделе 1 приводятся формулировка задачи и краткий обзор методов ее решения. Раздел 2 посвящен установлению особенностей заполнения ЭМК и идентификации пациентов в РМИС. В разделах 3, 4 представлены разработанные алгоритмы и программы выявления дубликатов ЭМК, также приведены результаты вычислительных экспериментов. В приложении приведен текст программ.




Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе сформулирована задача выявления дубликатов структурированных документов. Определены причины возникновения дубликатов ЭМК пациентов, составляющих значительную часть базы данных РМИС и на основании которых осуществляется идентификация пациентов. Поставленная задача решена с помощью метода шинглирования, модифицированного с учетом специфики ЭМК и причин возникновения дубликатов ЭМК. Дубликаты выявляются на основе кратких числовых образов сравниваемых документов. Созданы алгоритмы и программа формирования краткого образа документа и выявления дубликатов ЭМК. Выполнены вычислительные эксперименты.


1 Баханин, В. Н. О задании меры сходства для кластеризации текстовых документов / В. Н. Баханин, В. А. Нехаева, А. М. Федотов // Вестник НГУ. Серия Информационные технологии. - 2008. - Т. 6. - Вып. 1. - С. 3-9.
2 Гасфилд, Д. Строки, деревья и последовательности в алгоритмах / Д. Гасфилд. - СПб.: Невский Диалект; БХВ-Петербург, 2003. - 654 с.
3 Голубев, С. В. Распознавание структурированных документов на основе машинного обучения / С. В. Голубев // Бизнес-информатика. - 2011. - № 2. - С. 48-55.
4 Гула, А. Ю. Задача идентификации физических и юридических лиц в хранилищах данных [Электронный ресурс] / А. Ю. Гула, А. П. Игнатенко, А. В. Чадюк // VI Межд. конференция по программированию УкрПРОГ'2008, Киев, Украина. - 2008. - Режим доступа:http://eprints.isofts.kiev.ua/416/.
5 Деза, Е. И. Энциклопедический словарь расстояний / Е. И. Деза, М. М. Деза. - М.: Наука, 2008. - 444 с.
6 Загоруйко, Н. Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко. - Новосибирск: ИМ СО РАН, 1999. - 270 с.
7 Игнатов, Д. И. О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков / Д. И. Игнатов, С. О. Кузнецов // Труды X национальной конференции по искусственному интеллекту (КИИ'06). Т. 2. - М.: Физматлит, 2006. - С. 249-258.
8 Игнатов, Д. И. Разработка и апробация системы поиска дубликатов в текстах проектной документации / Д. И. Игнатов, С. О. Кузнецов, В. Б. Лопатникова, И. А. Селицкий // Бизнес-информатика. - 2008. - № 4. - С. 21-28.
9 Пинжин, А. Е. Применение вероятностного алгоритма соединения записей для исключения дублирования информации в корпоративной базе данных /
60 Рубцов, Д. Н.Выявление дубликатов в разнородных библиографических источниках / Д. Н. Рубцов, В. Б. Барахнин // Вестник НГУ. Серия Информационные технологии. - 2009. - Т. 7. - Вып. 3. - С. 86-93.
66 Шахов, А. В. О задаче идентификации пациентов по набору демографических признаков в региональной медицинской информационной системе Красноярского края / А. В. Шахов, В. Г. Азанов, А. В. Капустина, И. С. Петренко // Труды XIV конференции по финансово-актуарной математике. - Красноярск. - 2015.- С. 337-340.
62 Цыганов, Н. Л. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя / Н. Л. Цыганов, М. А. Цикалин // Интернет-математика 2007. - Екатеринбург: Изд-во Урал. ун-та. - 2007. - С. 211-222.
13 Bernstein, Y. The Case of the Duplicate Documents: Measurement, Search, and Science / Y. Bernstein, J. Zobel // Proc. of the Eighth Asia Pacific Web Conference. - LNCS. - 2006. - Vol. 3841. - P. 26-39.
14 Broder, A. Syntactic Clustering of Web / A. Broder, S. Glassman, M. Manasse, G. Zweig // Computer Networks and ISDN Systems. - 1997. - Vol. 29 (8-13). - P. 1157-1166.
15 Broder, A. On the resemblance and containment of documents [Электронный ресурс] / A. Broder // Compression and Complexity of Sequences
(SEQUENCES'97), IEEE Computer Society. - 1998. - P. 21 -29. - Режим доступа: http://ftp.digital.com/pub/Digital/SRC/publications/broder/positano-final-wpnums.pdf.
16 Esposito, F. Machine Learning for Digital Document / F. Esposito, S. Ferilli, T. Basile, N. Di Mauro // Proc. from Layout Analysis to Metadata Extrac¬tion, Machine Learning in Document Analysis and Recognition. - Berlin: Springer¬Verlag. - 2008. - Vol. 90. - P. 105-138.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ