📄Работа №20858

Тема: ВЫЯВЛЕНИЕ ДУБЛИКАТОВ ДОКУМЕНТОВ ДЛЯ ИДЕНТИФИКАЦИИ ПАЦИЕНТОВ В МЕДИЦИНСКИХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Математика

📄

Объем: 26 листов

📅

Год: 2016

👁️

5600 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение
1 Постановка задачи
1.1 Уровни структуризации данных
1.2 Формулировка задачи выявления дубликатов структурированных документов
1.3 Средства и методы выявления дубликатов 9
2 Особенности решения задачи в РМИС 11
2.1 Структура ЭМК 11
2.2 Состав демографических признаков и причины возникновения
дубликатов 12
3 Алгоритмы поиска дубликатов ЭМК 13
3.1 Схема реализации метода шинглирования 13
3.2 Канонизация ЭМК 14
3.3 Алгоритм Shingles 15
3.4 Алгоритм MinHash 16
3.5 Алгоритм Sketch формирования краткого образа ЭМК 18
4 Экспериментальные исследования 20
4.1 Описание программы 20
4.2 Результаты вычислительных экспериментов 20
Заключение 22
Список использованных источников 23

📖 Введение

Региональная медицинская информационная система (РМИС) - это единая информационная база медицинского обслуживания пациентов всех клиник некоторого региона. В настоящее время такие системы создаются и внедряются во многих регионах Российской федерации, включая Красноярский край. База данных РМИС включает в себя фонд электронных медицинских карт (ЭМК) пациентов, единый регистр застрахованных лиц (РСЛ), архив медицинских документов (результатов функциональной диагностики, лабораторных исследований и др.). Вся эта информация поступает из различных источников, не гарантирующих полноту указания основных демографических данных и отсутствие опечаток, неточностей. В результате сведения, относящиеся к истории болезни одного и того же пациента, в РМИС могут быть привязаны к различным доку-ментам (ЭМК или записям РСЛ), которые в основном совпадают, но все же имеют некоторые различия. Такие документы принято называть почти дубликатами или просто дубликатами. Два документа считаются дубликатами, если не-которая количественная оценка их сходства превышает определённый порог.
Наличие дубликатов в РМИС затрудняет идентификацию пациентов, а в ряде случаев может привести к серьёзным последствиям. Основным препятствием для успешного решения описанной выше проблемы является очень большой объем (порядка нескольких миллионов) хранимых в РМИС документов, каждый из которых может содержать несколько тысяч символов. Такой объем данных делает практически невозможным (в разумное время) непосредственное попарное сравнение ЭМК. Одним из путей решения этой проблемы в настоящее время является разработка методов создания кратких образов (скетчей) документов для последующей обработки.
Объектом исследования выпускной квалификационной работы являются методы формирования кратких образов текстовых документов, а предметом исследования - выявление дубликатов документов в РМИС на основе их кратких образов. Методы исследования: методы анализа текстовых данных.
Цель работы: разработка алгоритмов и программ выявления дубликатов текстовых документов, используемых для идентификации пациентов в РМИС.
Для достижения поставленной цели в работе необходимо
- сформулировать задачу выявления дубликатов структурированных документов;
- изучить основные особенности ЭМК пациента, выявить демографические признаки, по которым осуществляется идентификация пациентов, установить причины возникновения дубликатов ЭМК;
- изучить известные методы и средства выявления дубликатов структурированных документов и исследовать возможности их применения в РМИС;
- разработать модель краткого образа документа, алгоритмы и программу её формирования;
- разработать алгоритм и программу выявления дубликатов ЭМК;
- выполнить вычислительные эксперименты.
Выпускная квалификационная работа состоит из введения, четырех разделов, заключения, списка использованных источников и приложения. В разделе 1 приводятся формулировка задачи и краткий обзор методов ее решения. Раздел 2 посвящен установлению особенностей заполнения ЭМК и идентификации пациентов в РМИС. В разделах 3, 4 представлены разработанные алгоритмы и программы выявления дубликатов ЭМК, также приведены результаты вычислительных экспериментов. В приложении приведен текст программ.

✅ Заключение

В работе сформулирована задача выявления дубликатов структурированных документов. Определены причины возникновения дубликатов ЭМК пациентов, составляющих значительную часть базы данных РМИС и на основании которых осуществляется идентификация пациентов. Поставленная задача решена с помощью метода шинглирования, модифицированного с учетом специфики ЭМК и причин возникновения дубликатов ЭМК. Дубликаты выявляются на основе кратких числовых образов сравниваемых документов. Созданы алгоритмы и программа формирования краткого образа документа и выявления дубликатов ЭМК. Выполнены вычислительные эксперименты.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1 Баханин, В. Н. О задании меры сходства для кластеризации текстовых документов / В. Н. Баханин, В. А. Нехаева, А. М. Федотов // Вестник НГУ. Серия Информационные технологии. - 2008. - Т. 6. - Вып. 1. - С. 3-9.
2 Гасфилд, Д. Строки, деревья и последовательности в алгоритмах / Д. Гасфилд. - СПб.: Невский Диалект; БХВ-Петербург, 2003. - 654 с.
3 Голубев, С. В. Распознавание структурированных документов на основе машинного обучения / С. В. Голубев // Бизнес-информатика. - 2011. - № 2. - С. 48-55.
4 Гула, А. Ю. Задача идентификации физических и юридических лиц в хранилищах данных [Электронный ресурс] / А. Ю. Гула, А. П. Игнатенко, А. В. Чадюк // VI Межд. конференция по программированию УкрПРОГ'2008, Киев, Украина. - 2008. - Режим доступа:http://eprints.isofts.kiev.ua/416/.
5 Деза, Е. И. Энциклопедический словарь расстояний / Е. И. Деза, М. М. Деза. - М.: Наука, 2008. - 444 с.
6 Загоруйко, Н. Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко. - Новосибирск: ИМ СО РАН, 1999. - 270 с.
7 Игнатов, Д. И. О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков / Д. И. Игнатов, С. О. Кузнецов // Труды X национальной конференции по искусственному интеллекту (КИИ'06). Т. 2. - М.: Физматлит, 2006. - С. 249-258.
8 Игнатов, Д. И. Разработка и апробация системы поиска дубликатов в текстах проектной документации / Д. И. Игнатов, С. О. Кузнецов, В. Б. Лопатникова, И. А. Селицкий // Бизнес-информатика. - 2008. - № 4. - С. 21-28.
9 Пинжин, А. Е. Применение вероятностного алгоритма соединения записей для исключения дублирования информации в корпоративной базе данных /
60 Рубцов, Д. Н.Выявление дубликатов в разнородных библиографических источниках / Д. Н. Рубцов, В. Б. Барахнин // Вестник НГУ. Серия Информационные технологии. - 2009. - Т. 7. - Вып. 3. - С. 86-93.
66 Шахов, А. В. О задаче идентификации пациентов по набору демографических признаков в региональной медицинской информационной системе Красноярского края / А. В. Шахов, В. Г. Азанов, А. В. Капустина, И. С. Петренко // Труды XIV конференции по финансово-актуарной математике. - Красноярск. - 2015.- С. 337-340.
62 Цыганов, Н. Л. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя / Н. Л. Цыганов, М. А. Цикалин // Интернет-математика 2007. - Екатеринбург: Изд-во Урал. ун-та. - 2007. - С. 211-222.
13 Bernstein, Y. The Case of the Duplicate Documents: Measurement, Search, and Science / Y. Bernstein, J. Zobel // Proc. of the Eighth Asia Pacific Web Conference. - LNCS. - 2006. - Vol. 3841. - P. 26-39.
14 Broder, A. Syntactic Clustering of Web / A. Broder, S. Glassman, M. Manasse, G. Zweig // Computer Networks and ISDN Systems. - 1997. - Vol. 29 (8-13). - P. 1157-1166.
15 Broder, A. On the resemblance and containment of documents [Электронный ресурс] / A. Broder // Compression and Complexity of Sequences
(SEQUENCES'97), IEEE Computer Society. - 1998. - P. 21 -29. - Режим доступа: http://ftp.digital.com/pub/Digital/SRC/publications/broder/positano-final-wpnums.pdf.
16 Esposito, F. Machine Learning for Digital Document / F. Esposito, S. Ferilli, T. Basile, N. Di Mauro // Proc. from Layout Analysis to Metadata Extrac¬tion, Machine Learning in Document Analysis and Recognition. - Berlin: Springer¬Verlag. - 2008. - Vol. 90. - P. 105-138.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211427)

Статьи

»» Все статьи

Вход в личный кабинет