Тема: ВЫЯВЛЕНИЕ ДУБЛИКАТОВ ДОКУМЕНТОВ ДЛЯ ИДЕНТИФИКАЦИИ ПАЦИЕНТОВ В МЕДИЦИНСКИХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Постановка задачи
1.1 Уровни структуризации данных
1.2 Формулировка задачи выявления дубликатов структурированных документов
1.3 Средства и методы выявления дубликатов 9
2 Особенности решения задачи в РМИС 11
2.1 Структура ЭМК 11
2.2 Состав демографических признаков и причины возникновения
дубликатов 12
3 Алгоритмы поиска дубликатов ЭМК 13
3.1 Схема реализации метода шинглирования 13
3.2 Канонизация ЭМК 14
3.3 Алгоритм Shingles 15
3.4 Алгоритм MinHash 16
3.5 Алгоритм Sketch формирования краткого образа ЭМК 18
4 Экспериментальные исследования 20
4.1 Описание программы 20
4.2 Результаты вычислительных экспериментов 20
Заключение 22
Список использованных источников 23
📖 Введение
Наличие дубликатов в РМИС затрудняет идентификацию пациентов, а в ряде случаев может привести к серьёзным последствиям. Основным препятствием для успешного решения описанной выше проблемы является очень большой объем (порядка нескольких миллионов) хранимых в РМИС документов, каждый из которых может содержать несколько тысяч символов. Такой объем данных делает практически невозможным (в разумное время) непосредственное попарное сравнение ЭМК. Одним из путей решения этой проблемы в настоящее время является разработка методов создания кратких образов (скетчей) документов для последующей обработки.
Объектом исследования выпускной квалификационной работы являются методы формирования кратких образов текстовых документов, а предметом исследования - выявление дубликатов документов в РМИС на основе их кратких образов. Методы исследования: методы анализа текстовых данных.
Цель работы: разработка алгоритмов и программ выявления дубликатов текстовых документов, используемых для идентификации пациентов в РМИС.
Для достижения поставленной цели в работе необходимо
- сформулировать задачу выявления дубликатов структурированных документов;
- изучить основные особенности ЭМК пациента, выявить демографические признаки, по которым осуществляется идентификация пациентов, установить причины возникновения дубликатов ЭМК;
- изучить известные методы и средства выявления дубликатов структурированных документов и исследовать возможности их применения в РМИС;
- разработать модель краткого образа документа, алгоритмы и программу её формирования;
- разработать алгоритм и программу выявления дубликатов ЭМК;
- выполнить вычислительные эксперименты.
Выпускная квалификационная работа состоит из введения, четырех разделов, заключения, списка использованных источников и приложения. В разделе 1 приводятся формулировка задачи и краткий обзор методов ее решения. Раздел 2 посвящен установлению особенностей заполнения ЭМК и идентификации пациентов в РМИС. В разделах 3, 4 представлены разработанные алгоритмы и программы выявления дубликатов ЭМК, также приведены результаты вычислительных экспериментов. В приложении приведен текст программ.



