Тема: Автоматизация сверки и устранения дубликатов в персональных данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Глава 1. Обзор литературы и существующих решений 6
1.1. Литература 6
1.2. Существующие решения 9
Глава 2. Данные 12
2.1. Данные, предоставленные МИАЦ 12
2.2. Тестовые данные 12
Глава 3. Предварительная обработка данных 14
3.1. Виды ошибок 14
3.2. Способы устранения ошибок 15
3.3. Результаты предобработки 16
Глава 4. Алгоритм поиска дубликатов 17
4.1. Индексирование 17
4.2. Вычисление матрицы расстояний 18
4.3. Поиск дубликатов 19
4.4. Мера качества 20
4.5. Полученные результаты 21
4.6. Устранение дубликатов 23
Глава 5. Структура библиотеки 24
5.1. Принципы построения 24
5.2. Описание модулей 25
Заключение 28
Список источников и литературы 29
📖 Введение
Специфика процесса накопления персональных данных подробно описана в статье [1]. В течение жизни у человека появляются и исчезают такие идентификаторов личности, как номер бирки новорождённого, номер свидетельства о рождении, номера паспортов (российских и заграничных), номера страховых полисов и т.д. В различных учреждениях идентификация пациента происходит на основе своих собственных политик, следовательно при агрегации данных из различных источников возникает задача сопоставления данных, которые описывают одну и ту же сущность. Помимо того что данные представлены в различных форматах, не стоит забывать о человеческом факторе: записи могут содержать ошибки и опечатки. Кроме вышеописанных сложностей также существует проблема подмена идентичности. Ее причиной может стать как пациент (воспользовался чужим удостоверением личности), так и врач (взял биоматериал одного человека, а в документах указал другого). В качестве решения этой проблемы автор статьи предлагает предоставление доступа пациентам к информации о том, какие медицинские услуги им были оказаны. Данная статья дает весьма полное представление о том, какие проблемы возникают при идентификации личности, в чем их причины и что стоит обязательно учесть при создании таких информационных систем, как медицинские.
Помимо сложностей, возникающих из-за особенностей приобретения идентификаторов, авторы статьи [2] обозначают еще одну немаловажную проблему, с которой сталкиваются специалисты по работе с данными — приватность персональных данных. Из-за юридических ограничений далеко не всегда есть возможность идентифицировать человека по его уникальному номеру (аналогом в РФ могут служить серия и номер паспорта). В таких ситуациях идентификация происходит на основе комбинации таких признаков, как имя, фамилия, пол, дата рождения и т.д. Однако, если даже у одного исследовательского центра есть доступ к уникальному идентификатору пациента, то они могут быть использованы только в рамках собственных исследований. Иными словами, при агрегации данных с другими источниками уникальные идентификаторы не могут быть переданы другим организациям, что существенно снижает полезность таких идентификаторов.
✅ Заключение
В ходе работы был разработан прототип библиотеки, включающий в себя как и инструменты для предобработки данных, так и методы поиска дубликатов. Алгоритм был протестирован на тестовой выборке, показал приемлемые результаты, тем самым доказав, что идеи, на которых он основан, являются перспективными. Дальнейшую разработку прототипа библиотеки планируется направить на устранение недостатков текущей версии алгоритма, среди которых главным является необходимость подбора пороговых значений вручную.





