Тема: Разработка прототипа автоматизированной системы поиска дубликатов документов для цифровых научных библиотек
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 5
1.1. Обзор литературы 5
1.2. Имеющиеся решения 9
2. ПРОБЛЕМЫ И ЗАДАЧИ 10
2.1. Организация данных научных библиотек 10
2.2. Способы хранения данных 11
2.3. Требования к системе 11
3. ПОДХОД И РЕШЕНИЕ 13
3.1. Обход электронного ресурса 13
3.2. TF-RIDF и веса слов 16
3.3. Архитектура системы 18
4. РЕАЛИЗАЦИЯ 22
4.1. Технологии 22
4.2. Многопоточная обработка ресурса 22
4.3. Добавление и обновление данных 25
4.4. Контрольная сумма и дубликаты 28
5. РЕЗУЛЬТАТЫ 30
ЗАКЛЮЧЕНИЕ 34
ГЛОССАРИЙ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
📖 Введение
Эта проблема часто решается посредством сервисов антиплагиата, которые оперируют своими закрытыми базами данных и, как правило, не дают к ним доступа. Но обособленные научные библиотеки, с быстро растущими объемами данных, не могут опираться на эти сервисы, как на безошибочный способ определения уникальности внутри самой библиотеки. Нет никакой уверенности в том, что научный документ, будучи занесенным в базу научной библиотеки, был добавлен и в базу сервисов антиплагиата. Поэтому для обеспечения уникальности документов научным библиотекам необходимо самим реализовывать систему поиска дубликатов, а это затратно как по времени, так и по силам.
Решением данной проблемы является создание сервиса поиска дубликатов научных библиотек с открытой и расширяемой базой данных, позволяющего научным библиотекам без лишних усилий вносить в него большие объемы данных и проверять на уникальность новые научные документы.
Объектом исследования является процесс создания сервиса поиска дубликатов научных библиотек.
Предметом исследования является поиск дубликатов документов научных библиотек.
Целью исследования является разработка сервиса поиска дубликатов в научных библиотеках.
Для достижения этой цели необходимо решить четыре задачи:
1. Исследовать способ организации электронных ресурсов научных библиотек с целью эффективного сбора данных научных документов;
2. Определить наилучший способ хранения данных научных библиотек с возможностью их расширения;
3. Исследовать существующие алгоритмы поиска дубликатов и определить лучше подходящий для большого объема постоянно изменяющихся данных;
4. Реализовать систему поиска дубликатов в научных библиотеках.
✅ Заключение
• Исследованы способы организации данных в цифровых научных библиотеках и определен оптимальный способ сбора данных;
• Определена оптимальная архитектура базы данных, позволяющая добавлять и обновлять данные за приемлемое время;
• Исследованы алгоритмы поиска дубликатов и выбран алгоритм, работающий с хорошими показателями как времени, так и точности;
• Реализована система поиска дубликатов для цифровых научных библиотек на основе алгоритма определения значимости слов TF-RIDF, позволяющая пользователям индексировать необходимые им научные библиотеки.
Поставленная цель - разработка системы поиска дубликатов документов для цифровых научных библиотек - была достигнута.
Данная работа размещена на gitlab -
http: //gititis .kpfu.ru/Romanov/ duplicatefinder.
Реализованное решение может быть использовано как цифровыми научными библиотеками для проверки новых документов на наличие дублей внутри их баз данных, так и любыми другими пользователями для проверки оригинальности документов научной тематики.
В дальнейшем может быть сделано следующее:
• Поддержка различных форматов данных проверяемых документов;
• Использование какой-либо базы научных библиотек для автоматического индексирования новых библиотек.



