Тип работы:
Предмет:
Язык работы:


Разработка прототипа автоматизированной системы поиска дубликатов документов для цифровых научных библиотек

Работа №42234

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы38
Год сдачи2019
Стоимость6500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
203
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 5
1.1. Обзор литературы 5
1.2. Имеющиеся решения 9
2. ПРОБЛЕМЫ И ЗАДАЧИ 10
2.1. Организация данных научных библиотек 10
2.2. Способы хранения данных 11
2.3. Требования к системе 11
3. ПОДХОД И РЕШЕНИЕ 13
3.1. Обход электронного ресурса 13
3.2. TF-RIDF и веса слов 16
3.3. Архитектура системы 18
4. РЕАЛИЗАЦИЯ 22
4.1. Технологии 22
4.2. Многопоточная обработка ресурса 22
4.3. Добавление и обновление данных 25
4.4. Контрольная сумма и дубликаты 28
5. РЕЗУЛЬТАТЫ 30
ЗАКЛЮЧЕНИЕ 34
ГЛОССАРИЙ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ


На данный момент в мире существует огромное количество электронных научных библиотек, оперирующих большими объемами данных, в том числе и в текстовом формате. Количество научных документов неуклонно растет, и, чем больше их становится, тем сложнее отследить их уникальность. При добавлении новых документов необходимо проверять наличие их аналогов, что вручную выполнять очень долго и непрактично, особенно при больших объемах данных. В связи с этим возникает проблема проверки уникальности научных документов и нахождения их дубликатов в контексте научных библиотек.
Эта проблема часто решается посредством сервисов антиплагиата, которые оперируют своими закрытыми базами данных и, как правило, не дают к ним доступа. Но обособленные научные библиотеки, с быстро растущими объемами данных, не могут опираться на эти сервисы, как на безошибочный способ определения уникальности внутри самой библиотеки. Нет никакой уверенности в том, что научный документ, будучи занесенным в базу научной библиотеки, был добавлен и в базу сервисов антиплагиата. Поэтому для обеспечения уникальности документов научным библиотекам необходимо самим реализовывать систему поиска дубликатов, а это затратно как по времени, так и по силам.
Решением данной проблемы является создание сервиса поиска дубликатов научных библиотек с открытой и расширяемой базой данных, позволяющего научным библиотекам без лишних усилий вносить в него большие объемы данных и проверять на уникальность новые научные документы.
Объектом исследования является процесс создания сервиса поиска дубликатов научных библиотек.
Предметом исследования является поиск дубликатов документов научных библиотек.
Целью исследования является разработка сервиса поиска дубликатов в научных библиотеках.
Для достижения этой цели необходимо решить четыре задачи:
1. Исследовать способ организации электронных ресурсов научных библиотек с целью эффективного сбора данных научных документов;
2. Определить наилучший способ хранения данных научных библиотек с возможностью их расширения;
3. Исследовать существующие алгоритмы поиска дубликатов и определить лучше подходящий для большого объема постоянно изменяющихся данных;
4. Реализовать систему поиска дубликатов в научных библиотеках.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате выполнения данной работы было сделано следующее:
• Исследованы способы организации данных в цифровых научных библиотеках и определен оптимальный способ сбора данных;
• Определена оптимальная архитектура базы данных, позволяющая добавлять и обновлять данные за приемлемое время;
• Исследованы алгоритмы поиска дубликатов и выбран алгоритм, работающий с хорошими показателями как времени, так и точности;
• Реализована система поиска дубликатов для цифровых научных библиотек на основе алгоритма определения значимости слов TF-RIDF, позволяющая пользователям индексировать необходимые им научные библиотеки.
Поставленная цель - разработка системы поиска дубликатов документов для цифровых научных библиотек - была достигнута.
Данная работа размещена на gitlab -
http: //gititis .kpfu.ru/Romanov/ duplicatefinder.
Реализованное решение может быть использовано как цифровыми научными библиотеками для проверки новых документов на наличие дублей внутри их баз данных, так и любыми другими пользователями для проверки оригинальности документов научной тематики.
В дальнейшем может быть сделано следующее:
• Поддержка различных форматов данных проверяемых документов;
• Использование какой-либо базы научных библиотек для автоматического индексирования новых библиотек.



1. Гасфилд Д. Строки, деревья и последовательности в алгоритмах [Текст] / Гасфилд Д. // СПб.: Невский диалект, 2003. - 654 с.
2. Broder A. On the resemblance and containment of documents [Text] / A. Broder. // Compression and Complexity of Sequences - 1998. - P. 21-29 .
3. Chowdhury A. Collection statistics for fast duplicate document detection [Text] / Chowdhury A., Frieder O., Grossman D., Mccabe C. // ACM Trans. Inform. Syst. - 2002. - Volume 20. - P. 171-191.
4. Church K. Poisson mixtures [Text] / K. Church, W. Gale. //Natural Language Engineering - 1995. -P 163-190.
5. Fetterly D. A large-scale study of the evolution of web pages [Text] / D. Fetterly, M. Manasse, M. Najork, J. Wiener. // In Proceedings of the twelfth international conference on World Wide Web, Budapest, Hungary, - 2003. - P. 669-678.
6. Heintze N. Scalable document fingerprinting [Text] / Heintze N. // 2nd USENIX Electronic Commerce Workshop Proceedings. - 1996. - P. 191-200.
7. Kolcz A. Improved robustness of signature-based near-replica detection via lexicon randomization [Text] / A. Kolcz, A. Chowdhury, J. Alspector // KDD '04 Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. - 2004. - P. 605-610.
8. Manber U. Finding Similar Files in a Large File System [Text] / Manber U. // WTEC'94 Proceedings of the USENIX Winter 1994 Technical Conference - 1994. -P. 2-2.
9. Postgres Pro Standart - PostgreSQL documentation [Электронный ресурс] // postgrespro.ru URL: https://postgrespro,ш/docs/postgrespro/9.5/sql-vacuum (дата обращения: 22.05.2019).
10. Zelenkov Yuri. G. Comparative analysis of near-duplicate detection methods of Web documents [Text] / Zelenkov Yuri. G., Segalovich Ilya V. // IX
All-Russian Scientific Conference “Digital Libraries: Advanced Methods and Technologies, Digital Collections” Proceedings. - 2007. - P. 166-174.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ