Поиск дубликатов среди документов,

Содержание

Введение .................................................................................................................. 3
Постановка задачи .................................................................................................. 4
Глава 1. Обзор методов поиска дубликатов документов ................................... 5
1.1. Синтаксические методы ........................................................................ 6
1.1.1. Алгоритмы sif и Koala ..................................................................... 6
1.1.2. Метод «шинглов» ............................................................................ 8
1.1.3. Long Sent............................................................................................ 9
1.2. Лексические методы .............................................................................. 9
1.2.1. Методы на основе меры TF-IDF .................................................... 9
1.2.2. Heavy Sent ....................................................................................... 12
1.2.3. I-Match ............................................................................................. 12
1.2.4. Метод описательных слов ............................................................ 13
Глава 2. Оценка эффективности методов поиска дубликатов документов ... 15
2.1. Основные метрики .................................................................................. 16
2.2. Оценка эффективности рассмотренных методов ................................ 17
Глава 3. Модифицированный метод .................................................................. 20
3.1. Описание модифицированного метода ................................................. 21
3.3. Анализ результатов.................................................................................. 23
Заключение ........................................................................................................... 26
Список литературы

Введение

Современное развитие информационных технологий и сети Интернет
предоставило широким кругам пользователей легкий и быстрый доступ к
огромным массивам самой разнообразной информации. Это вызвало бурный
рост количества дублированного и заимствованного материала, ведь теперь
для создания нового совсем не обязательно действительно что-то
придумывать. В связи с этим крайне остро встал вопрос нахождения
различного рода заимствований в научных статьях и прочих работах.
Проблема выявления оригинальности текста является одной из наиболее
сложных и трудоемких задач анализа данных. Чаще всего она возникает в
процессе установления нарушений авторских прав (проблема плагиата), но
существуют и другие области, для которых данный вопрос актуален:
кластеризация документов по содержанию, удаление избыточной информации
в архивах поисковых систем для улучшения их качества, фильтрация
поискового спама, и ряд других.
Однако колоссальный объем обрабатываемой информации является
основной загвоздкой решения задачи поиска дубликатов. Попарное прямое
сравнение текстов документов займет слишком много времени и потребует
значительных вычислений, поэтому постепенно создавались различные
методы, позволяющие снизить алгоритмическую сложность.
Различают понятия четких и нечетких дубликатов документов.
Четкий дубликат – точная копия текста. Также четким дубликатом будет
считаться документ, полностью содержащий в себе другой документ.
Нечеткий дубликат – частично измененный текст, содержание которого
отличается незначительно, т. е. может содержать в себе отрывки из другого
документа, или не отличается вовсе, т. е. отличается от источника лишь
заменой некоторых слов на их синонимы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В рамках данной курсовой работы были получены следующие
результаты:
1. Изложены наиболее популярные и эффективные с вычислительной
точки зрения алгоритмы решения проблемы поиска дубликатов.
2. Предоставлены оценки эффективности рассмотренных методов.
3. Описан модифицированный вариант метода и проанализированы
полученные результаты.

Литература

[1] A. Broder. On the resemblance and containment of documents // In
Proceedings of Compression and Complexity of Sequences 1997, pages 21–29.
IEEE Computer Society, 1997.
[2] A. Broder, M. Charikar, A.M. Frieze, M. Mitzenmacher. Min-Wise
Independent Permutations // Proceedings of the thirtieth annual ACM symposium
on Theory of computing, 1998
[3] A. Broder, Identifying and Filtering Near-Duplicate Documents // in Proc.
Annual Symposium on Combinatorial Pattern Matching, 2000.
[4] A. Chowdhury, O. Frieder, D. Grossman, M. McCabe. Collection statistics for
fast duplicate document detection // ACM Transactions on Information Systems
(TOIS), Vol. 20, Issue 2, April 2002.
[5] A. Kolcz, A. Chowdhury, J. Alspector. Improved Robustness of SignatureBased Near-Replica Detection via Lexicon Randomization // Knowledge
Discovery and Data mining, 2004.
[6] S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich. An efficient method to detect
duplicates of Web documents with the use of inverted index // World Wide Web
Conference 2002.
[7] U. Manber. Finding Similar Files in a Large File System // Winter USENIX
Technical Conference, 1994.
[8] N. Heintze. Scalable document fingerprinting // In Proc. of the 2nd USENIX
Workshop on Electronic Commerce, Nov. 1996.
[9] M. Rabin. Fingerprinting by random polynomials. Report TR-15-81 // Center
for Research in Computing Technology, Harvard University, 1981
[10] A. Broder, S. Glassman, M. Manasse, G. Zweig. Syntactic clustering of the28
Web // Proc. Of the 6th International World Wide Web Conference, April 1997.
[11] D. Fetterly, M. Manasse, M. Najork, J. Wiener. A Large-Scale Study of the
Evolution of Web Pages, World Wide Web Conference, May 2003.
[12] TF-IDF. http://www.tfidf.com
[13] C. Manning, P. Raghavan, H. Schütze. Introduction to Information Retrieval.
Cambridge University Press. 2008. 117-120 с. 155-156 с.
[14] S. Robertson, S. Walker, S. Jones, M. Hancock-Beaulieu, M. Gatford. Okapi
at trec-3 // The Third Text REtrieval Conference (TREC-3), 1995.
[15] Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов
определения нечетких дубликатов для WEB-документов // Труды 9-ой
Всероссийской научной конференции «Электронные библиотеки:
перспективные методы и технологии, электронные коллекции» RCDL’2007:
Сб. работ участников конкурса, том 1. Переславль-Залесский, Россия:
«Университет города Переславля», 2007. 166-174 с

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

Кластеризация с поиском дубликатов на примере патентов
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4325 р. Год сдачи: 2016
Кластеризация с поиском дубликатов на примере патентов
Бакалаврская работа, программирование. Язык работы: Русский. Цена: 4550 р. Год сдачи: 2016
Автоматизация сверки и устранения дубликатов в персональных данных
Бакалаврская работа, программирование. Язык работы: Русский. Цена: 4750 р. Год сдачи: 2017
Анализ записей, полученных в результате обработки документов и решений судов Томской области с помощью методов и средств технологии Business Intelligence
Главы к дипломным работам, информатика. Язык работы: Русский. Цена: 5900 р. Год сдачи: 2016
ПРОБЛЕМЫ МЕТОДИКИ РАССЛЕДОВАНИЯ ПРЕСТУПЛЕНИЙ В СФЕРЕ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ, СОВЕРШАЕМЫХ С ИСПОЛЬЗОВАНИЕМ КОМПЬЮТЕРНЫХ ТЕХНОЛОГИЙ И ПЛАСТИКОВЫХ КАРТ
Диссертация , криминалистика. Язык работы: Русский. Цена: 500 р. Год сдачи: 2002
Поручительство как способ обеспечения исполнения обязательств (Омская Юридическая Академия)
Дипломные работы, ВКР, гражданское право. Язык работы: Русский. Цена: 2400 р. Год сдачи: 2019
Поиск похожих изображений
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4340 р. Год сдачи: 2016
Кластеризация документов в системе документооборота и документационного управления
Бакалаврская работа, программирование. Язык работы: Русский. Цена: 4300 р. Год сдачи: 2017
Применение методов и средств технологии Business Intelligence для анализа данных о судебной практике в Томской области
Главы к дипломным работам, эвм. Язык работы: Русский. Цена: 5900 р. Год сдачи: 2016

Поиск дубликатов среди документов

Тип работы

Дипломные работы, ВКР

Предмет

информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

22

Подобные работы

Логин
Пароль


Тип работы:	Предмет:	Язык работы: