Тип работы:
Предмет:
Язык работы:


МЕТОД НЕТОЧНОГО СРАВНЕНИЯ ДОКУМЕНТОВ В ЦИФРОВЫХ КОЛЛЕКЦИЯХ

Работа №50607

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы38
Год сдачи2018
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
97
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Постановка задачи 6
Глава 2. Предварительные сведения 8
2.1 Структуры данных как способ представления текстовой информации .. 8
2.2 Классические задачи информационного поиска 11
Глава 3. Суффиксные деревья как способ представления текста 17
3.1 Краткая история, основные результаты, открытые проблемы 17
3.2. Основные понятия и определения 20
3.3. Построение суффиксного дерева 23
Глава 4. Алгоритмы построения суффксных деревьев 28
4.1 Адаптированный алгоритм Уккокена 28
4.2 Отладочная версия построения суффиксных деревьев 28
4.3 Оценка времени работы 30
4.4 Преимущества алгоритма Уккокена 30
Глава 5. Описание приложения 31
5.1. Средства реализации 31
5.2 Использование видео контента цифровой коллекции 31
Заключение 33
Список литературы: 34
Приложение

На сегодняшний день основная часть информации поступает, редактируется и хранится в электронном виде. Вследствие этого объем данных во всемирной паутине постоянно увеличивается, люди тратят огромное количество времени на её фильтрацию.
Зачастую информация в интернете недостоверна и никак не структурирована, а любая статья, публикация, работа может быть копирована и выложена под своим именем любым пользователем. Таким образом, одной из главных проблем является проверка на плагиат текстовых документов в цифровых коллекциях, библиотеках, интернет сайтах и ресурсах.
Проблема машинной обработки текстовой информации очень актуальна, но не стоит забывать об обработке видео и аудио контента. Ведь этот способ представления информации несколько эффективнее.
В данной работе рассматриваются методы сравнения текстовых документов, видео и аудио файлов, приведено несколько вариантов решений проблем, заявленных в начале.
В первой главе представлена постановка самой задачи, которая разделена на несколько подзадач и её математическая модель.
В главе «Предварительные сведения» сформулированы основные определения и тезисы, которые понадобятся для изучения дальнейшего материала. Разделами данной главы являются:
1. Структуры данных как способ представления текстовой информации. Здесь раскрываются такие понятия как «структуры данных», «поисковые структуры данных», их классификация, примерами таких объектов являются: деревья, массивы, списки.
2. Классические задачи информационного поиска. Дана формулировка следующих задач:
• Сравнение двух строк
• Поиск подстроки в строке
Далее приведены определения строки, алфавита, суффикса, префикса, отношения порядка.
В третьей главе исчерпывающе объясняется такая структура данных, как суффиксное дерево. Описан наивный алгоритм построения деревьев суффиксов, приводятся примеры. Затем рассматриваются алгоритмы построения суффиксных деревьев.
Четвертая глава посвящена реализации адаптированных и модифицированных под поставленную нами задачу алгоритмов Уккокена. Этот раздел состоит из 4 подразделов:
1. Модифицированный алгоритм Уккокена
2. Отладочная версия построения суффиксных деревьев
3. Время работы алгоритма
4. Преимущества алгоритма Уккокена
В пятой главе приведено подробное описание работы программы.
В заключении описываются полученные результаты данной бакалаврской работы.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Результатами данной работы являются:
1. Нахождение решения проблемы поиска документов по аналогии.
2. Изучение методов сравнения документов
3. Выявление двух схожих цифровых документов
5. Реализация программного кода
5. Выявление плюсов и минусов программы
В рамках данной работы были приведены такие понятия как «структуры данных», «поисковые структуры данных», «суффиксые деревья», «строки», изучены их области применения. Предоставлено решение проблемы машинной обработки текстовой информации для выявления плагиата. Разработана программа для поиска и выявления дубликатов текстовых, аудио и видео файлов. В основе реализованной программы лежит построение суффиксного дерева.



1. Гасфилд, Д. Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология/ Пер. с англ. И.В. Романовского. - СПб.: Невский Диалект; БХВ-Петербург, 2003.-654с. книга
2. Лифшиц, Ю. Построение суффиксного дерева/ Ю. Лифшиц // Лекция № 1 курса «Алгоритмы для Интернета»- 2006.- 10с. статья(так ссылаются на вики)/презентация???
3. Ukkoken, E. On-Line Construction of Suffix Trees/ E. Ukkoken // Algoritmica. -1995. - Vol. 14, No. 3- pp. 249-260. статья
4. Weiner, P. Linear pattern matching algorithms/ P. Weiner// IEEE
Symposium on Switching and Automata Theory- 1973.- pp.1-11. статья
5. Neuburger, S. Pattern Matching Algorithms: An Overview/ S. Neuburger// Department of Computer Science. The Graduate Center, CUNY- 2009.- pp. 1-35. статья и презентация
6. Proceedings of the Conference on Space Efficient Data Structures, Streams and Algorithm./ A. Brodnik, A. Lopez-Ortiz, V. Raman, A. Viola, eds.// Lecture Notes in Computer Science, 8066, Springer- 2013.-p.363. книга суфф деревья с.269
7. McCreight, E. A space-economical suffix tree construction algorithm/ E. McCreight// Journal of the Association for Computing Machinery.-1976.- Vol. 23, No. 2.- pp. 262-272. статья
8. Breslauer, D. Near real-time suffix tree construction via the fringe marked ancestor problem./ D. Breslauer, G. Italiano// Journal of Discrete Algorithms.-
2013. - №18. - pp. 32-48. статья
9. Стариковская, Т. Суффиксные деревья: новые идеи и открытые проблемы.[Электронный ресурс] /Т. Стариковская// Computer Science Center-
2014. URL: https://logic.pdmi.ras.ru/csclub/sites/default/files/slides/20140223_SuffixTrees_lec ture01-03.pdf ( дата обращения: 26.05.2018) презентация
10. Aspnes, J. Notes on Data Structures and Programming Techniques /James Aspnes//Lecture notes/- 2017.- pp.515.
11. Manber, U. Suffix arrays: a new method for on-line string searches./ U. Manber, G.Myers// First Annual ACM-SIAM Symposium on Discrete Algorithms.- 1990.- pp. 319-327.
12. Manber, U. Suffix arrays: a new method for on-line string
searches.[Электронный ресурс] / Presented by: Oren Weimann.- 1989. URL: http://900igr.net/prezentacij a/anglij skij -j azyk/suffix-arrays-a-new-method-for-on- line-string-searches-240140/suffix-arrays-a-new-method-for-on-line-string- searches-1.html презентация
13. Manber, U. Suffix arrays: a new method for on-line string searches./ U. Manber, G.Myers// University of Arizona.- 1991.- p.16. статья на презентацию выше
14. Tomohiro, I. Inferring Strings from Suffix Trees and Links on a Binary Alphabet)Электронный ресурс]/ Tomohiro I, Shunsuke Inenaga,
Hideo Bannai, Masayuki Takeda//Kyushu University, Japan- 2014. URL: https://www.slideserve.com/sadie/inferring-strings-from-suffix-trees-and-links-on- a-binary-alphabet презентация
15. Смит, Б. Методы и алгоритмы вычислений на строках = Computing Patterns in Strings. — М.: Вильямс, 2006. — 496 с. — ISBN 5-8459-1081-1, 0¬201-39839-7.
16. Окулов С. М. Алгоритмы обработки строк. — М.: Бином, 2013. — 255 с. — ISBN 978-5-9963016-2-1.
17. Майкл Т. Гудрич, Роберто Тамассия Структуры данных и алгоритмы в Java/ Пер. с англ. A.M. Чернухо. — Мн.: Новое знание, 2003. — 671
18. Farach, Martin (1997), "Optimal Suffix Tree Construction with Large Alphabets" (PDF), 38th IEEE Symposium on Foundations of Computer Science (FOCS '97), pp. 137-143.
19. Ингерсолл Г.С., Томас С. Мортон, Эндрю Л. Фэррис Обработка неструктурированных текстов. Поиск, организация и манипулирование. / Пер. с англ. Слинкин А. А. - М.: ДМК Пресс, 2015. - 414 с.: ил.
20. Романовский И.В. Дискретный анализ / И.В. Романовский. - СПб. : Издательство «Невский Диалект», 2008. -103с.
21. Викиконспекты, Алгоритм Уккокена[Электронный ресурс]// URL: http: //neerc.ifmo .ru/wiki/index.php?title=Алгоритм Уккокена
22. MAXimal :: algo :: Суффиксное дерево. Алгоритм Укконена [Электронный ресурс]// URL: http://e-maxx.ru/algo/ukkonen
23. Habrahabr — Построение суффиксного дерева: алгоритм Укконена [Электронный ресурс]// URL: https://habr.Com/post/111675/
24. Wikipedia [Электронный ресурс]// URL: https://ru.wikipedia.org/wiki/Суффиксное_дерево
25. Левенштейн, В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СССР, 1965. 163.4:845-848.
26. Wikipedia [Электронный ресурс] Структуры данных// URL: http s: //ru.wikipedia. org/wiki/Структуры_данных.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ