Алгоритм поиска подобных документов в цифровых коллекциях на основе метода понижения размерности многомерных данных,

Содержание

Введение 4
Постановка задачи 6
Глава 1. Предварительные сведения 7
1.1. Основные определения 7
1.2 Методы поиска близких статей в цифровых математических коллекциях 8
1.3 Латентно-семантический анализ 8
1.4 Term frequency-inverse document frequency (TFIDF) 10
Глава 2. Метод Locality-sensitive hashing 13
2.1 Хэш-функции 13
2.2 Алгоритм Locality-sensitive hashing 15
2.3 Алгоритм шинглов 16
2.4 Процедура поиска минимального хэша 17
2.5 Построение сигнатуры минимального хэша 21
2.6 Метод LSH с использованием сигнатуры минимальных хэшей 23
2.7 Ассоциативный массив 24
Глава 3. Реализация алгоритма 26
Заключение 28
Список литературы 29
Приложение 31

Введение

Как невозможно приготовить блюдо, используя один ингредиент, так нельзя изучить область науки, опираясь на один источник. Будь то написание статьи, курсовой работы или диплома, необходимо рассмотреть вопрос с разных углов. Так появляется необходимость в нахождении не только запрашиваемого документа, но и близких к нему по тематике.
Актуальной на данный момент является выбор эффективного поиска. Метод понижения размерности многомерных данных используется в научных коллекциях, в том числе и по математике. Основная цель использования алгоритма - нахождение научных работ, близких по тематике и кластеризация элементов одного раздела.
В ходе работы были рассмотрены методы поиска документов. Их изучение позволило сравнить использованный алгоритм и реализовать метод поиска на основе алгоритма понижения размерности многомерных данных.
В первой главе рассмотрены основные термины, алгоритмы поиска Latent semantic indexing (LSI) и Term frequency-inverse document frequency (TFIDF).
Во второй главе описаны алгоритм метода понижения размерности данных (Locality-sensitive hashing) и использующиеся технологии.
В третьей главе предложено веб-приложение, реализующее алгоритм на языке C#.
В приложении предоставлен код программы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В работе представлен обзор методов поиска в текстовых документах.
Приведен метод понижения размерности многомерных данных и разработана программа, реализующая алгоритм на языке С#.
Данное приложение:
1) Получает текстовые документы.
2) Представляет каждый документ в виде наборов шинглов.
3) Преобразует шинглы в хэши.
4) Строит матрицу сигнатур.
5) Составляет корзины, куда попадают сигнатуры каждого элемента, так группируются соответствующие документы.
Таким образом, в дипломной работе поставленные задачи полностью выполнены.

Литература

[1] Todeschini, R. Handbook of Bibliometric Indicators: Quantitative Tools for Studying and Evaluating Research / R. Todeschini, A. Baccini. - Wiley-VCH, 2016. - С.363-365.
[2] Lesk, M. Understanding Digital Libraries / M. Lesk. - The Morgan Kaufman Series in Multimedia Information and Systems, 2004.-С.30.
[3] Когаловский, М.Р. Метаданные, их свойства, функции, классификация и средства представления / М.Р. Когаловский. -Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2012, Переславль- Залесский, Россия, 2012. - С.5-6.
[4] Konheim, A. Hashing in computer science: Fifty years of Slicing and Dicing / A.Konheim. - John Wiley & Sons, inc., publication, 2010. - С.15-20.
[5] Bellegarda, J.R. Latent Semantic Mapping: Principles & Applications / J.R. Bellegarda. - Morgan & Claypool Publishers, 2008. - С.74-78.
[6] Beel, J. Evaluating the CC-IDF citation-weighting scheme: How effectively can ‘Inverse Document Frequency’ (IDF) be applied to references? / J.Beel, C. Breitinger, S.Langer. - Proceedings of the 12th iConference, 2017. - 11 c.
[7] Beel, J. TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users’ / J.Beel, S. Langer, B. Gipp. - Proceedings of the 12th iConference, 2017. - 8 c.
[8] Lescovec, J. Mining of Massive Datasets / J. Lescovec, A. Rajaraman, J.D. Ullman. - Cambridge University Press, 2014. - С.59-61.
[9] Manku, G.S. Detecting Near-Duplicates for Web Crawling / G.S. Manku, A. Jain, A.D. Sarma. - Proceedings of the 16th International Conference on World Wide Web, 2007. - С. 7-8.
[10] Розенберг, Г.С. Поль Жаккар и сходства экологических объектов / Г. С. Розенберг - Журнал: «Самарская Лука: проблемы региональной и глобальной экологии», 2012.- Т.21. -№1.-С.195-197.
[11] Broder, A.Z. Min-Wise Independent Permutations / A.Z, Broder, M. Charikar, A.M. Frieze, M. Mitzenmacher. - Computer Science Department, Stanford University, 1998. - C. 8-15.
[12] Paula, L.B. A locality sensitive hashing approach for conceptual classification / L.B. Paula, R.S Villaca, M.F. Magalhaes. - Semanting Computing Fourth International Conference, 2010. - C.408-413.
[13] Koenig, A. Associative arrays in C++ / A. Koenig. - AT&T Bell Laboratories, 1988. - 12 с.
[14] Prettyman, S. PHP Arrays: Single, Multi-dimensional, Associative and Object Arrays in PHP / S. Prettyman. - Apress, USA, 2017. - C. 57-75.

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Алгоритм поиска подобных документов в цифровых коллекциях на основе метода понижения размерности многомерных данных

Тип работы

Дипломные работы, ВКР

Предмет

математика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

173

Логин
Пароль


Тип работы:	Предмет:	Язык работы: