Тема: Алгоритм поиска подобных документов в цифровых коллекциях на основе метода понижения размерности многомерных данных
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
Глава 1. Предварительные сведения 7
1.1. Основные определения 7
1.2 Методы поиска близких статей в цифровых математических коллекциях 8
1.3 Латентно-семантический анализ 8
1.4 Term frequency-inverse document frequency (TFIDF) 10
Глава 2. Метод Locality-sensitive hashing 13
2.1 Хэш-функции 13
2.2 Алгоритм Locality-sensitive hashing 15
2.3 Алгоритм шинглов 16
2.4 Процедура поиска минимального хэша 17
2.5 Построение сигнатуры минимального хэша 21
2.6 Метод LSH с использованием сигнатуры минимальных хэшей 23
2.7 Ассоциативный массив 24
Глава 3. Реализация алгоритма 26
Заключение 28
Список литературы 29
Приложение 31
📖 Введение
Актуальной на данный момент является выбор эффективного поиска. Метод понижения размерности многомерных данных используется в научных коллекциях, в том числе и по математике. Основная цель использования алгоритма - нахождение научных работ, близких по тематике и кластеризация элементов одного раздела.
В ходе работы были рассмотрены методы поиска документов. Их изучение позволило сравнить использованный алгоритм и реализовать метод поиска на основе алгоритма понижения размерности многомерных данных.
В первой главе рассмотрены основные термины, алгоритмы поиска Latent semantic indexing (LSI) и Term frequency-inverse document frequency (TFIDF).
Во второй главе описаны алгоритм метода понижения размерности данных (Locality-sensitive hashing) и использующиеся технологии.
В третьей главе предложено веб-приложение, реализующее алгоритм на языке C#.
В приложении предоставлен код программы.
✅ Заключение
Приведен метод понижения размерности многомерных данных и разработана программа, реализующая алгоритм на языке С#.
Данное приложение:
1) Получает текстовые документы.
2) Представляет каждый документ в виде наборов шинглов.
3) Преобразует шинглы в хэши.
4) Строит матрицу сигнатур.
5) Составляет корзины, куда попадают сигнатуры каждого элемента, так группируются соответствующие документы.
Таким образом, в дипломной работе поставленные задачи полностью выполнены.



