📄Работа №50841

Тема: Алгоритм поиска подобных документов в цифровых коллекциях на основе метода понижения размерности многомерных данных

Характеристики работы

Тип работы Дипломные работы, ВКР
Математика
Предмет Математика
📄
Объем: 42 листов
📅
Год: 2018
👁️
Просмотров: 299
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 4
Постановка задачи 6
Глава 1. Предварительные сведения 7
1.1. Основные определения 7
1.2 Методы поиска близких статей в цифровых математических коллекциях 8
1.3 Латентно-семантический анализ 8
1.4 Term frequency-inverse document frequency (TFIDF) 10
Глава 2. Метод Locality-sensitive hashing 13
2.1 Хэш-функции 13
2.2 Алгоритм Locality-sensitive hashing 15
2.3 Алгоритм шинглов 16
2.4 Процедура поиска минимального хэша 17
2.5 Построение сигнатуры минимального хэша 21
2.6 Метод LSH с использованием сигнатуры минимальных хэшей 23
2.7 Ассоциативный массив 24
Глава 3. Реализация алгоритма 26
Заключение 28
Список литературы 29
Приложение 31

📖 Введение

Как невозможно приготовить блюдо, используя один ингредиент, так нельзя изучить область науки, опираясь на один источник. Будь то написание статьи, курсовой работы или диплома, необходимо рассмотреть вопрос с разных углов. Так появляется необходимость в нахождении не только запрашиваемого документа, но и близких к нему по тематике.
Актуальной на данный момент является выбор эффективного поиска. Метод понижения размерности многомерных данных используется в научных коллекциях, в том числе и по математике. Основная цель использования алгоритма - нахождение научных работ, близких по тематике и кластеризация элементов одного раздела.
В ходе работы были рассмотрены методы поиска документов. Их изучение позволило сравнить использованный алгоритм и реализовать метод поиска на основе алгоритма понижения размерности многомерных данных.
В первой главе рассмотрены основные термины, алгоритмы поиска Latent semantic indexing (LSI) и Term frequency-inverse document frequency (TFIDF).
Во второй главе описаны алгоритм метода понижения размерности данных (Locality-sensitive hashing) и использующиеся технологии.
В третьей главе предложено веб-приложение, реализующее алгоритм на языке C#.
В приложении предоставлен код программы.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В работе представлен обзор методов поиска в текстовых документах.
Приведен метод понижения размерности многомерных данных и разработана программа, реализующая алгоритм на языке С#.
Данное приложение:
1) Получает текстовые документы.
2) Представляет каждый документ в виде наборов шинглов.
3) Преобразует шинглы в хэши.
4) Строит матрицу сигнатур.
5) Составляет корзины, куда попадают сигнатуры каждого элемента, так группируются соответствующие документы.
Таким образом, в дипломной работе поставленные задачи полностью выполнены.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

[1] Todeschini, R. Handbook of Bibliometric Indicators: Quantitative Tools for Studying and Evaluating Research / R. Todeschini, A. Baccini. - Wiley-VCH, 2016. - С.363-365.
[2] Lesk, M. Understanding Digital Libraries / M. Lesk. - The Morgan Kaufman Series in Multimedia Information and Systems, 2004.-С.30.
[3] Когаловский, М.Р. Метаданные, их свойства, функции, классификация и средства представления / М.Р. Когаловский. -Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2012, Переславль- Залесский, Россия, 2012. - С.5-6.
[4] Konheim, A. Hashing in computer science: Fifty years of Slicing and Dicing / A.Konheim. - John Wiley & Sons, inc., publication, 2010. - С.15-20.
[5] Bellegarda, J.R. Latent Semantic Mapping: Principles & Applications / J.R. Bellegarda. - Morgan & Claypool Publishers, 2008. - С.74-78.
[6] Beel, J. Evaluating the CC-IDF citation-weighting scheme: How effectively can ‘Inverse Document Frequency’ (IDF) be applied to references? / J.Beel, C. Breitinger, S.Langer. - Proceedings of the 12th iConference, 2017. - 11 c.
[7] Beel, J. TF-IDuF: A Novel Term-Weighting Scheme for User Modeling based on Users’ / J.Beel, S. Langer, B. Gipp. - Proceedings of the 12th iConference, 2017. - 8 c.
[8] Lescovec, J. Mining of Massive Datasets / J. Lescovec, A. Rajaraman, J.D. Ullman. - Cambridge University Press, 2014. - С.59-61.
[9] Manku, G.S. Detecting Near-Duplicates for Web Crawling / G.S. Manku, A. Jain, A.D. Sarma. - Proceedings of the 16th International Conference on World Wide Web, 2007. - С. 7-8.
[10] Розенберг, Г.С. Поль Жаккар и сходства экологических объектов / Г. С. Розенберг - Журнал: «Самарская Лука: проблемы региональной и глобальной экологии», 2012.- Т.21. -№1.-С.195-197.
[11] Broder, A.Z. Min-Wise Independent Permutations / A.Z, Broder, M. Charikar, A.M. Frieze, M. Mitzenmacher. - Computer Science Department, Stanford University, 1998. - C. 8-15.
[12] Paula, L.B. A locality sensitive hashing approach for conceptual classification / L.B. Paula, R.S Villaca, M.F. Magalhaes. - Semanting Computing Fourth International Conference, 2010. - C.408-413.
[13] Koenig, A. Associative arrays in C++ / A. Koenig. - AT&T Bell Laboratories, 1988. - 12 с.
[14] Prettyman, S. PHP Arrays: Single, Multi-dimensional, Associative and Object Arrays in PHP / S. Prettyman. - Apress, USA, 2017. - C. 57-75.

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ