Тема: Формирование множество близких по содержанию документов на основе метода TF-IDF
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1.Постановка задачи 4
Глава 2. Предварительные сведения метода TF-IDF 5
2.1. Пример формирования документов 5
2.2 Инвертированный индекс 8
2.3 Частота термина в документе 9
2.4 Обратная документная частота 10
2.5 Модель векторного пространства для ранжирования 12
2.5.1 Скалярное произведение 12
2.5.2 Запросы как векторы 17
2.6 Варианты функций tf-idf 22
2.6.1 Сублинейное масштабирование tf 22
2.6.2 Нормировка tfна максимальный/fв документе 23
2.6.3 Схемы взвешивания документов и запросов 24
2.6.4 Опорная нормировка длины документов 26
2.7 Сравнение инструментов определения близости документов цифровой библиотеки Czech-DML 30
Глава 3. Алгоритм построения модели TF-IDF на языке JavaScript 33
3.2 Исследование и построение решения задачи 33
3.3 Нормализация текста 33
3.4 Применение стеммера Портера 34
3.5 Расчет частоты терминов в полученном тексте 34
3.6 Вычисляем обратную зависимость частоты употребления термина(1й1) 34
3.7 Строим матрицу с полученными результатами 35
3.8 Вычисление косинусной меры сходства документов 36
Заключение 36
Список Литературы 37
Приложения 39
Приложение 1 39
Приложение 2 40
Приложение 3 41
Приложение 4 41
Приложение 5 42
📖 Введение
Приведен обзор методов поиска близких документов на основе алгоритма показы достоинства этого метода, в качестве примера сервиса поиска близких документов на основе алгоритма TF-IDF в главе 2проведен сравнительный анализ инструментов поиска близких статей, в частности рассмотрена работа сервисов представленных в цифровой библиотеке www.dml.cz. Этот алгоритм работает с коллекциями документов в формате “TeX” Этот анализ показал, что большинство этих инструментов работают только с «tex» форматов. Нашей же задачей является обработка коллекций содержащих документы различных форматов, в частности “TeX”, “pdf”, “docx”. В случаях если обработка документа является затруднительной, например документ представляет видеоконтент в нашем алгоритме предполагается использовать метаданные этого документа (ключевые слова, названия, метаданные).
✅ Заключение
1. Подробно исследован метод ТР-IDF (termfrequency,1пуегзебоситеп1Бгедиепсу)позволяющий ранжировать документы в цифровых коллекциях, состоящих из документов различных форматов.
2. Разработаны алгоритмы предварительной обработки текстов.
3. Выполнена реализация алгоритма на языке программирования JavaScript проведена необходимая адаптация в специфике цифровых коллекций.
4. Создан прототип сервиса, подтверждающий работоспособность данного метода.



