Введение 3
Глава 1.Постановка задачи 4
Глава 2. Предварительные сведения метода TF-IDF 5
2.1. Пример формирования документов 5
2.2 Инвертированный индекс 8
2.3 Частота термина в документе 9
2.4 Обратная документная частота 10
2.5 Модель векторного пространства для ранжирования 12
2.5.1 Скалярное произведение 12
2.5.2 Запросы как векторы 17
2.6 Варианты функций tf-idf 22
2.6.1 Сублинейное масштабирование tf 22
2.6.2 Нормировка tfна максимальный/fв документе 23
2.6.3 Схемы взвешивания документов и запросов 24
2.6.4 Опорная нормировка длины документов 26
2.7 Сравнение инструментов определения близости документов цифровой библиотеки Czech-DML 30
Глава 3. Алгоритм построения модели TF-IDF на языке JavaScript 33
3.2 Исследование и построение решения задачи 33
3.3 Нормализация текста 33
3.4 Применение стеммера Портера 34
3.5 Расчет частоты терминов в полученном тексте 34
3.6 Вычисляем обратную зависимость частоты употребления термина(1й1) 34
3.7 Строим матрицу с полученными результатами 35
3.8 Вычисление косинусной меры сходства документов 36
Заключение 36
Список Литературы 37
Приложения 39
Приложение 1 39
Приложение 2 40
Приложение 3 41
Приложение 4 41
Приложение 5 42
Целью данной работы является построить разработка сервиса поиска близких (по тематике исследований) документов в цифровых в математических коллекциях и апробировать в цифровой математической библиотеке LobachevskiiDML( Lobachevski ). Постановка задачи приведена в первой главе, в следующей главы даны необходимые сведения, а также примеры (с чешского сайта).
Приведен обзор методов поиска близких документов на основе алгоритма показы достоинства этого метода, в качестве примера сервиса поиска близких документов на основе алгоритма TF-IDF в главе 2проведен сравнительный анализ инструментов поиска близких статей, в частности рассмотрена работа сервисов представленных в цифровой библиотеке www.dml.cz. Этот алгоритм работает с коллекциями документов в формате “TeX” Этот анализ показал, что большинство этих инструментов работают только с «tex» форматов. Нашей же задачей является обработка коллекций содержащих документы различных форматов, в частности “TeX”, “pdf”, “docx”. В случаях если обработка документа является затруднительной, например документ представляет видеоконтент в нашем алгоритме предполагается использовать метаданные этого документа (ключевые слова, названия, метаданные).
В данной дипломной работе была поставлена задача исследования и формирования разработки сервиса позволяющая нам сформировать список статьей близких по содержанию. В процессе решения были достигнуты следующие результаты:
1. Подробно исследован метод ТР-IDF (termfrequency,1пуегзебоситеп1Бгедиепсу)позволяющий ранжировать документы в цифровых коллекциях, состоящих из документов различных форматов.
2. Разработаны алгоритмы предварительной обработки текстов.
3. Выполнена реализация алгоритма на языке программирования JavaScript проведена необходимая адаптация в специфике цифровых коллекций.
4. Создан прототип сервиса, подтверждающий работоспособность данного метода.