Введение 3
Глава 1.Постановка задачи 4
Глава 2. Предварительные сведения метода TF-IDF 5
2.1. Пример формирования документов 5
2.2 Инвертированный индекс 8
2.3 Частота термина в документе 9
2.4 Обратная документная частота 10
2.5 Модель векторного пространства для ранжирования 12
2.5.1 Скалярное произведение 12
2.5.2 Запросы как векторы 17
2.6 Варианты функций tf-idf 22
2.6.1 Сублинейное масштабирование tf 22
2.6.2 Нормировка tfна максимальный/fв документе 23
2.6.3 Схемы взвешивания документов и запросов 24
2.6.4 Опорная нормировка длины документов 26
2.7 Сравнение инструментов определения близости документов цифровой библиотеки Czech-DML 30
Глава 3. Алгоритм построения модели TF-IDF на языке JavaScript 33
3.2 Исследование и построение решения задачи 33
3.3 Нормализация текста 33
3.4 Применение стеммера Портера 34
3.5 Расчет частоты терминов в полученном тексте 34
3.6 Вычисляем обратную зависимость частоты употребления термина(1й1) 34
3.7 Строим матрицу с полученными результатами 35
3.8 Вычисление косинусной меры сходства документов 36
Заключение 36
Список Литературы 37
Приложения 39
Приложение 1 39
Приложение 2 40
Приложение 3 41
Приложение 4 41
Приложение 5 42
Целью данной работы является построить разработка сервиса поиска близких (по тематике исследований) документов в цифровых в математических коллекциях и апробировать в цифровой математической библиотеке LobachevskiiDML( Lobachevski ). Постановка задачи приведена в первой главе, в следующей главы даны необходимые сведения, а также примеры (с чешского сайта).
Приведен обзор методов поиска близких документов на основе алгоритма показы достоинства этого метода, в качестве примера сервиса поиска близких документов на основе алгоритма TF-IDF в главе 2проведен сравнительный анализ инструментов поиска близких статей, в частности рассмотрена работа сервисов представленных в цифровой библиотеке www.dml.cz. Этот алгоритм работает с коллекциями документов в формате “TeX” Этот анализ показал, что большинство этих инструментов работают только с «tex» форматов. Нашей же задачей является обработка коллекций содержащих документы различных форматов, в частности “TeX”, “pdf”, “docx”. В случаях если обработка документа является затруднительной, например документ представляет видеоконтент в нашем алгоритме предполагается использовать метаданные этого документа (ключевые слова, названия, метаданные).
В данной дипломной работе была поставлена задача исследования и формирования разработки сервиса позволяющая нам сформировать список статьей близких по содержанию. В процессе решения были достигнуты следующие результаты:
1. Подробно исследован метод ТР-IDF (termfrequency,1пуегзебоситеп1Бгедиепсу)позволяющий ранжировать документы в цифровых коллекциях, состоящих из документов различных форматов.
2. Разработаны алгоритмы предварительной обработки текстов.
3. Выполнена реализация алгоритма на языке программирования JavaScript проведена необходимая адаптация в специфике цифровых коллекций.
4. Создан прототип сервиса, подтверждающий работоспособность данного метода.
1. Куршев Е.П. Роль знаний в системах извлечения информации из
текстов/ Куршев Е.П., Сулейманова Е.А., Трофимов И.В. //
Программные системы: теория и приложения. 2012. №3(12). С. 57-70.
2. Лифшиц Ю., «Автоматическая классификация текстов» // Лекция №6 из курса «Алгоритмы для интернета», 2006
3. Ингерсолл Г.С., Нортон Т.С., Фэррис Э.Л. Обработка
неструктурированных текстов. Поиск, организация и
манипулирование ДМК-Пресс, 2015. 414 с.
4. .Хохлов Ю.Е, Арнаутов С.А.. Обзор форматов метаданных. http://www.elbib.ru/index.phtml?env_page=methodology/metadata/md_re vi ewZmd_review.html [Обращение: 2012-12-06]
5. Вильям А., Электронные библиотеки. - ПИК ВИНИТИ, 2000. 200 с. Персангл. A.William. Digital Libraries. Cambridge, Mass.: MIT Press, 2000. -287 p.
6. Justin Zobel, Alistair Moffat. Inverted files for text search engines // ACM Computing Surveys. 2006. 6. № 2. P. 38.
7. Grineva, Maxim Grinev, Dmitry Lizorkin, Alexander Boldakov, Denis Turdakov, AndreySysoev, Alexander Kiyko // WWW '11 Proceedings of the 20th international conference companion on World wide web. 2011. P. 213-216.
8. S. Brin, L. Page. The anatomy of a large-scale hypertextual Web search engine // Computer Networks and ISDN Systems. 1998. 30. № 1. P. 107-117.
9. hristopher D. Manning, PrabhakarRaghavan, HinrichSchutze. Introduction to information retrieval // Cambridge University Press. 2008. P. 544.
10. YisongYue, YisongYue, YisongYue, Thorsten Joachims. A Support Vector Method for Optimizing Average Precision // SIGIR '07 Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. 2007. P. 271-278.
11. Mark Sanderson. Reuters test collection // Proceedings of the Sixteenth Research Colloquium of the British Computer Society Information Retrieval Specialist Group. 1994. P. 219-227.
Электронные ресурсы
12. Bartosek M., Rakosnik J., DML-CZ: The Experience of a Medium-Sized Digital Mathematics Library,http://www.ams.org/notices/201308/rnoti-p1028.pdf