Введение 4
Постановка задачи 7
Классификаторы 8
Классификатор Scopus 8
OECD Fields of Science 9
Классификатор Web of Science (WoS) 9
Государственный рубрикатор научно-технической информации 10
ACM Computing Classification System 11
PubMed Identifier 12
Номенклатура специальностей научных работников 12
Классификатор Российского фонда фундаментальных исследований 12
Универсальная десятичная классификация 13
Библиотечно-библиографическая классификация 14
Международная патентная классификация 14
International Standard Serial Number 15
International Standard Book Number 16
Математическая предметная классификации 17
Рекомендательная система 19
Контент-ориентированные рекомендательные системы 20
Коллабораторные рекомендательные системы 21
Методы обработки информации 23
Очистка запроса от малоинформативных слов 23
Изменение регистра и расширение 24
Частеречная разметка 24
Стемминг 24
Формирование словаря рекомендательной системы 27
Формирование списка рекомендаций 30
Модель векторного пространства (VSM) 30
Анализ частоты слов 31
Сопоставление ключевых слов 32
Реализация 34
Архитектура рекомендательной системы 34
Рекомендательная система автоматического подбора классификатора УДК 35
Тест системы 36
Заключение 37
Список литературы 38
ПРИЛОЖЕНИЕ 44
С развитием информационных технологии электронные библиотеки, которые хранят основную часть научных изданий, получили широкое распространение. Большинство публикаций переводят в электронный формат, что приводит к увеличению объема информации и затруднению ручного поиска. В связи с этим возникает задача классификации информации, заключающейся в определении категории на основании содержания документа. Данная задача актуальна потому, что:
1) Наличие классификатора - одно из требований научных журналов
2) В электронных документах классификатор является одним из видов метаданных (см., например, [1-2])
Наиболее популярными классификаторами являются:
1) Библиотечно-библиографическая классификация (ББК), которая используется для библиотечных данных
2) MathematicSubjectClassification (MSC2010), которая предназначена для математических документов
3) Государственный рубрикатор научно-технической информации
(ГРНТИ) (прежнее наименование - Рубрикатор ГАСНТИ) - универсальная иерархическая классификация областей знания,
принятая для систематизации всего потока научно-технической
информации.
4) Универсальная десятичная классификация (УДК) - одна из широко распространенных классификаторов
Таблицы классификаторов содержат более сотни индексов, ручной подбор которых представляет собой непростую задачу. Одним из решений сложившейся ситуации является использование рекомендательных систем.
На сегодняшний день рекомендательные системы являются популярными механизмами, которые применяются в различных структурах. Их использование наиболее очевидна в онлайн магазинах, таких как Amazon, CDNOW, BarnesAndNoble, IMDta другие (см. [3]).Согласно [4], многие системы, которые работают с научным контентом, такие как поисковая система GoogleScholar, реферативная база данных Scopus, электронная библиотека eLIBRARY.ru, используют рекомендательные системы.
Традиционно выделяют два вида рекомендательных систем: контент- ориентированный и коллабораторный. В некоторых источниках встречаются и другие типы рекомендательных систем, такие как гибридные, которые сочетают в себе характеристики традиционных типов.
Результаты работы частично описаны встатьях[5-8].На основании данных статей были представлены доклады на XV Всероссийской молодежной школе-конференции «Лобачевские чтения-2016», XVI Всероссийской молодежной школе-конференции «Лобачевские чтения-2017» и Международной научно-практической конференции «Электронная Казань 2016».
Данная работа состоит из одиннадцати глав. Первая - введение. Далее постановка задачи. В третьей главе рассмотрены известные виды классификаторов научной информации. В четвертой главе дается определение понятия рекомендательная система, разобраны типы рекомендательных систем. В пятой рассматриваются методы обработки информации, вводится понятие стемминг. В шестой главе описывается процесс формирования словаря рекомендательной системы. В седьмой - составление списка рекомендаций по запросу пользователя. Далее описывается программная реализация рекомендательной системы. В девятой главе приводятся результаты теста системы. Десятая глава - заключение, далее список литературы. В приложении дается непосредственно сам код.
К основным результатам проведенной работы можно отнести:
1) Рассмотрены наиболее популярные классификаторы научного- контента
2) Дан обзор рекомендательных систем
3) Изучены методы обработки информации
4) Обработана коллекция статей MathNet.Ru
5) Реализовано два варианта представления терминов: словарь терминов и инвертированный индекс
6) Рассмотрены основные методы поиска информации и меры для оценки важности слов
7) Создана рекомендательная система автоматического подбора индекса УДК
8) Проведены тесты рекомендательной системы