ВВЕДЕНИЕ 3
1.1 ПОСТАНОВКА ЗАДАЧИ 5
2 СИСТЕМЫ КЛАССИФИКАЦИИ ИНФОРМАЦИИ 6
2.1 Библиотечно - библиографическая классификация 6
2.2 Математическая предметная классификация 7
2.3 Универсальная десятичная классификация 9
3 РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА ПРИ РАБОТЕ
С МАТЕМАТИЧЕСКИМИ КОЛЛЕКЦИЯМИ 11
4 АЛГОРИТМ РЕШЕНИЯ ПОСТАВЛЕННОЙ ЗАДАЧИ 13
4.1 Описание алгоритма 13
4.2 Выделение лексем 13
4.3 Создание классов эквивалентности 14
4.4 Блок - схема 15
5 АРХИТЕКТУРА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ ПОДБОРА
КВАЛИФИКАТОРОВ 16
5.1 Общая схема 16
5.2 Компоненты архитектуры системы 16
5.3 Модули системы 18
5.3.1 Модуль определения структуры статьи 18
5.3.2 Модуль анализа текста 18
5.3.3 Модуль подбора классификатора 19
6 СПОСОБЫ ХРАНЕНИЯ ИНФОРМАЦИИ 20
6.1 XML 20
6.2 JSON 21
6.3 Сравнение XML и JSON с точки зрения реализации рекомендательной системы
7 ОЦЕНКА ЭФФЕКТИВНОСТИ АЛГОРИТМА 24
7.1 Оценка работы алгоритма 25
8 РЕАЛИЗАЦИЯ СИСТЕМЫ В ВИДЕ ВЕБ - ПРИЛОЖЕНИЯ 27
9 ДАЛЬНЕЙШЕЕ РАЗВИТИЕ АЛГОРИТМА 29
10 ЗАКЛЮЧЕНИЕ 31
ЛИТЕРАТУРА 32
XML - ФАЙЛ 51 БЛОКА «МАТЕМАТИКА» 37
ВЕБ-ПРИЛОЖЕНИЕ «РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА ВЫБОРА ИНДЕКСА УДК»
Прогресс в области передачи и обработки информации и создание современных телекоммуникационных систем послужило основой появления новых возможностей организации почти всех этапов научно-информационного процесса, что вызвало рост информационных потребностей научных работников. В связи с этим появляются проблемы, решение которых возможно путем создания интеллектуальных информационных систем. Развитие сети Интернет дает возможность одновременного доступа ко множеству разных источников данных [1].
Одним из требований при предоставления работы в научные журналы является наличие классификатора. Эти индексы помогают упорядочить работы по областям исследований, также используются при поиске научной информации в Сети.
В работе рассматривается задача автоматизации процесса подбора индекса классификаторов научных работ по ключевым словам и названию.
В работе приведены следующие виды классификаторов:
• ДКД (Десятичная классификация Дьюи)- данная классификация послужила основой УДК.
• ББК (Библиотечно-библиографическая классификация) используется для классификации книг, находящихся в библиотеках, для создания каталогов и карточек.
• AMS - система классификаций, созданная Американским математическим сообществом
• УДК (универсальная десятичная классификация) используется для классификации научных работ.
Эта задача актуальна, потому что таблицы классификаций содержат множество разделов, а выбирать индекс самостоятельно и ручным способом долго и сложно. Это представляет собой значительную проблему, одним из способов решения которой становится создание рекомендательной системы.
На сегодняшний день термин рекомендательная система включает в себя широкий спектр программ, который обеспечивает индивидуальной рекомендацией и указаниями, помогающими пользователю найти полезную и нужную для него информацию. Исследование рекомендательных систем представляет собой область, богатую на практические приложения (см. [2] - [4]).
Работа состоит из десяти глав. В первой главе дается постановка задачи. Во второй - введение понятия классификатор, подробный разбор видов классификаторов: УДК,АМ8,ВВК. В третьей главе рассматривается понятие рекомендательная система, история ее возникновения, разновидности, свойства. В четвертой главе предложен алгоритм автоматического подбора индекса классификатора научных работ. Пятая глава содержит архитектуры системы. Также в данной главе идет разбор каждой компоненты структуры. В шестой выбирается способ хранения классификаторов, разбираются XML и JSON форматы, приводится их сравнение. В седьмой главе приведен способ оценки эффективности алгоритма с помощью F-меры. В восьмой главе представлен способ реализации алгоритма в виде сервиса. Также данная глава кратко описывает работу системы. Девятая - дальнейшее развитие алгоритма. Десятая глава - заключение, в которой подведены итоги проделанной работы. Далее список использованной литературы. Приложение А - XML-файл 51-блока «Математика». В приложении В приведен код Веб-приложения «Рекомендательная система выбора индекса УДК».
К основным результатам данной работы можно отнести следующее:
1. Дан обзор классификаторов физико - математических работ.
2. Разработан способ представление классификатора УДК в XML формате.
3. Предложена модель автоматического подбора индекса УДК по названию и ключевым словам научной статьи.
4. Предложен алгоритм автоматического подбора индекса УДК по названию и ключевым словам научной статьи.
5. Создано веб-приложение автоматического подбора индекса УДК для блока классификатора, относящемуся к физико - математическому контенту.
6. Проведено тестирование на коллекции статей.
7. Проанализированы результаты, полученные в ходе теста.
8. Предложена схема дальнейшего развития алгоритма.