Тема: Метод автоматического извлечения метаданных научных документов в цифровых коллекциях
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Постановка задачи 3
2 Метаданные и их использование в информационном пространстве 5
3 Системы метаданных научных публикаций 8
4 Методы извлечения метаданных 11
4.1 Извлечение метаданных из документов, представленных в формате T]jX 15
4.2 Извлечение метаданных из документов, представленных в формате OpenXML . . 15
4.3 Извлечение метаданных из документов, представленных в формате PDF 17
5 Структура PDF файла 20
6 Система автоматического извлечения метаданных 23
6.1 Описание модуля системы 24
6.1.1 Конвертация PDF файла 25
6.1.2 Извлечение метаданных 27
6.1.3 Формирование XML файла 28
6.1.4 Оценка эффективности алгоритма 30
Заключение 33
Литература 34
Приложение
📖 Введение
Данная работа посвящена методам выделения метаданных из электронных коллекций научного контента. Особое внимание уделено алгоритмам выделения метаданных, выражающих семантические свойства информационных ресурсов, таких как: название ресурса, фио авторов, город, электронные адреса. В данной работе предложен алгоритм извлечения метаданных из электронных коллекций, представленных в формате PDF.
В первой главе представлена задача, поставленная в данной работе, сформулированы основные проблемы изучаемой области, а также приведены некоторые предварительные сведения, необходимые в ходе работы.
О метаданных и о том как их используют в информационном пространстве рассказано во второй главе.
В третьей главе дается представление о том как метаданные попадают в систему научного издания, а также о проблемах, с которыми сталкиваются авторы на данном этапе.
Четвертая глава посвящена методам выделения метаданных. Описаны основные подходы, при помощи которых происходит экстрагирование данных из документов, подготовленных на различных платформах(РВЕ, Word, TJJX).
В пятой главе подробнее рассмотрена структура PDF документов, т.к в настоящее время, это наиболее распространенный и часто используемый для научных публикаций формат.
В шестой главе реализован алгоритм автоматического выделения метаданных из электронной коллекции, представленной в формате PDF. Выделенные метаданные сохраняются в XML- формате.
✅ Заключение
1. Выделены основные типы метаданных, описывающих семантические свойства информационных ресурсов
2. Представлены основные проблемы, связанные с ручной и автоматической обработкой электронных коллекций
3. Сделан обзор существующих систем извлечения метаданных. Указаны их достоинства и недостатки
4. Построены регулярные выражения, с помощью которых осуществляется поиск метаданных
5. Разработан алгоритм автоматического выделения метаданных из электронной коллекции
6. Реализована программа, автоматически выделяющая метаданные из электронных коллекций, оформленных в формате pdf.



