Тема: МЕТОДЫ ИЗВЛЕЧЕНИЯ И НОРМАЛИЗАЦИИ МЕТАДАННЫХ В ЦИФРОВЫХ МАТЕМАТИЧЕСКИХ КОЛЛЕКЦИЯХ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
Глава 1. Предварительные сведения 7
1.1 Основные определения 7
1.2 Обзор работ по теме исследования 11
Глава 2. Форматы документов, метаданные 14
2.1 Форматы научных документов 14
2.2 Метаданные в математических документах 16
Глава 3. Реализация алгоритма экстракции метаданных 18
3.2 Логика системы 18
3.3 Визуализация 25
3.1 Результаты эксперимента 22
Заключение 25
Библиографический список 26
Приложение 1
📖 Введение
описание статьи, авторское резюме и ключевые слова, названия и места расположения организаций, от имени которых авторы представили свои материалы. Извлечение метаданных из документов вручную представляет собой трудную задачу. По этой причине возникает необходимость в автоматизировании данного процесса.
Основная цель данной магистерской работы состоит в том, чтобы решить проблему экстракции метаданных путем предоставления автоматического, точного и гибкого алгоритма для их извлечения непосредственно из научных статей. Программа написана на языке Python. Предлагаемый алгоритм берет на входе том в формате PDF, выполняет структурный анализ документа и и как результат парсинга осуществляет запись метаданных статей научных коллекции в XML-документе. Эксперимент проведен на наборе документов (формата pdf) “Труды математического центра им. Н.И.Лобачевского”.
В ходе работы были рассмотрены различные методы экстракции метаданных, существующие на данное время. Было подробно изучено стилевое оформление каждого тома и каждой статьи. Опираясь на полученные данные, мы создали собственный алгоритм извлечения метаданных из научных документов, основанный на машинном обучении.
В первой главе приведены основные определения, знание которых было необходимо при реализации данной работы. Так же в первой главе присутствует обзор работ по теме исследования, в которых приведены методы для экстракции метаданных существующие на данное время.
Во второй главе представлены форматы документов, полезные для создания и хранения научных статей, так же подробнее разобраны метаданные, и какие именно из них присутствуют в математических документах.
В третьей главе приведены: алгоритм предложенного нами метода, описание каждого класса, присутствующего в программе, так же приведены пример работы и результаты эксперимента полученные при использовании данной программы.
В приложении представлен код программы, который выполнен на языке Python.
Результаты работы, по мере их получения, докладывались на Международной научной конференции «Лобачевские чтения-2017», студенческой научной конференции КФУ-2017, Международной научной конференции «Лобачевские чтения-2018», студенческой научной конференции КФУ-2018, студенческой научной конференции КФУ-2019. Опубликованы две научные статьи [1, 6].
ПОСТАНОВКА ЗАДАЧИ
Целью данной работы является автоматизация процесса экстракции метаданных из математических документов. Для этого необходимо создать приложение на языке Python, выполняющее следующие действия:
1. открывать и считывать документ формата pdf, разбивать каждую страницу документа на слова;
2. обучать и сохранять модель;
3. используя обученную модель извлекать название статьи, авторов, первую и конечную страницы статьи;
4. записывать извлеченные метаданные в XML-документ.
✅ Заключение
Дан обзор методов извлечения метаданных из научных документов, существующие на данное время. Предложен свой метод, основанный на машинном обучении и реализованный на языке Python.
Программа выполняет:
1. Получает на вход файл формата pdf, разбивает каждую страницу тома на отдельные слова.
2. Обучает и сохраняет модель.
3. Извлекает название статьи, авторов, первую и конечную страницы статьи.
4. Записывает извлеченные метаданные в XML - документ.
Для оценки качества алгоритма был проведен эксперимент с использованием цифровой коллекции «Труды математического центра им. Н.И.Лобачевского». Эксперимент показал, что программа достаточно хорошо подходит для экстракции метаданных.
Таким образом, все поставленные перед магистерской работой задачи выполнены.
Данная программа значительно облегчает процесс экстракции метаданных из научных документов. Программа удобна для пользования. Пользователь за считанные секунды имеет структурированный XML - документ с извлеченными автоматически метаданными, с которыми впоследствии он может продолжить работу. Данное решение приводит к значительной экономии времени и гораздо лучшему качеству метаданных.



