Тип работы:
Предмет:
Язык работы:


МЕТОДЫ ИЗВЛЕЧЕНИЯ И НОРМАЛИЗАЦИИ МЕТАДАННЫХ В ЦИФРОВЫХ МАТЕМАТИЧЕСКИХ КОЛЛЕКЦИЯХ

Работа №31805

Тип работы

Магистерская диссертация

Предмет

математика

Объем работы36
Год сдачи2019
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
198
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 6
Глава 1. Предварительные сведения 7
1.1 Основные определения 7
1.2 Обзор работ по теме исследования 11
Глава 2. Форматы документов, метаданные 14
2.1 Форматы научных документов 14
2.2 Метаданные в математических документах 16
Глава 3. Реализация алгоритма экстракции метаданных 18
3.2 Логика системы 18
3.3 Визуализация 25
3.1 Результаты эксперимента 22
Заключение 25
Библиографический список 26
Приложение 1

В настоящее время невозможно представить обработку и хранение данных в компьютерных системах, обмен данными между ними, а так же доступ пользователей к ним без представленных описаний свойств к ним. Описания такого рода называются метаданными, то есть метаданные - это данные о данных. Они обеспечивают более широкие возможности при использовании документов, а так же с помощью метаданных значительно повышается их значимость. Генерирование, хранение и управление метаданными помогают так же в поддержке использования огромных объемов информации. Одно из направлений, связанных с управлением метаданными в информационном цифровом научном пространстве основано на экстракции метаданных из научных документов. А именно из научных публикаций. Метаданными в научных публикациях являются: библиографическое
описание статьи, авторское резюме и ключевые слова, названия и места расположения организаций, от имени которых авторы представили свои материалы. Извлечение метаданных из документов вручную представляет собой трудную задачу. По этой причине возникает необходимость в автоматизировании данного процесса.
Основная цель данной магистерской работы состоит в том, чтобы решить проблему экстракции метаданных путем предоставления автоматического, точного и гибкого алгоритма для их извлечения непосредственно из научных статей. Программа написана на языке Python. Предлагаемый алгоритм берет на входе том в формате PDF, выполняет структурный анализ документа и и как результат парсинга осуществляет запись метаданных статей научных коллекции в XML-документе. Эксперимент проведен на наборе документов (формата pdf) “Труды математического центра им. Н.И.Лобачевского”.
В ходе работы были рассмотрены различные методы экстракции метаданных, существующие на данное время. Было подробно изучено стилевое оформление каждого тома и каждой статьи. Опираясь на полученные данные, мы создали собственный алгоритм извлечения метаданных из научных документов, основанный на машинном обучении.
В первой главе приведены основные определения, знание которых было необходимо при реализации данной работы. Так же в первой главе присутствует обзор работ по теме исследования, в которых приведены методы для экстракции метаданных существующие на данное время.
Во второй главе представлены форматы документов, полезные для создания и хранения научных статей, так же подробнее разобраны метаданные, и какие именно из них присутствуют в математических документах.
В третьей главе приведены: алгоритм предложенного нами метода, описание каждого класса, присутствующего в программе, так же приведены пример работы и результаты эксперимента полученные при использовании данной программы.
В приложении представлен код программы, который выполнен на языке Python.
Результаты работы, по мере их получения, докладывались на Международной научной конференции «Лобачевские чтения-2017», студенческой научной конференции КФУ-2017, Международной научной конференции «Лобачевские чтения-2018», студенческой научной конференции КФУ-2018, студенческой научной конференции КФУ-2019. Опубликованы две научные статьи [1, 6].
ПОСТАНОВКА ЗАДАЧИ
Целью данной работы является автоматизация процесса экстракции метаданных из математических документов. Для этого необходимо создать приложение на языке Python, выполняющее следующие действия:
1. открывать и считывать документ формата pdf, разбивать каждую страницу документа на слова;
2. обучать и сохранять модель;
3. используя обученную модель извлекать название статьи, авторов, первую и конечную страницы статьи;
4. записывать извлеченные метаданные в XML-документ.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В настоящей магистерской работе представлены результаты исследования возможности применения предложенного нами алгоритма для улучшения качества автоматической экстракции метаданных.
Дан обзор методов извлечения метаданных из научных документов, существующие на данное время. Предложен свой метод, основанный на машинном обучении и реализованный на языке Python.
Программа выполняет:
1. Получает на вход файл формата pdf, разбивает каждую страницу тома на отдельные слова.
2. Обучает и сохраняет модель.
3. Извлекает название статьи, авторов, первую и конечную страницы статьи.
4. Записывает извлеченные метаданные в XML - документ.
Для оценки качества алгоритма был проведен эксперимент с использованием цифровой коллекции «Труды математического центра им. Н.И.Лобачевского». Эксперимент показал, что программа достаточно хорошо подходит для экстракции метаданных.
Таким образом, все поставленные перед магистерской работой задачи выполнены.
Данная программа значительно облегчает процесс экстракции метаданных из научных документов. Программа удобна для пользования. Пользователь за считанные секунды имеет структурированный XML - документ с извлеченными автоматически метаданными, с которыми впоследствии он может продолжить работу. Данное решение приводит к значительной экономии времени и гораздо лучшему качеству метаданных.



[1] Батыршина Р.Р. Метод извлечения терминов в цифровых математических коллекциях / Р.Р. Батыршина // Тр. Матем. центра им. Н.И.Лобачевского. - Казань: Изд-во Казан. матем. об-ва, 2017. - Т. 55. - С. 24-26.
[2] Апанович З. В. Использование матриц смежности для визуализации больших графов / З. В.Апанович // Институт систем информатики им. А.П. Ершова СО РАН, Новосибирск - 2019.
[3] Новикова Д.С. Автоматическое выделение терминов из текстов предметных областей и установление связей между ними. / Д.С. Новикова // Конференции на РУДН, Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. - 2012.
[4] Ингерсолл Г. С. Обработка неструктурированных текстов. Поиск, организация и манипулирование. / Г. С. Ингерсолл, С. Т.. Мортон., Л Э. Фэррис; Пер. с англ. Слинкин А. А. - М.: ДМК Пресс, 2015. - 414 с.: ил [7] Лутц М. Изучаем Python, 4-е изд. - Пер. с англ. - СПб.: Символ-Плюс, 2011. - 1280 с.
[5] Elizarov A.M. Scientific documents ontologies for semantic representation of digital libraries / A.M. Elizarov, Sh.M. Khaydarov, E.K. Lipachev // 2017 Second Russia and Pacific Conference on Computer Technology and Applications (RPC). Vladivostok, Russky Island, Russia 25-29 September, 2017. - pp. 1-5.
[6] Батыршина Р.Р. Метод организации цифровых коллекций на основе метаданных и системы семантических связей / Р.Р. Батыршина, Е.К. Липачев, Э.М. Сабитова, К.А. Семенова // Труды математического центра им. Н.И. Лобачевского. - 2018. - Т. 56. - С. 338-341.
[7] Бхаргава А. Б. Грокаем алгоритмы. Иллюстрированное пособие для программистов и любопытствующих / А. Б. Бхаргава СПб.: Питер, 2017. - Серия «Библиотека программиста».
[8] Когаловский М.Р. Метаданные в компьютерных системах/ М.Р. Когаловский // Программирование. - 2013. - Т . 39, - № 4. - С. 28-46.
[9] Гасфилд Д. Строки, деревья и последовательности в алгоритмах/ Д. Гасфилд. - Информатика и вычислительная биология. СПб.: Невский Диалект; БХВ-Петербург, 2003. 10.1109/RPC.2017.8168064.
[10] Елизаров А.М.. Веб-технологии для математика: основы MathML Практическое руководство. / А.М. Елизаров, Е.К. Липачёв, М.А. Малахальцев - М.: ФИЗМАТЛИТ, 2010. - 192 с.
[11] Елизаров А.М. Автоматизированная система сервисов обработки больших
коллекций научных документов / А.М. Елизаров, Е.К. Липачёв, Ш.М. Хайдаров // Аналитика и управление данными в областях с интенсивным использованием данных: сборник статей XVIII Междун. конф.
DAMDID/RCDL'2016. - М.: ФИЦ ИУ РАН, 2016. - С.109-115.
[12] Сапунов Г. В. Введение в машинное обучение/ Г. В. Сапунов // CTO Intento - 2018.
[13] Елизаров А.М. Управление математическими знаниями: онтологические модели и цифровые технологии. / А.М. Елизаров, А.В. Кириллович, Е.К. [6] Огальцов А. В. Автоматическое извлечение метаданных из научных PDF- документов / А. В. Огальцов, О. Ю. Бахтеев // Информ. и её примен. - 2018 - том 12 выпуск 2 - С. 75-82.
[14] Герасимов А.Н. Методы автоматизированного извлечения метаданных научных публикаций для библиографических и реферативных баз цитирования / А.Н. Герасимов // Сборник научных статей XIX Объединенной конференции «Интернет и современное общество», Санкт-Петербург - IMS- 2016,- С. 41- 48.
[15] Binge Cui and Xin Chen. “An Improved Hidden Markov Model for Literature
Meta- data Extraction”. / Cui Binge and Chen Xin // In: Advanced Intelligent Computing Theories and Applications, 6th International Conference on Intelligent Computing, - ICIC 2010, Changsha, China, August 18-21, 2016. Proceedings. 2016, pp. 205-212. doi: 10.1007/978-3-642- 14922-1_26. url:
http://dx.doi.org/10.1007/978-3-642-14922-1_26.
[16] Kovacevic A. et al. “Automatic extraction of metadata from scientific publications for CRIS systems”. / A. Kovacevic // In: Program 45.4 (2011) - pp. 376-396.
[17] Tkaczyk D. New Methods for Metadata Extraction from Scientific Literature /
D. Tkaczyk // ICM, University of Warsaw - 2017.
[18] Getaneh Alemu An Emergent Theory of Digital Library Metadata / Alemu Getaneh, Stevens Brett - Chandos Publishing - 2015.
[19] ChengXiang Zhai Text Data Management and Analysis / Zhai ChengXiang, Massung Sean - University of Illinois at Urbana-Champaign - 2016.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ