Тема: Разработка методов извлечения значимой информации из физико-математических коллекций
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Постановка задачи 6
Глава 2. Предварительные сведения 7
2.1 Определение метаданных 7
2.2 Формат представления метаданных 8
2.3 Dublin Core 11
2.4 Метаданные научных работ 13
Глава 3. Методы извлечения знаний 17
Глава 4. Этапы извлечения знаний 21
Глава 5. Детонат, сигнификат 23
Глава 6. XML (Extensible Markup Language) 25
Глава 7. PDF(Portable Document Format) 32
Глава 8. Как извлечь информацию из PDF файла 33
8.1 Извлечение названия статьи 34
8.2 Извлечение автора 34
8.3 Аспект хранения текста в формате PDF 35
Глава 9. Извлечение информации из PDF с помощью Python 38
Заключение 43
Литература 44
Приложение 47
Приложение 1 47
Приложение 2 XML- схема 50
Приложение 3 код программы на Python
📖 Введение
Данная тема является актуальной, так как в настоящее время постоянно растет количество информационного контента . В 2016 году американская компания Veritas произвела опрос, целью которого было выяснить, какие данные хранятся в корпоративных хранилищах и с какой целью они используются. Результаты показали, что 15% актуальная информация, 33% избыточная, устаревшая или малозначимая, 52 % данных не распознаются при беглом анализе. Исходя из данной статистики получается, что не менее 85% составляет неструктурированная информация. Как видно из приведенной диаграммы [10]
Получаем, что в 85% знаний, информация содержится в неструктурированной форме - тексты естественного языка. Что затрудняет разбор нужных знаний в большом потоке поступающей информации.
Настоящая работа посвящена разработке методов извлечения значимой информации из физико-математических коллекций.
Предложен алгоритм разделяющий PDF-файл на нужные PDF-файлы с содержанием статей. Алгоритм реализован в виде программы на языках Python. С помощью различных алгоритмов проведена обработка цифровой коллекции 50 трудов математического центра Н.И. Лобачевского.
В первой главе представлена точная постановка данной дипломной работы.
Во второй главе - предварительные сведения, в которых описывается что такое метаданные, приведены несколько существующих форматов метаданных, рассказывается, что такое Dublin Core. И происходит анализ, какие же метаданные содержат научные статьи и их отличия.
В третьей главе рассказывается о методах извлечения знаний. От чего зависят, какие трудности возникают при извлечении.
В главе четвертой расписаны этапы извлечения знаний.
В пятой главе дается определение детоната и сигнификата и описаны их различия.
В главе шестой описывается практическая часть, в которой был создан XML- файл с описанием коллекции Н.И.Лобачевского, файл DTD правил, XML- схема, текстовый документ с содержанием статей 50 тома.
В главе седьмой описывается, что такое PDF формат.
В главе восемь описывается как устроен PDF и как извлекать из него метаинформацию.
В главе девять описан алгоритм по разбиению PDF файла на отдельные статьи.
В приложении представлен фрагмент XML-файла с описанием коллекции, XML-схема данной коллекции. Представлен код программы, который реализует в данной дипломной работе алгоритм для разбиения PDF.
✅ Заключение
1. Разработан XML-язык описывающий коллекцию Трудов Математического центра имени Н.И.Лобачевского. Язык включает набор тегов, DTD правила, XML-схема.
2. По правилам языка (см. пункт 1) создан XML-файл, содержащий метаописание из 50-сборников трудов.
3. Разработаны методы извлечения названия и автора из научных статей.
4. Разработано приложение на Python. В автоматическом режиме выполняющее разделение pdf-файла сборника на отдельные статьи



