Тема: ИЕРАРХИЗАЦИЯ ОГЛАВЛЕНИЯ В PDF-ДОКУМЕНТАХ НАУЧНОЙ ТЕМАТИКИ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Глоссарий 5
Глава 2. Обзор 8
2.1. Обзор литературы и предметной области 8
2.2. Технологии и инструменты 11
Глава 3. Методы обработки оглавления 14
3.1. Выделение секции оглавления в документе 14
3.2. Разбиение оглавления на заголовки 17
3.3. Выбор критериев иерархизации 26
3.4. Алгоритм иерархизации оглавления 31
Глава 4. Реализация 35
Глава 5. Эксперименты и результаты 37
Заключение 41
Приложение А. Листинги программ 46
Приложение Б. Фрагменты архитектуры 55
Приложение В. Примеры вывода результата
📖 Введение
Этот факт может стать серьёзным препятствием на пути к обработке и систематизации научного знания, использования его для выполнения различных задач, например, генерации аннотаций, анализа тематики, выделения тенденций и других. Для каждой из этих задач требуются сведения о структурном составе документа, одним из самых надёжных источников которых является оглавление документа. Проблема, однако, в том, что множество статей описывают лишь простое выделение оглавления без учёта его иерархической структуры, а, значит, не дают никакой существенной информации. Статьи же, которые описывают структурную сегментацию документа с использованием оглавления либо не ориентированы на русскоязычные тексты [1], либо не учитывают всех типов и форматов оглавлений на сегодняшний день [2], либо предоставляют только теоретическую базу по вопросу [3].
Поэтому цель настоящей работы - составить качественный алгоритм выделения иерархической структуры заголовков оглавления PDF-документа на основе стилевой информации.
Для выполнения поставленной цели потребуется выполнение следующих задач:
• составить алгоритм выделения блока оглавления из PDF-документа;
• составить алгоритм разбиения оглавления на заголовки (единицы оглавления), избегая неинформативных частей (разделителей, колонтитулов
• определить релевантные для задачи иерархизации стилевые характеристики;
• составить алгоритм выделения стилевых характеристик и распределения заголовков на уровни иерархии в соответствии с этими параметрами;
• выбрать формат представления результата, удобного для последующего анализа и применения в различных областях;
• реализовать программный инструмент, выполняющий все вышеперечисленные задачи.
✅ Заключение
• составлен алгоритм выделения блока оглавления из PDF-документа;
• составлен базовый алгоритм разбиения оглавления на заголовки (единицы оглавления), избегая неинформативных частей (разделителей, колонтитулов и т. д.) и учитывая разнообразие форматов оглавления;
• определены релевантные для задачи иерархизации стилевые характеристики;
• составлены алгоритмы выделения стилевых характеристик и распределения заголовков на уровни иерархии в соответствии с выбранными критериями;
• предложены два формата представления результата: текстовый и в виде интеллект-карты, пригодных для последующего анализа и применения в различных областях;
• реализован программный инструмент, выполняющий все вышеперечисленные задачи.
Полученное приложение может обрабатывать не только русскоязычные документы, но и документы других языков, при условии, что у них сходная структурная организация. Для этого достаточно дополнить файл настроек ключевыми словосочетаниями для обозначения оглавления. Используемые в приложении алгоритмы можно дорабатывать для повышения точности, например, посредством применения эвристик или методов машинного обучения. В целом можно отметить, что проблема извлечения оглавления из русскоязычных документов научной тематики изучена и успешно решена, однако требуются как улучшения описанных подходов, так и рассмотрение способов извлечения содержания из источников других тематик, обладающих своими особенностями оформления оглавлений.



