📄Работа №38845

Тема: ИЕРАРХИЗАЦИЯ ОГЛАВЛЕНИЯ В PDF-ДОКУМЕНТАХ НАУЧНОЙ ТЕМАТИКИ

📝
Тип работы Дипломные работы, ВКР
📚
Предмет Информационные системы
📄
Объем: 58 листов
📅
Год: 2019
👁️
Просмотров: 212
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Глава 1. Глоссарий 5
Глава 2. Обзор 8
2.1. Обзор литературы и предметной области 8
2.2. Технологии и инструменты 11
Глава 3. Методы обработки оглавления 14
3.1. Выделение секции оглавления в документе 14
3.2. Разбиение оглавления на заголовки 17
3.3. Выбор критериев иерархизации 26
3.4. Алгоритм иерархизации оглавления 31
Глава 4. Реализация 35
Глава 5. Эксперименты и результаты 37
Заключение 41
Приложение А. Листинги программ 46
Приложение Б. Фрагменты архитектуры 55
Приложение В. Примеры вывода результата

📖 Введение

В настоящее время большая часть информации хранится в текстовом виде. И одним из самых распространённых форматов для передачи, в частности, научного знания является PDF. Несмотря на развитие информационных технологий и изобилие разнообразных инструментов для работы с текстами и документами, PDF всё ещё остаётся трудным для обработки, структурирования и качественного выделения необходимых данных.
Этот факт может стать серьёзным препятствием на пути к обработке и систематизации научного знания, использования его для выполнения различных задач, например, генерации аннотаций, анализа тематики, выделения тенденций и других. Для каждой из этих задач требуются сведения о структурном составе документа, одним из самых надёжных источников которых является оглавление документа. Проблема, однако, в том, что множество статей описывают лишь простое выделение оглавления без учёта его иерархической структуры, а, значит, не дают никакой существенной информации. Статьи же, которые описывают структурную сегментацию документа с использованием оглавления либо не ориентированы на русскоязычные тексты [1], либо не учитывают всех типов и форматов оглавлений на сегодняшний день [2], либо предоставляют только теоретическую базу по вопросу [3].
Поэтому цель настоящей работы - составить качественный алгоритм выделения иерархической структуры заголовков оглавления PDF-документа на основе стилевой информации.
Для выполнения поставленной цели потребуется выполнение следующих задач:
• составить алгоритм выделения блока оглавления из PDF-документа;
• составить алгоритм разбиения оглавления на заголовки (единицы оглавления), избегая неинформативных частей (разделителей, колонтитулов
• определить релевантные для задачи иерархизации стилевые характеристики;
• составить алгоритм выделения стилевых характеристик и распределения заголовков на уровни иерархии в соответствии с этими параметрами;
• выбрать формат представления результата, удобного для последующего анализа и применения в различных областях;
• реализовать программный инструмент, выполняющий все вышеперечисленные задачи.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В результате выполнения всех описанных ранее действий были получены: набор библиотек для решения сервисных задач (извлечение оглавления в виде набора единиц, разбитых на составляющие (см. 3.2); иерархизация единиц оглавления), приложение, использующее этот набор библиотек для решения вышеописанных, а также базовый корпус тренировочных текстов, на которых проверяется работа данного приложения. Из множества поставленных задач были выполнены следующие:
• составлен алгоритм выделения блока оглавления из PDF-документа;
• составлен базовый алгоритм разбиения оглавления на заголовки (единицы оглавления), избегая неинформативных частей (разделителей, колонтитулов и т. д.) и учитывая разнообразие форматов оглавления;
• определены релевантные для задачи иерархизации стилевые характеристики;
• составлены алгоритмы выделения стилевых характеристик и распределения заголовков на уровни иерархии в соответствии с выбранными критериями;
• предложены два формата представления результата: текстовый и в виде интеллект-карты, пригодных для последующего анализа и применения в различных областях;
• реализован программный инструмент, выполняющий все вышеперечисленные задачи.
Полученное приложение может обрабатывать не только русскоязычные документы, но и документы других языков, при условии, что у них сходная структурная организация. Для этого достаточно дополнить файл настроек ключевыми словосочетаниями для обозначения оглавления. Используемые в приложении алгоритмы можно дорабатывать для повышения точности, например, посредством применения эвристик или методов машинного обучения. В целом можно отметить, что проблема извлечения оглавления из русскоязычных документов научной тематики изучена и успешно решена, однако требуются как улучшения описанных подходов, так и рассмотрение способов извлечения содержания из источников других тематик, обладающих своими особенностями оформления оглавлений.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Hatsutori Y, Yoshikawa KImai H. Estimating Legal Document Structure by Considering Style Information and Table of Contents // JSAI International Symposium on Artificial Intelligence. — Springer. 2016. — С. 270—283.
2. Analysis of book documents’ table of content based on clustering / L. Gao [и др.] // Document Analysis and Recognition, 2009. ICDAR’09. 10th International Conference on. — IEEE. 2009. — С. 911—915.
3. Dwjean H., Meunier J.-L. On tables of contents and how to recognize them // International Journal of Document Analysis and Recognition (IJDAR). — 2009. — Т. 12, № 1. — С. 1—20.
4. Automated detection and segmentation of table of contents page from document images / S. Mandal [и др.] // Document Analysis and Recognition, 2003. Proceedings. Seventh International Conference on. — IEEE. 2003. — С. 398— 402.
5. Yacoub S., Peiro J. A. Identification of document structure and table of content in magazine archives // null. — IEEE. 2005. — С. 1253—1259.
6. Beland A. Recognition of table of contents for electronic library consulting // International Journal on Document Analysis and Recognition. — 2001. — Т. 4, № 1. — С. 35—45.
7. Wu Z, Mitra P., Giles C. L. Table of contents recognition and extraction for heterogeneous book documents // Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. — IEEE. 2013. — С. 1205— 1209.
8. Nguyen P. T., Nguyen D. T. Extraction of Referential Heading-Entries in Recognized Table of Contents Pages // Intelligent Systems in Cybernetics and Automation Theory. — Springer, 2015. — С. 1—9.
9. Marinai S., Marino E, Soda G. Table of contents recognition for converting PDF documents in e-book formats // Proceedings of the 10th ACM symposium on Document engineering. — ACM. 2010. — С. 73—76.
10. Sarkar P., Saund E. On the reading of tables of contents // The Eighth IAPR International Workshop on Document Analysis Systems. — IEEE. 2008. — С. 386—393.
11. Structure extraction from PDF-based book documents / L. Gao [и др.] // Proceedings of the 11th annual international ACM/IEEE joint conference on Digital libraries. — ACM. 2011. — С. 11—20.
12. Enhancing Table of Contents Extraction by System Aggregation / A. Doucet, M. Coustaty [и др.] // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). — IEEE. 2017. — С. 242—247.
13. Java SE Downloads. — 2018. — URL: https://www.oracle. com/technetwork/ java/javase/downloads/index.html.
14. Porter B., Zyl J. v., Lamy O. Maven - Welcome to Apache Maven. — 2017. — URL: https://maven.apache. org/.
15. Java Platform, Standard Edition (Java SE) 8. — 2015. — URL: https : // docs.oracle.com/javase/8/javase-clienttechnologies.htm.
16. Graphviz - Graph Visualization Software. — 2015. — URL: https ://www. graphviz.org/.
17. Graphviz - The DOT Language. — 2015. — URL: https://www.graphviz. org/doc/info/lang.html.
18. Apache PDFBox - A Java PDF Library. — 2018. — URL: https://pdfbox. apache.org/.
19. Documentation. — 2018. — URL: https : //pdfbox . apache . org/2 . 0/ getting-started.html.
20. Filippov D. S. Title extraction from english scientific books in PDF format // Electronic libraries. - 2018. - Т. 21, № 3/4. - С. 392-411.

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ