Тип работы:
Предмет:
Язык работы:


ИЕРАРХИЗАЦИЯ ОГЛАВЛЕНИЯ В PDF-ДОКУМЕНТАХ НАУЧНОЙ ТЕМАТИКИ

Работа №38845

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы58
Год сдачи2019
Стоимость6500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
173
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Глоссарий 5
Глава 2. Обзор 8
2.1. Обзор литературы и предметной области 8
2.2. Технологии и инструменты 11
Глава 3. Методы обработки оглавления 14
3.1. Выделение секции оглавления в документе 14
3.2. Разбиение оглавления на заголовки 17
3.3. Выбор критериев иерархизации 26
3.4. Алгоритм иерархизации оглавления 31
Глава 4. Реализация 35
Глава 5. Эксперименты и результаты 37
Заключение 41
Приложение А. Листинги программ 46
Приложение Б. Фрагменты архитектуры 55
Приложение В. Примеры вывода результата

В настоящее время большая часть информации хранится в текстовом виде. И одним из самых распространённых форматов для передачи, в частности, научного знания является PDF. Несмотря на развитие информационных технологий и изобилие разнообразных инструментов для работы с текстами и документами, PDF всё ещё остаётся трудным для обработки, структурирования и качественного выделения необходимых данных.
Этот факт может стать серьёзным препятствием на пути к обработке и систематизации научного знания, использования его для выполнения различных задач, например, генерации аннотаций, анализа тематики, выделения тенденций и других. Для каждой из этих задач требуются сведения о структурном составе документа, одним из самых надёжных источников которых является оглавление документа. Проблема, однако, в том, что множество статей описывают лишь простое выделение оглавления без учёта его иерархической структуры, а, значит, не дают никакой существенной информации. Статьи же, которые описывают структурную сегментацию документа с использованием оглавления либо не ориентированы на русскоязычные тексты [1], либо не учитывают всех типов и форматов оглавлений на сегодняшний день [2], либо предоставляют только теоретическую базу по вопросу [3].
Поэтому цель настоящей работы - составить качественный алгоритм выделения иерархической структуры заголовков оглавления PDF-документа на основе стилевой информации.
Для выполнения поставленной цели потребуется выполнение следующих задач:
• составить алгоритм выделения блока оглавления из PDF-документа;
• составить алгоритм разбиения оглавления на заголовки (единицы оглавления), избегая неинформативных частей (разделителей, колонтитулов
• определить релевантные для задачи иерархизации стилевые характеристики;
• составить алгоритм выделения стилевых характеристик и распределения заголовков на уровни иерархии в соответствии с этими параметрами;
• выбрать формат представления результата, удобного для последующего анализа и применения в различных областях;
• реализовать программный инструмент, выполняющий все вышеперечисленные задачи.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате выполнения всех описанных ранее действий были получены: набор библиотек для решения сервисных задач (извлечение оглавления в виде набора единиц, разбитых на составляющие (см. 3.2); иерархизация единиц оглавления), приложение, использующее этот набор библиотек для решения вышеописанных, а также базовый корпус тренировочных текстов, на которых проверяется работа данного приложения. Из множества поставленных задач были выполнены следующие:
• составлен алгоритм выделения блока оглавления из PDF-документа;
• составлен базовый алгоритм разбиения оглавления на заголовки (единицы оглавления), избегая неинформативных частей (разделителей, колонтитулов и т. д.) и учитывая разнообразие форматов оглавления;
• определены релевантные для задачи иерархизации стилевые характеристики;
• составлены алгоритмы выделения стилевых характеристик и распределения заголовков на уровни иерархии в соответствии с выбранными критериями;
• предложены два формата представления результата: текстовый и в виде интеллект-карты, пригодных для последующего анализа и применения в различных областях;
• реализован программный инструмент, выполняющий все вышеперечисленные задачи.
Полученное приложение может обрабатывать не только русскоязычные документы, но и документы других языков, при условии, что у них сходная структурная организация. Для этого достаточно дополнить файл настроек ключевыми словосочетаниями для обозначения оглавления. Используемые в приложении алгоритмы можно дорабатывать для повышения точности, например, посредством применения эвристик или методов машинного обучения. В целом можно отметить, что проблема извлечения оглавления из русскоязычных документов научной тематики изучена и успешно решена, однако требуются как улучшения описанных подходов, так и рассмотрение способов извлечения содержания из источников других тематик, обладающих своими особенностями оформления оглавлений.



1. Hatsutori Y, Yoshikawa KImai H. Estimating Legal Document Structure by Considering Style Information and Table of Contents // JSAI International Symposium on Artificial Intelligence. — Springer. 2016. — С. 270—283.
2. Analysis of book documents’ table of content based on clustering / L. Gao [и др.] // Document Analysis and Recognition, 2009. ICDAR’09. 10th International Conference on. — IEEE. 2009. — С. 911—915.
3. Dwjean H., Meunier J.-L. On tables of contents and how to recognize them // International Journal of Document Analysis and Recognition (IJDAR). — 2009. — Т. 12, № 1. — С. 1—20.
4. Automated detection and segmentation of table of contents page from document images / S. Mandal [и др.] // Document Analysis and Recognition, 2003. Proceedings. Seventh International Conference on. — IEEE. 2003. — С. 398— 402.
5. Yacoub S., Peiro J. A. Identification of document structure and table of content in magazine archives // null. — IEEE. 2005. — С. 1253—1259.
6. Beland A. Recognition of table of contents for electronic library consulting // International Journal on Document Analysis and Recognition. — 2001. — Т. 4, № 1. — С. 35—45.
7. Wu Z, Mitra P., Giles C. L. Table of contents recognition and extraction for heterogeneous book documents // Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. — IEEE. 2013. — С. 1205— 1209.
8. Nguyen P. T., Nguyen D. T. Extraction of Referential Heading-Entries in Recognized Table of Contents Pages // Intelligent Systems in Cybernetics and Automation Theory. — Springer, 2015. — С. 1—9.
9. Marinai S., Marino E, Soda G. Table of contents recognition for converting PDF documents in e-book formats // Proceedings of the 10th ACM symposium on Document engineering. — ACM. 2010. — С. 73—76.
10. Sarkar P., Saund E. On the reading of tables of contents // The Eighth IAPR International Workshop on Document Analysis Systems. — IEEE. 2008. — С. 386—393.
11. Structure extraction from PDF-based book documents / L. Gao [и др.] // Proceedings of the 11th annual international ACM/IEEE joint conference on Digital libraries. — ACM. 2011. — С. 11—20.
12. Enhancing Table of Contents Extraction by System Aggregation / A. Doucet, M. Coustaty [и др.] // 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). — IEEE. 2017. — С. 242—247.
13. Java SE Downloads. — 2018. — URL: https://www.oracle. com/technetwork/ java/javase/downloads/index.html.
14. Porter B., Zyl J. v., Lamy O. Maven - Welcome to Apache Maven. — 2017. — URL: https://maven.apache. org/.
15. Java Platform, Standard Edition (Java SE) 8. — 2015. — URL: https : // docs.oracle.com/javase/8/javase-clienttechnologies.htm.
16. Graphviz - Graph Visualization Software. — 2015. — URL: https ://www. graphviz.org/.
17. Graphviz - The DOT Language. — 2015. — URL: https://www.graphviz. org/doc/info/lang.html.
18. Apache PDFBox - A Java PDF Library. — 2018. — URL: https://pdfbox. apache.org/.
19. Documentation. — 2018. — URL: https : //pdfbox . apache . org/2 . 0/ getting-started.html.
20. Filippov D. S. Title extraction from english scientific books in PDF format // Electronic libraries. - 2018. - Т. 21, № 3/4. - С. 392-411.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ