Введение 2
1 Постановка задачи 3
2 Метаданные и их использование в информационном пространстве 5
3 Системы метаданных научных публикаций 8
4 Методы извлечения метаданных 11
4.1 Извлечение метаданных из документов, представленных в формате T]jX 15
4.2 Извлечение метаданных из документов, представленных в формате OpenXML . . 15
4.3 Извлечение метаданных из документов, представленных в формате PDF 17
5 Структура PDF файла 20
6 Система автоматического извлечения метаданных 23
6.1 Описание модуля системы 24
6.1.1 Конвертация PDF файла 25
6.1.2 Извлечение метаданных 27
6.1.3 Формирование XML файла 28
6.1.4 Оценка эффективности алгоритма 30
Заключение 33
Литература 34
Приложение
В настоящее время наметилась общая тенденция отказа от бумажных носителей в пользу цифровых и электронных вариантов хранения. Одними из главных причин этого, стали усиленное развитие средств верстки и оформления документов и сети интернет. Это дало возможность каждому пользователю легко создавать электронные документы и публиковать информацию в сети. Многие авторы и исследователи, пользуясь этим, публикуют свои статьи и работы даже раньше, чем они появляются в журналах и сборниках. Поэтому сейчас наблюдается усиленный рост числа научных документов, статей и публикаций, доступных в электронном виде. Как следствие, возникает необходимость решения задач поиска, систематизации, учета и понимания таких документов
Данная работа посвящена методам выделения метаданных из электронных коллекций научного контента. Особое внимание уделено алгоритмам выделения метаданных, выражающих семантические свойства информационных ресурсов, таких как: название ресурса, фио авторов, город, электронные адреса. В данной работе предложен алгоритм извлечения метаданных из электронных коллекций, представленных в формате PDF.
В первой главе представлена задача, поставленная в данной работе, сформулированы основные проблемы изучаемой области, а также приведены некоторые предварительные сведения, необходимые в ходе работы.
О метаданных и о том как их используют в информационном пространстве рассказано во второй главе.
В третьей главе дается представление о том как метаданные попадают в систему научного издания, а также о проблемах, с которыми сталкиваются авторы на данном этапе.
Четвертая глава посвящена методам выделения метаданных. Описаны основные подходы, при помощи которых происходит экстрагирование данных из документов, подготовленных на различных платформах(РВЕ, Word, TJJX).
В пятой главе подробнее рассмотрена структура PDF документов, т.к в настоящее время, это наиболее распространенный и часто используемый для научных публикаций формат.
В шестой главе реализован алгоритм автоматического выделения метаданных из электронной коллекции, представленной в формате PDF. Выделенные метаданные сохраняются в XML- формате.
Кратко о результатах работы:
1. Выделены основные типы метаданных, описывающих семантические свойства информационных ресурсов
2. Представлены основные проблемы, связанные с ручной и автоматической обработкой электронных коллекций
3. Сделан обзор существующих систем извлечения метаданных. Указаны их достоинства и недостатки
4. Построены регулярные выражения, с помощью которых осуществляется поиск метаданных
5. Разработан алгоритм автоматического выделения метаданных из электронной коллекции
6. Реализована программа, автоматически выделяющая метаданные из электронных коллекций, оформленных в формате pdf.
1. Goble С.A., De Roure D.C. myExperiment: social networking for workflow-using e-scientists j) Proceedings of the 2nd workshop on Workflows in support of large-scale science. — ACM, 2007. -72 p.
2. Кириллов А.В. Математическое моделирование и программная реализация семантического преобразования, поисковых запросов / / Магистерская диссертация. Национальный исследовательский университет, 2012. - с. 1-41.
3. Scientific American [Электронный ресурс] URL: http://www.scientificamerican.com/
4. Burnett К., Kwong Bor Ng., Park S.A. Comparisonof the two traditions of metadata development //J. of the American Society for Information Science. Special issue on integrating multiple overlapping metadata standards, 1999. -Ill p.
5. Когаловский М.Р. Метаданные, их свойства, функции, классификация и средства, представления // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2012,Переславль- Залесский, Россия, 2012. - с. 25-36.
6. Halshofer В.,Kias W. A Survey of Techniques for Achieving Metadata Interoperability //ACM Computing Surveys, Vol. 42, No. 2, Article 7, February 2010. -p. 121-133.
7. Grotschel M.,Lugger J. Scientific Information System and Metadata//Konrad-Zuse-Zentrum fur Informationstechnik, Berlin, 1999. -22 p.
8. Воройский Ф.С. Информатика. Новый систематизированный словарь-справочник (Вводный курс по информатике и вычислительной технике в терминах). - 2-е изд., перераб. и доп.М.: Либерия, 2001. - с. 123-145.
9. Jeusfeld М.А. Metadata. In: Encyclopedia of Database Systems, Springer, 2009. - 201 p.
10. Corcho O. Ontology based document annotation: trends and open research problems //Intern. Journal of Metadata, Semantics and Ontologies, 2006. -p. 26-45.
11. Francesco R.,Horacio S. Dr. Inventor Framework: Extracting Structured Information from Scientific Publications //TALN Research Group, Universitat Pompeu Fabra, 2015. -p. 132-149.
12. Greenberg J. Metadata Extraction and Harvesting: A Comparison of Two Automatic Metadata Generation Applications//Journal of Internet Cataloging, 2004. -p. 59-82.
13. Dublin Core [Электронный ресурс] URL: http://dublincore.org/
14. Коляда А.С.,Яковенко В.О. Структура метаданных научных публикаций и их категоризация/ / Кафедра управления системами безопасности жизнедеятельности, Одесский национальный политехнический университет, 2015. -с. 1-24.
15. Негри А.А. Концепция проекта, агрегирующей аналитической информационной системы для, работы, с наукометрическими базами данных// Одесский национальний политехнический университет, 2013. -с. 1- 17.
16. Коляда А.С. Извлечение информации из слабо структурированных Веб страниц. Восточно-Европейский журнал передовых технологий, 2014. -с.145-167.
17. Peng F., McCallum A. Accurate Information extraction from research papers using conditional random fields //Inf. Process. Manage, 2006. -p. 963-979.
18. Васильев А.,Козлов Д.,Самусев С.,Шамина О. Извлечение метаинформации и библиографических ссылок из текстов русскоязычных научных статей//Грант «Интернет-математика 2007», 2007. -с. 1-10.
19. Гойвертс Я.,Левитан С. Регулярные выражения Сборник рецептов. — СПб.: «Символ- Плюс», 2010. -с. 608.
20. Хайдаров Ш.М. Семантический анализ документов в системе управления, цифровыми научными коллекциями// Магистерская диссертация. Институт математики и механики им. Н.П. Лобачевского Казанского (Приволжского) федерального университета,URL: http: //elbib.kpfu.ru/main/article/2015;l;5,2015. -с. 61-85.
21. Елизаров А.М.,Липачёв Е.К.,Невзорова О.А.,Соловьев В.Д. Методы, и средства, семантического структурирования электронных математических документов // Доклады Академии наук. 2014. - с. 642-645.
22. PDF [Электронный ресурс] URL: http://www.adobe.com/
23. PDFlib [Электронный ресурс] URL: http://www.pdflib.com/
24. PDFX [Электронный ресурс] URL: http://pdfx.cs.man.ac.uk/
25. CERMINE [Электронный ресурс] URL: http://cermine.ceon.pl/
26. Tkaczyk D.,Szostek P.,Fedoryszak M.,Dendek P.J.,Bolikowski L. CERMINE: automatic extraction of structured metadata from scientific literature, 2015. -p. 245-276.
27. PDF Reference sixth edition Adobe Portable Document Format Version 1.7. Adobe Systems Inc., 2006. -p.1-13.
28. XML [Электронный ресурс] URL: https://www.w3.org/XML/
29. Кристофер Д.М.,1Трабхакар Р.,Хайнрих Ш. Введение в информационный поиск Издательский дом "Вильямс 2011. -с. 171.