Тип работы:
Предмет:
Язык работы:


Разработка методов извлечения значимой информации из физико-математических коллекций

Работа №85763

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы55
Год сдачи2017
Стоимость4300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
26
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Постановка задачи 6
Глава 2. Предварительные сведения 7
2.1 Определение метаданных 7
2.2 Формат представления метаданных 8
2.3 Dublin Core 11
2.4 Метаданные научных работ 13
Глава 3. Методы извлечения знаний 17
Глава 4. Этапы извлечения знаний 21
Глава 5. Детонат, сигнификат 23
Глава 6. XML (Extensible Markup Language) 25
Глава 7. PDF(Portable Document Format) 32
Глава 8. Как извлечь информацию из PDF файла 33
8.1 Извлечение названия статьи 34
8.2 Извлечение автора 34
8.3 Аспект хранения текста в формате PDF 35
Глава 9. Извлечение информации из PDF с помощью Python 38
Заключение 43
Литература 44
Приложение 47
Приложение 1 47
Приложение 2 XML- схема 50
Приложение 3 код программы на Python


Данная работа посвящена анализу области компьютерной обработки знаний, содержащихся в текстах на естественном языке.
Данная тема является актуальной, так как в настоящее время постоянно растет количество информационного контента . В 2016 году американская компания Veritas произвела опрос, целью которого было выяснить, какие данные хранятся в корпоративных хранилищах и с какой целью они используются. Результаты показали, что 15% актуальная информация, 33% избыточная, устаревшая или малозначимая, 52 % данных не распознаются при беглом анализе. Исходя из данной статистики получается, что не менее 85% составляет неструктурированная информация. Как видно из приведенной диаграммы [10]
Получаем, что в 85% знаний, информация содержится в неструктурированной форме - тексты естественного языка. Что затрудняет разбор нужных знаний в большом потоке поступающей информации.
Настоящая работа посвящена разработке методов извлечения значимой информации из физико-математических коллекций.
Предложен алгоритм разделяющий PDF-файл на нужные PDF-файлы с содержанием статей. Алгоритм реализован в виде программы на языках Python. С помощью различных алгоритмов проведена обработка цифровой коллекции 50 трудов математического центра Н.И. Лобачевского.
В первой главе представлена точная постановка данной дипломной работы.
Во второй главе - предварительные сведения, в которых описывается что такое метаданные, приведены несколько существующих форматов метаданных, рассказывается, что такое Dublin Core. И происходит анализ, какие же метаданные содержат научные статьи и их отличия.
В третьей главе рассказывается о методах извлечения знаний. От чего зависят, какие трудности возникают при извлечении.
В главе четвертой расписаны этапы извлечения знаний.
В пятой главе дается определение детоната и сигнификата и описаны их различия.
В главе шестой описывается практическая часть, в которой был создан XML- файл с описанием коллекции Н.И.Лобачевского, файл DTD правил, XML- схема, текстовый документ с содержанием статей 50 тома.
В главе седьмой описывается, что такое PDF формат.
В главе восемь описывается как устроен PDF и как извлекать из него метаинформацию.
В главе девять описан алгоритм по разбиению PDF файла на отдельные статьи.
В приложении представлен фрагмент XML-файла с описанием коллекции, XML-схема данной коллекции. Представлен код программы, который реализует в данной дипломной работе алгоритм для разбиения PDF.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной дипломной работе получены следующие результаты:
1. Разработан XML-язык описывающий коллекцию Трудов Математического центра имени Н.И.Лобачевского. Язык включает набор тегов, DTD правила, XML-схема.
2. По правилам языка (см. пункт 1) создан XML-файл, содержащий метаописание из 50-сборников трудов.
3. Разработаны методы извлечения названия и автора из научных статей.
4. Разработано приложение на Python. В автоматическом режиме выполняющее разделение pdf-файла сборника на отдельные статьи



1. Е.П.Куршев. Роль знаний в системах извлечения информации из текстов/ Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов // Программные системы: теория и приложения. 2012. №3(12). С. 57-70.
2. Д.А.Кормалев. Приложения методов машинного обучения в задачах анализа текста/ Д.А.Кормалев // Программные системы: теория и приближения. 2004.
3. А.М.Андреев. Метод обучения модели извлечения знаний из естественно-языковых текстов/ А.М.Андреев, Д.В.Березкин, К.В. Симаков// Вестник МГТУ им. Н.Э.Баумана: Приборостроение. 2007. №3. С.75-93
4. О.Г.Махасоева. Автоматизированные методы построения атомарной диаграммы модели по тексту естественного языка/ О.Г.Махасоева , Д.Е.Пальчунов // Вестник Новосибирского государственного университета: Информационные технологии. 2014. №2(12). С. 64-73.
5. Н.И.Коваленко. Извлечение знаний для интеллектуальных
транспортных систем/ Н.И.Коваленко // Перспективы науки и образования. 2014. №5(11). С. 45-52.
6. И.С.Наумов. Оценка трудности и сложности учебных задач на основе синтаксического анализа текстов/ И.С.Наумов, В.С.Выхованец // Управление большими системами: сборник трудов. 2014. №48. С. 97-131.
7. S.Sarawagi. Information Extraction/ S.Sarawagi // Foundations and Trends in Databases. 2008. Vol.1, no.3, p. 261-377.
8. A.Konys. An Approach for Ontology-Based Information Extraction System
Selection and Evaluation / A.Konys // PRZEGL4D ELEKTROTECHNICZNY. 2015. 91 NR 11. 2015. p. 205-209.
doi:10.15199/48.2015.11.49
9. S.Sakurai (Ed.). Theory and Applications for Advanced Text Mining, 2012, DOI: 10.5772/3115.
10. J.L.Oliveira. Text mining & Information Extraction. URL:
http: //www.dcc.fc.up. pt/~pribeiro/aulas/na1516/slides/NA-TM.pdf.
11. G.S.Ingersoll. Taming Text: How to Find, Organize, and Manipulate It. Manning Publications Co., 2013. 320 p.
12. Г.С. Ингерсолл, Т.С.Иортон, Э.Л.Фэррис. Обработка
неструктурированных текстов. Поиск, организация и манипулирование ДМК-Пресс, 2015. 414 с.
13.S.Bird, E.Klein, E.Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009. 504 p.
14. J.Turmo, A.Ageno, N.Catala. Adaptive information extraction // ACM Computing Surveys. - Vol. 38, No 2
15. И.А.Васильев. Методы и инструментальные средства построения семантических WEB-порталов. дис. на соиск. учен. степ. канд. тех. Наук. (05.13.11)/ И.А.Васильев; Томский политехнический университет. Томск, 2005. 190 с.
16. В.Н.Ярцева. Лингвистический энклопедический словарь, М.: Сов. энциклопедия, 1990. — 683 с.
17. R.Navigli, P.Velardi. From Glossaries to Ontologies: Extracting Semantic Structure from Textual Definitions // Ontology Learning and Population: Bridging the Gap between Text and Knowledge. P. Buitelaar and P. Cimiano (Eds.) IOS Press, 2008. - pp. 71-87.
18. Ю.Е.Хохлов, С.А.Арнаутов. Обзор форматов метаданных.
http://www.elbib.ru/index.phtml?env_page=methodology/metadata/md_revi ew/md_review.html [Обращение: 2012-12-06]
19. J. Riley. UNDERSTANDING METADATA WHAT IS METADATA, AND WHAT IS IT FOR? //National Information Standards Organization (NISO). ISBN: 978-1-937522-72-8, 2017. -pp. 23-24
20. Dublin Core [Электронный ресурс] URL: http : //dublincore . org/
21. А.Вильям. Электронные библиотеки. - ПИК ВИНИТИ, 2000. 200 с. Пер с англ. A.William. Digital Libraries. Cambridge, Mass.: MIT Press, 2000. - 287 p.

Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ