📄Работа №85763

Тема: Разработка методов извлечения значимой информации из физико-математических коллекций

Характеристики работы

Тип работы Бакалаврская работа
Математика
Предмет Математика
📄
Объем: 55 листов
📅
Год: 2017
👁️
Просмотров: 108
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
Глава 1. Постановка задачи 6
Глава 2. Предварительные сведения 7
2.1 Определение метаданных 7
2.2 Формат представления метаданных 8
2.3 Dublin Core 11
2.4 Метаданные научных работ 13
Глава 3. Методы извлечения знаний 17
Глава 4. Этапы извлечения знаний 21
Глава 5. Детонат, сигнификат 23
Глава 6. XML (Extensible Markup Language) 25
Глава 7. PDF(Portable Document Format) 32
Глава 8. Как извлечь информацию из PDF файла 33
8.1 Извлечение названия статьи 34
8.2 Извлечение автора 34
8.3 Аспект хранения текста в формате PDF 35
Глава 9. Извлечение информации из PDF с помощью Python 38
Заключение 43
Литература 44
Приложение 47
Приложение 1 47
Приложение 2 XML- схема 50
Приложение 3 код программы на Python

📖 Введение

Данная работа посвящена анализу области компьютерной обработки знаний, содержащихся в текстах на естественном языке.
Данная тема является актуальной, так как в настоящее время постоянно растет количество информационного контента . В 2016 году американская компания Veritas произвела опрос, целью которого было выяснить, какие данные хранятся в корпоративных хранилищах и с какой целью они используются. Результаты показали, что 15% актуальная информация, 33% избыточная, устаревшая или малозначимая, 52 % данных не распознаются при беглом анализе. Исходя из данной статистики получается, что не менее 85% составляет неструктурированная информация. Как видно из приведенной диаграммы [10]
Получаем, что в 85% знаний, информация содержится в неструктурированной форме - тексты естественного языка. Что затрудняет разбор нужных знаний в большом потоке поступающей информации.
Настоящая работа посвящена разработке методов извлечения значимой информации из физико-математических коллекций.
Предложен алгоритм разделяющий PDF-файл на нужные PDF-файлы с содержанием статей. Алгоритм реализован в виде программы на языках Python. С помощью различных алгоритмов проведена обработка цифровой коллекции 50 трудов математического центра Н.И. Лобачевского.
В первой главе представлена точная постановка данной дипломной работы.
Во второй главе - предварительные сведения, в которых описывается что такое метаданные, приведены несколько существующих форматов метаданных, рассказывается, что такое Dublin Core. И происходит анализ, какие же метаданные содержат научные статьи и их отличия.
В третьей главе рассказывается о методах извлечения знаний. От чего зависят, какие трудности возникают при извлечении.
В главе четвертой расписаны этапы извлечения знаний.
В пятой главе дается определение детоната и сигнификата и описаны их различия.
В главе шестой описывается практическая часть, в которой был создан XML- файл с описанием коллекции Н.И.Лобачевского, файл DTD правил, XML- схема, текстовый документ с содержанием статей 50 тома.
В главе седьмой описывается, что такое PDF формат.
В главе восемь описывается как устроен PDF и как извлекать из него метаинформацию.
В главе девять описан алгоритм по разбиению PDF файла на отдельные статьи.
В приложении представлен фрагмент XML-файла с описанием коллекции, XML-схема данной коллекции. Представлен код программы, который реализует в данной дипломной работе алгоритм для разбиения PDF.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В данной дипломной работе получены следующие результаты:
1. Разработан XML-язык описывающий коллекцию Трудов Математического центра имени Н.И.Лобачевского. Язык включает набор тегов, DTD правила, XML-схема.
2. По правилам языка (см. пункт 1) создан XML-файл, содержащий метаописание из 50-сборников трудов.
3. Разработаны методы извлечения названия и автора из научных статей.
4. Разработано приложение на Python. В автоматическом режиме выполняющее разделение pdf-файла сборника на отдельные статьи

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Е.П.Куршев. Роль знаний в системах извлечения информации из текстов/ Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов // Программные системы: теория и приложения. 2012. №3(12). С. 57-70.
2. Д.А.Кормалев. Приложения методов машинного обучения в задачах анализа текста/ Д.А.Кормалев // Программные системы: теория и приближения. 2004.
3. А.М.Андреев. Метод обучения модели извлечения знаний из естественно-языковых текстов/ А.М.Андреев, Д.В.Березкин, К.В. Симаков// Вестник МГТУ им. Н.Э.Баумана: Приборостроение. 2007. №3. С.75-93
4. О.Г.Махасоева. Автоматизированные методы построения атомарной диаграммы модели по тексту естественного языка/ О.Г.Махасоева , Д.Е.Пальчунов // Вестник Новосибирского государственного университета: Информационные технологии. 2014. №2(12). С. 64-73.
5. Н.И.Коваленко. Извлечение знаний для интеллектуальных
транспортных систем/ Н.И.Коваленко // Перспективы науки и образования. 2014. №5(11). С. 45-52.
6. И.С.Наумов. Оценка трудности и сложности учебных задач на основе синтаксического анализа текстов/ И.С.Наумов, В.С.Выхованец // Управление большими системами: сборник трудов. 2014. №48. С. 97-131.
7. S.Sarawagi. Information Extraction/ S.Sarawagi // Foundations and Trends in Databases. 2008. Vol.1, no.3, p. 261-377.
8. A.Konys. An Approach for Ontology-Based Information Extraction System
Selection and Evaluation / A.Konys // PRZEGL4D ELEKTROTECHNICZNY. 2015. 91 NR 11. 2015. p. 205-209.
doi:10.15199/48.2015.11.49
9. S.Sakurai (Ed.). Theory and Applications for Advanced Text Mining, 2012, DOI: 10.5772/3115.
10. J.L.Oliveira. Text mining & Information Extraction. URL:
http: //www.dcc.fc.up. pt/~pribeiro/aulas/na1516/slides/NA-TM.pdf.
11. G.S.Ingersoll. Taming Text: How to Find, Organize, and Manipulate It. Manning Publications Co., 2013. 320 p.
12. Г.С. Ингерсолл, Т.С.Иортон, Э.Л.Фэррис. Обработка
неструктурированных текстов. Поиск, организация и манипулирование ДМК-Пресс, 2015. 414 с.
13.S.Bird, E.Klein, E.Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O'Reilly Media, 2009. 504 p.
14. J.Turmo, A.Ageno, N.Catala. Adaptive information extraction // ACM Computing Surveys. - Vol. 38, No 2
15. И.А.Васильев. Методы и инструментальные средства построения семантических WEB-порталов. дис. на соиск. учен. степ. канд. тех. Наук. (05.13.11)/ И.А.Васильев; Томский политехнический университет. Томск, 2005. 190 с.
16. В.Н.Ярцева. Лингвистический энклопедический словарь, М.: Сов. энциклопедия, 1990. — 683 с.
17. R.Navigli, P.Velardi. From Glossaries to Ontologies: Extracting Semantic Structure from Textual Definitions // Ontology Learning and Population: Bridging the Gap between Text and Knowledge. P. Buitelaar and P. Cimiano (Eds.) IOS Press, 2008. - pp. 71-87.
18. Ю.Е.Хохлов, С.А.Арнаутов. Обзор форматов метаданных.
http://www.elbib.ru/index.phtml?env_page=methodology/metadata/md_revi ew/md_review.html [Обращение: 2012-12-06]
19. J. Riley. UNDERSTANDING METADATA WHAT IS METADATA, AND WHAT IS IT FOR? //National Information Standards Organization (NISO). ISBN: 978-1-937522-72-8, 2017. -pp. 23-24
20. Dublin Core [Электронный ресурс] URL: http : //dublincore . org/
21. А.Вильям. Электронные библиотеки. - ПИК ВИНИТИ, 2000. 200 с. Пер с англ. A.William. Digital Libraries. Cambridge, Mass.: MIT Press, 2000. - 287 p.

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ