Тип работы:
Предмет:
Язык работы:


Разработка моделей и методов семантического аннотирования математических статей

Работа №77532

Тип работы

Магистерская диссертация

Предмет

информационные системы

Объем работы80
Год сдачи2016
Стоимость4825 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
281
Не подходит работа?

Узнай цену на написание


Аннотация 4
Глава 1. Введение 5
1.1. Актуальность 5
1.2. Цель исследования 9
1.3. Объект и предмет исследования 10
1.4. Теоретическая значимость и научная новизна 11
1.5. Постановка задачи 12
Глава 2. Обзор существующих решений 14
2.1. Структура и семантические связи математического текста 14
2.2. Фреймовая OWL-модель 17
2.3. Классификация главных результатов математических статей 20
2.4. Модели представления главных результатов 22
2.5. Тестирование NLP-инструментов 26
2.6. Методы поиска главных результатов в тесте статьи 27
Глава 3. Исследование и построение решения задачи 35
3.1. Сбор тестовой коллекции 35
3.2. Построение онтологической модели 36
3.3. Формальная модель представления главных результатов 38
3.4. NLP разметка 42
3.5. Разработка метода поиска главного результата 45
3.6. Связывание главных результатов с элементами статьи 48
3.7. Построение семантической аннотации статьи 52
3.8. Разработка синтаксического парсера для выделения текстовых зон
документа 54
Глава 4. Функционал разработанной программы 56
Глава 5. Эксперименты и результаты 62
Заключение 67
Список литературы 69
Приложение 71
Приложение 1. Блок схема 71
Приложение 2. Классы онтологии 73
Приложение 3. Синтаксический парсер 74
Приложение 4. Перевод статьи в текстовый формат 83
Приложение 5. Мера Жаккара 84
Приложение 6. Мера Левенштейна 86
Приложение 7. Работа с Базой Данных 87
Приложение 8. Эксперименты и результаты

Активное развитие на современном этапе различных направлений языковедческой науки, в частности, прагматического направления, выразилось в усилении функционального подхода к языковым явлениям, в укрупнении единицы семантического анализа, а также привело к формированию целого ряда новых исследований, связанных с анализом речи и текстов на естественном языке, в частности, математических.
В настоящие время электронные ресурсы, а в особенности научные публикации, создаются для их использования людьми. Форматы описания научных публикаций не включают в себя описания формальных знаний, которые содержат данные документы. Формальное описание основного смысла электронного документа является основной задачей таких семантических технологий, как RDF, RDFS, OWL.
1.1. Актуальность
Актуальность темы настоящей диссертационной работы обусловлена необходимостью изучения моделей и методов семантического аннотирования математических статей. Аннотирование ресурсов представляет собой очень важную, но также и очень трудную и трудоемкую задачу. Следует отметить, что аннотирование является начальным этапом применения семантических технологий, а в настоящее время существует большое количество не аннотированных электронных ресурсов.
Предпринятое исследование моделей и методов семантического аннотирования математических статей осуществляется в направлении актуального в настоящее время семантического подхода к представлению знаний.
Основной проблемой для семантического аннотирования документов является отсутствие общедоступных больших терминологических ресурсов по различным предметным областям, на основе которых можно было бы производить аннотирование. Альтернативным решением является автоматическое извлечение терминологии из текстов.
Существуют другие технологии выполняющие задачу семантического аннотирования математических статей - проведен анализ среди других технологий. Суть сравнения - подчеркивание достоинств и недостатков использования системы LaTeX.
Проблема поиска в коллекциях математических документов является актуальной на сегодняшней день. Данная область исследований быстро развивается. Современные поисковые системы для научных коллекций условно можно разделить на три группы.
К первой относятся системы поиска научных публикаций и поисковые интерфейсы крупнейших научных коллекций, которые предлагают сервис полнотекстового поиска по ключевым словам с учетом метаданных публикации (автор, название, журнал, краткое описание). Эти системы индексируют значительные объемы актуальных научных статей в области математики в формате PDF или LaTeX.
Отличительная особенность систем второй группы состоит в том, что они используют семантику математической нотации и реализуют поиск по формулам и выражениям. Данные системы работают со специальным семантическим представлением математических формул, выраженным на языках Content/Presentation MathML и OpenMath. В качестве результатов возвращаются ссылки на документы, содержащие релевантные формулы [4].
В настоящие время активно разрабатываются системы, выполняющие задачу семантического аннотирования математических статей. Проведем предварительный анализ среди таких, с целью выявления плюсов и минусов.
В первую очередь, рассмотрим систему Intelligent Text Miner (IBM).
Продукт фирмы IBM Intelligent Miner for Text содержит в себе набор отдельных утилит, запускаемых из командной строки независимо друг от друга. Эта система, по мнению экспертов, является одним из лучших инструментов глубинного анализа текстов.
Достоинства IBM. Рассматриваемая система содержит несколько утилит (Tools), которые эффективны для создания приложений по управлению знаниями:
1) Language Identification Tool - утилита для автоматического определения языка, на котором написан документ.
2) Categorisation Tool - утилита для автоматической классификации и отнесения текста к некоторой категории.
3) Clusterisation Tool - утилита для разбиения большого множества документов на группы по схожести стиля, формы, различных частотных характеристик выявляемых ключевых слов.
4) Feature Extraction Tool - утилита для определения в тексте новых ключевых слов (имена собственные, названия, сокращения) на основе анализа составленного заранее словаря.
5) Annotation Tool - утилита для построения аннотаций к исходным документам (т.е. выявления формального смысла текста).
IBM Intelligent Miner for Text объединяет в себе совокупность инструментов, базирующихся в основном на механизмах поиска информации (information retrieval), что является спецификой всего продукта.
Недостаток IBM. Стоимость продуктов разных уровней семейства Intelligent Miner составляет от 18 до 75 тысяч долларов [2].
Во вторую очередь, проанализируем систему Oracle Context. Технология Oracle - ConText, предоставляет мощные текстовые возможности поиска, которые являются фундаментом для приложений Web. Это позволяет пользователям строить запросы и анализировать документы, хранящиеся в стандартных форматах, в числе которых HTML, Word, Excel, PowerPoint, WordPerfect и Acrobat/PDF, из архивов документов, онлайновых систем рассылки новостей, отчетов о полученных клиентом вызовах и других онлайновых текстовых источников информации.
Достоинством технологии Oracle - ConText является то, что она позволяет разрабатывать кросс-платформенные интернет-проекты, бизнес- приложения, сайты.
Недостаток Oracle - ConText является невозможность полного восстановления резервной базы перед ее активизацией. Если при аварии основного сервера повреждается текущий журнал, то все изменения базы данных, записанные в этот журнал, теряются безвозвратно. Для многих OLTP- систем это было неприемлемо.
Рассмотрим систему LaTeX.
Система предлагает сервис полнотекстового поиска по ключевым словам с учетом метаданных публикации (автор, название, журнал, краткое описание).
Отличительная особенность системы состоит в том, что она использует семантику математической нотации и реализует поиск по формулам и выражениям.
Данные системы работают со специальным семантическим представлением математических формул, выраженным на языках Content/Presentation MathML и OpenMath. В качестве результатов возвращаются ссылки на документы, содержащие релевантные формулы.
Также стоит рассмотреть систему Text Mining.
Технология Text Mining представляет собой одну из разновидностей методов Data Mining и использует процессы извлечения знаний и высококачественной информации из текстовых массивов. Для данной операции используется технология выявления шаблонов и тенденций с помощью различных средств для статистического исследования шаблонов.
Данная система для глубинного анализа текста имеет возможность «просеивать» большие объемы неструктурированной информации и выявлять из них только самое значимое. Таким образом, человеку не нужно самому тратить время на добычу ценных знаний «вручную» [20].
Результаты Text Mining могут быть использованы для математического прогнозирования, анализа социальной обстановки и анализа рынков.
Достоинство технологии Text Mining - охватывать. методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно использовать на практике.
Недостаток технологии Text Mining - следует из основного упрощающего предположения, заключающегося в том, что смысл документа, его основное содержание определяется множеством ключевых слов - терминов и понятий, входящих в него.
Конечно же, такие подходы частично ведут к потере содержательных оттенков текстов, зато позволяют выполнять быстрый поиск и группировку документов по формальным признакам [15].
Разработанная мною система построена на «разметке» в xml документах. На основе этой технологии обработка, поиск и представление информации переходят на совершенно иной уровень. Первоначальный веб был ориентирован на работу человека, но веб следующего поколения должен в значительной мере опираться на машинную обработку информации, стандарту XML при этом отводится роль одной из ключевых технологий.
XML (Extensible Markup Language) - это язык разметки, описывающий целый класс объектов данных, называемых XML- документами. Данный язык используется в качестве средства для описания грамматики других языков и контроля за правильностью составления документов. Т.е. сам по себе XML не содержит никаких тэгов, предназначенных для разметки, он просто определяет порядок их создания.
1.2. Цель исследования
1) при сборе материала - метод сплошной выборки материала;
2) при определении начальных маркеров — метод, основанный на эмпирическом походе;
3) при построении онтологии - данные, полученные после эмпирического исследования математических статей за 2009-2011 годы.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе исследованы известные методы для построения семантической аннотации математических статей. Также была построена система, позволяющая локализировать главной результат в теле статьи, которая использует для своей работы построенную онтологию, NLP инструменты, терминологическую разметку и меры сравнения текстовых строк.
В главе 1 описана актуальность поставленной задачи, ее новизна и теоретическая значимость.
В главе 2 приведен обзор существующих решений в области семантического аннотирования. Также в этой главе исследованы методы построения онтологий, выделения главных результатов и методы их классификаций.
В главе 3 проведена необходимая подготовительная работа для реализации системы аннотирования. Был произведен сбор тестовой коллекции статей, построена собственная онтологическая модель для определения статей к определенным классам, была разработана и описана формальная модель для представления главных результатов, описана применяющаяся NLP-разметка, описан разработанный метод связывания главного результата с элементом статьи, произведена разработка семантического парсера для перевода статьи в текстовый формат.
В главе 4 описан функционал разработанной системы (программы), примеры ее использования.
В главе 5 разработанная система была протестирована. Были поставлены эксперименты для определения эффективности построенного решения.
В данной работе был предложен новый метод построения семантической аннотации статьи, а именно - выделение локализации главного результата математических статей. Был представлен метод, основанный на
нанесении терминологической разметки и использовании двух мер сравнения текстовых строк: мер Левенштейна и Жаккара. Ряд экспериментов показал, что с помощью предложенного метода можно достичь приемлемой точности при работе со статьями, содержащими аннотации, которые написаны по определенным правилам.
Развитием полученных результатов могут стать исследования в следующих направлениях:
1) направление семантического связывания математических публикаций из различных источников;
2) развитие таких систем как «Анти плагиат» - для определения не только заимствования частей текста, но и основной идеи работы.



1. Валена Ф., Димауро Д. Современная практика программирования на VisualBasic и Visual С#. -М.: Русская редакция, 2006, 604 с.
2. Берсягин А.А., Куприянов М. С., Степаненко В. В. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP, 2-ое издание. СПб: БХВ-Петербург, 2007. 384 с.
3. Берсягян А.А., Куприянов М.С., Холод И.И. Анализ данных и процессов, 3-е издание. СПб.: БХВ-Петербург, 2009. 512 с.
4. Биряльцев Е. В., Галимов М.Р., Жильцов Н. Г. Подход к семантическому поиску математических выражений в научных текстах И Открытые семантические технологии проектирования интеллектуальных систем: материалы II Международной научно- технической конференции. Минск: БГУИР, 2012. С. 245-256
5. Биряльцев Е.В., Гусенков А.М., Жибрик О.Н. Некоторые подходы к разметке естественнонаучных текстов, содержащих математические выражения И Учен. зап. Казан, ун-та. Сер. Физ.-матем. Науки, 2014. С. 133-148.
6. Биряльцев Е.В., Елизаров А.М., Жильцов Н.Г. Модель семантического поиска в коллекциях математических документов на основе онтологий //Труды 12-й Всерос. научн. конф. Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Казань: Изд-во Казан, ун-та, 2010. С. 296-300.
7. Ватсон Б. C# 4.0 на примерах - СПб.: БХВ-Петербург, 2011. 608 с.
8. Велихов П.Е. Меры семантической близости статей Википедии и их применение к обработке текстов. //Информационные технологии и вычислительные системы. №1.2009. С. 23-37.
9. Избачков Ю.С., Петров В.Н., Васильев А.А. Информационные системы: учебник для вузов. СПб.: Питер, 2011. 539 с.
Ю.Лабор В.В. С#: Создание приложений для Windows. Мн.: Харвест, 2003. 384 с.
11 .Ле Хоай, Тузовский А. Ф. Семантическое аннотирование документов в электронных библиотеках. Т.: Известия Томского политехнического университета Т. 322, № 5, 2013. С. 157-164.
12. Невзорова О.А., Биряльцев Е.В., Жильцов Н.Г. Коллекции математических текстов: аннотирование и применение в поисковых задачах. Журнал “Искусственный интеллект и принятие решений”. Номер 3.2012. С. 51-62
13. Невзорова О. А., Жильцов Н. Г., Заикин Д. А. Прототип программной платформы для публикации семантических данных из математических научных коллекций в облаке LOD. Казань: Изд-во Казанского ун-та,
2012. С. 216-232
14. Ничушкина Т. Н., Пугачев Е. К. Объектно-ориентированное программирование. М.: МГТУ им. Н. Э. Баумана, 2016.
15. Новиков Д.А., Орлов А.И. Математические методы классификации // Заводская лаборатория. Диагностика материалов. 2012. С.З.
16.Орлов А.И. О развитии математических методов теории классификации И Заводская лаборатория. Диагностика материалов. 2009. С. 51-63.
17. Пирогов В.Ю. MS SQL Server 2000: управление и программирование. СПб.: БХВ-Петербург, 2005. 608 с.
18. Сазонова Н.В.. Средства реализации категории связности в математическом тексте : диссертация. Ур. гос. ун-т им. А.М. Горького: Екатеринбург, 2008. 205 с.
19. Фаронов В. Искусство создания компонентов Delphi. СПб: Питер, 2015.
20. Фролов А.В., Фролов Г.В. Визуальное проектирование приложений С#. М.:КУДИЦ-ОБРАЗ, 2003. 512 с.
21. Gabrilovich Е., Markovitch S. Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis. 2007. C. 1606-1611.
22. Pascal Hitzler. OWL 2 Web Ontology Language Primer (Second Edition). URL: https://www.w3.org/TR/owl2-primer(дата обращения: 10.09.2016)
23.Schapire R. E. The boosting approach to machine learning: An overview //Nonlinear estimation and classification. Springer New York, 2003. C. 149- 171.
24.Solovyev V., Zhiltsov N. Logical Structure Analysis of Scientific Publications in Mathematics //Proceedings of the International Conference on Web Intelligence, Mining and Semantics Article No. 21, 2011.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ