1. Введение 4
1.2 Цели и задачи 11
2. Основная часть 11
2.1 Преобразование LaTeX в XML 12
2.2 Терминологическая разметка XML-текстов 14
2.2 Resource Description Framework 16
2.4 Алгоритм связывания математических выражений 18
2.5 Очистка файлов от синтаксического мусора 18
2.6 Разработка методов, улучшающих репрезентативность
полученного набора именных групп 19
2.6.1 Разделение на F1 и F2 19
2.6.2 Комбинации именных групп 21
2.6.3 Выделение частотных моделей контекстов с
фиксированной семантикой 23
2.7 Проверка эффективности методов на наборе
подготовленных файлов 24
2.7.1 Проверка эффективности разделения на классы F1 и F2 .. 24
2.7.2 Проверка комбинаций именных групп 25
2.7.3 Проверка эффективности метода очистки именных групп27
2.8 Реализация эффективных методов на языке C# 27
2.9 Реализация веб-приложения на ASP.Net 29
2.9.1 Страница поиска
2.9.2 Страница файлов 32
2.9.3 Страница результатов 33
2.9.4 Страница «О проекте» 34
3. Заключение 35
Литература 36
Приложение
Linked Data – это концепция представления структурированных данных
в таком виде, чтобы они подходили для связывания и были удобны для
доступа через семантические запросы. Linked Data работает по стандартам
Web-технологий: URI, RDF, XML, и представляет данные в виде, удобном
для понимания компьютером.
URI - унифицированный (единообразный) идентификатор ресурса. Под
данным определением понимается символьная строка, с помощью которой
пользователи и компьютеры могут однозначно идентифицировать какойлибо конкретный ресурс для дальнейшей работы. URI можно присвоить
абсолютно любому объекту - документу, изображению, файлу, службе,
ящику электронной почты и т. д.
RDF (Resource Description Framework) - это принятый W3C формат
данных, используемый для представления отдельных сущностей,
представляющих собой самостоятельную единицу знаний. Сущности связаны
друг с другом с помощью предикатов по шаблону «субъект – предикат -
объект». Данные для открытых хранилищ в основном извлекаются из
реляционных баз данных или в частичном виде из веб-страниц и текстовых
документов. Ссылки между сущностями образуют глобальный граф данных,
используемый поисковыми роботами и браузерами для перемещения по
источникам данных.
XML (eXtensible Markup Language) – расширяемый язык разметки.
Данный стандарт используется для создания документов программами, и в то
же время удобный для чтения и создания человеком. Основной сферой
применения является интернет. Расширяемым язык называется, потому что
разработчик документа на XML не ограничен количеством тегов, которые
может использовать в своем документе, и волен создавать требуемое
количество новых тегов для своих нужд, при условии соблюдения
синтаксических правил языка.
Помимо описанных выше средств, Linked Data использует
специальную Linked Data Platform, которая позволяет RESTful HTTP
сервисам получать доступ, создавать, и удалять RDF-ресурсы.
Проект Linked Open Data является одной из самых крупных реализаций
принципов Linked Data. По состоянию на 2011 год в данном облаке
находился 31 миллиард RDF-триплетов, с 504 миллиардами RDF-связями.
Схематическое изображение основных наборов данных в LOD можно
увидеть на Рисунке.
В ходе этой работы был произведен поиск следующих методов для
улучшения алгоритма связывания математических формул в математических
статьях с их определениями, основанного на выделении именных групп и
связывания близлежащих именных групп:
1. Разделение именных групп по принципу значимости на классы
F1 (значимые формулы) и F2 (не значимые формулы)
2. Выделение конструкций NP1(O1) + NP2(O2), где O1 и O2 – классы
онтологии OntoMathPro, для дальнейшего подтверждения связи
O1 и O2 в онтологии
3. Коррекция частотных конструкций, в именных группах которых
главными элементами становятся ошибочно включенные в
именную группу слова.
Анализ результатов доказал, что разработанные методы эффективны и
приводят в порядок достаточно разнообразные и не всегда необходимые
именные группы. Кроме того, в качестве побочного задания выполнена
работа по улучшению онтологии OntoMathPro с помощью выделения
частотных сочетаний математических понятий. Встраивание полученных
методов в веб-приложение при условии публикации на общедоступном
сервере позволит загрузить xml-файлы в базу данных системы для
дальнейшей публикации в облаке LOD.
Дальнейшее развитие данного проекта заключается в поисках связей
между формулой класса F1 и переменными, входящими в эту формулу, для
улучшения структуры документа в представлении RDF-графа.