Semantic Web представляет собой популярную область исследований, не последнее место в которой занимают задачи работы с данными. Консорциумом W3C1 был разработан RDF [9] — фреймворк, который предлагает формат представления данных, основанный на тройках. Каждая тройка имеет вид (S, P, O), где S обозначает субъект, O — объект, а P — отношение (предикат) между ними. Такой способ представления позволяет также воспринимать набор данных как граф, где вершины — объекты и субъекты, а дуги — отношения. Пример тройки представлен в Таблице 1, это же утверждение в формате RDF/XML представлено в Листинге 1.
Запросы к данным RDF осуществляются на языке SPARQL [14], который позволять определять интересующие пользователя данные с помощью шаблонов. Тройка будет включена в ответ в том случае, если она соответствует предоставленному шаблону. Структура запросов такова, что каждый из них можно представить в виде шаблонного графа, и выполнение запроса будет заключаться в сопоставлении графа RDF шаблону запроса. Пример простого запроса приведен в Листинге 2, пример простого шаблона — на Рисунке 2.
Листинг 1: Пример документа на RDF/XML
Johnny Lee Outlaw Peter Goodguy
Конец листинга 1.
Таблица 1: Простое утверждение
Субъект | Предикат | Объект
a | Name | Johnny Lee Outlaw
a | Mail Box | jlow@example.com
b | Name | Peter Goodguy
b | Mail Box | peter@example.org
Конец таблицы 1.
Листинг 2: Простой SPARQL запрос
PREFIX foaf:
SELECT ?name ?mbox
WHERE
{ ?x foaf:name ?name .
?x foaf:mbox ?mbox }
Конец листинга 2.
Рис. 1: Пример графового представления RDF
В ходе выполнения данной выпускной квалификационной работы было достигнуто следующее:
• произведен обзор предметной области и существующих решений проблемы;
• выбрана реализация выделения реляционной схемы в MonetDB/RDF;
• были реализованы функции сбора статистики;
• выбранная реализация была ими инструментирована;
• проведены испытания;
• проанализирована полученная статистика и установлено распределение запросов по отношению к фрагментам;
По итогам анализа, применение горизонтального фрагментирования для эталонного набора тестов LUBM в системе MonetDB/RDF с выделением реляционной схемы имеет потенциал для улучшения производительности системы, а также может обеспечить более равномерное распределение нагрузки на данные.