Semantic Web представляет собой популярную область исследований, не последнее место в которой занимают задачи работы с данными. Консорциумом W3C1 был разработан RDF [9] — фреймворк, который предлагает формат представления данных, основанный на тройках. Каждая тройка имеет вид (S, P, O), где S обозначает субъект, O — объект, а P — отношение (предикат) между ними. Такой способ представления позволяет также воспринимать набор данных как граф, где вершины — объекты и субъекты, а дуги — отношения. Пример тройки представлен в Таблице 1, это же утверждение в формате RDF/XML представлено в Листинге 1.
Запросы к данным RDF осуществляются на языке SPARQL [14], который позволять определять интересующие пользователя данные с помощью шаблонов. Тройка будет включена в ответ в том случае, если она соответствует предоставленному шаблону. Структура запросов такова, что каждый из них можно представить в виде шаблонного графа, и выполнение запроса будет заключаться в сопоставлении графа RDF шаблону запроса. Пример простого запроса приведен в Листинге 2, пример простого шаблона — на Рисунке 2.
Листинг 1: Пример документа на RDF/XML
Johnny Lee Outlaw Peter Goodguy
Конец листинга 1.
Таблица 1: Простое утверждение
Субъект | Предикат | Объект
a | Name | Johnny Lee Outlaw
a | Mail Box | jlow@example.com
b | Name | Peter Goodguy
b | Mail Box | peter@example.org
Конец таблицы 1.
Листинг 2: Простой SPARQL запрос
PREFIX foaf:
SELECT ?name ?mbox
WHERE
{ ?x foaf:name ?name .
?x foaf:mbox ?mbox }
Конец листинга 2.
Рис. 1: Пример графового представления RDF
В ходе выполнения данной выпускной квалификационной работы было достигнуто следующее:
• произведен обзор предметной области и существующих решений проблемы;
• выбрана реализация выделения реляционной схемы в MonetDB/RDF;
• были реализованы функции сбора статистики;
• выбранная реализация была ими инструментирована;
• проведены испытания;
• проанализирована полученная статистика и установлено распределение запросов по отношению к фрагментам;
По итогам анализа, применение горизонтального фрагментирования для эталонного набора тестов LUBM в системе MonetDB/RDF с выделением реляционной схемы имеет потенциал для улучшения производительности системы, а также может обеспечить более равномерное распределение нагрузки на данные.
[1] Bellatreche Ladjel, Woameno Komla Yamavo. Dimension Table Driven Approach to Referential Partition Relational Data Warehouses // Proceedings of the ACM Twelfth International Workshop on Data Warehousing and OLAP. - DOLAP ’09. - New York, NY, USA : ACM, 2009.— P. 9-16.— URL: http://doi.acm.org/10.1145/ 1651291.1651294.
[2] Bizer Christian, Schultz Andreas.— Hershey, PA, USA : IGI Global, 2011.— P. 81-103.— ISBN: 9781609605933.— URL: http://services.igi-global.com/resolvedoi/resolve.aspx? doi=10.4018/978-1-60960-593-3.ch004.
[3] DBpedia SPARQL Benchmark - Performance Assessment with Real Queries on Real Data / Mohamed Morsey, Jens Lehmann, Soren Auer, Axel-Cyrille Ngonga Ngomo // The Semantic Web - ISWC 2011: 10th International Semantic Web Conference, Bonn, Germany, October 2327, 2011, Proceedings, Part I / Ed. by Lora Aroyo, Chris Welty, Harith Alani et al. — Berlin, Heidelberg : Springer Berlin Heidelberg, 2011. — P. 454-469. — ISBN: 978-3-642-25073-6.— URL: http://dx. doi.org/10.1007/978-3-642-25073-6_29.
[4] Deriving an Emergent Relational Schema from RDF Data / Minh- Duc Pham, Linnea Passing, Orri Erling, Peter Boncz // Proceedings of the 24th International Conference on World Wide Web. — WWW ’15. — Republic and Canton of Geneva, Switzerland : International World Wide Web Conferences Steering Committee, 2015.— P. 864-874. — URL: https://doi.org/10.1145/2736277.2741121.
[5] Erling Orri. Virtuoso, a Hybrid RDBMS/Graph Column Store // IEEE Data Eng. Bull. — 2012. — Vol. 35, no. 1. — P. 3-8.
[6] Guo Yuanbo, Pan Zhengxiang, Heflin Jeff. LUBM: A benchmark for {OWL} knowledge base systems // Web Semantics: Science, Services and Agents on the World Wide Web. - 2005. - Vol. 3, no. 2-3. - P. 158 - 182. — Selected Papers from the International Semantic Web Conference, 2004 ISWC, 20043rd. International Semantic Web Conference, 2004. URL: http://www.sciencedirect.com/science/ article/pii/S1570826805000132.
[7] High Performance Parallel Database Processing and Grid Databases / David Taniar, Clement H. C. Leung, Wenny Rahayu, Sushant Goel.— Wiley Publishing, 2008. - ISBN: 0470107626, 9780470107621.
[8] Huang Jiewen, Abadi Daniel J., Ren Kun. Scalable SPARQL Querying of Large RDF Graphs // PVLDB. - 2011.-- Vol. 4, no. 11. — P. 1123-1134. — URL: http://www.vldb.org/pvldb/vol4/ p1123-huang.pdf.
[9] Klyne Graham, Carroll Jeremy J. Resource Description Framework (RDF): Concepts and Abstract Syntax // W3C Recommendation, W3C. -- 2004. -- URL: http://www.w3.org/ TR/2004/REC-rdf-concepts-20040210/ (online; accessed: 2017-0502).
[10] The LDBC Social Network Benchmark: Interactive Workload / Orri Erling, Alex Averbuch, Josep Larriba-Pey et al. // Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. - SIGMOD ’15. - New York, NY, USA : ACM, 2015. - P. 619630. — URL: http://doi.acm.org/10.1145/2723372.2742786.
[11] Mulay Kunal, Kumar P. Sreenivasa. SPOVC: A Scalable RDF Store Using Horizontal Partitioning and Column Oriented DBMS // Proceedings of the 4th International Workshop on Semantic Web Information Management. — SWIM ’12. — New York, NY, USA : ACM, 2012. — P. 8:1-8:8. — URL: http://doi.acm.org/10.1145/2237867. 2237875.
[12] Neumann T., Moerkotte G. Characteristic sets: Accurate cardinality estimation for RDF queries with multiple joins // 2011 IEEE 27th International Conference on Data Engineering.— 2011. — April.— P. 984-994.
[13] Ozsu M. Tamer, Valduriez Patrick. Principles of Distributed Database Systems (2Nd Ed.).-- Upper Saddle River, NJ, USA : Prentice-Hall, Inc., 1999.-ISBN: 0-13-659707-6.
[14] Prud’hommeaux Eric, Seaborne Andy. SPARQL Query Language for RDF.— W3C Recommendation.— 2008.— URL: http://www.w3. org/TR/rdf-sparql-query/ (online; accessed: 2017-05-02).
[15] Query Workload-based RDF Graph Fragmentation and Allocation / Peng Peng, Lei Zou, Lei Chen, Dongyan Zhao // Proceedings of the 19th International Conference on Extending Database Technology, EDBT 2016, Bordeaux, France, March 15-16, 2016, Bordeaux, France, March 15-16, 2016.— 2016.— P. 377-388.— URL: http://dx.doi. org/10.5441/002/edbt.2016.35.
...