Введение 4
Постановка задачи 6
1. Обзор 7
1.1 Обзор литературы 7
1.2 Описание используемых методов и технологий 8
2. Архитектура инструментария 11
3. Модуль выявления типов объектов 14
4. Конвертация в реляционную базу данных 18
5. Оценка качества кластеризации 21
6. Апробация инструментария на DBLP 23
7. Заключение 27
Список литературы 28
Данные, которые содержатся в Интернет, обычно ориентированы на восприятие людьми. И это затрудняет их машинную обработку. В связи с этим в настоящее время ведется работа над созданием семантической паутины (Semantic web) - глобальной семантической сети, формируемой на основе Интернета и содержащей информацию в виде, пригодном для машинной обработки.
Семантическая паутина - частный случай слабоструктурированных данных (linked data). Данные в этой модели хранятся в виде ориентированного графа с именованными дугами, вершины которого - хранимые объекты, а дуги - связи между объектами. Есть множество способов хранения слабоструктурированных данных: в виде графовой базы данных, XML-файла, файла RDF и другие. Также существуют специальные языки запросов для работы со слабоструктурированными данными: SPARQL для графовых баз данных, XPath для XML.
Недостаток всех способов хранения и языков запросов для слабоструктурированных данных - низкая эффективность в случае обработки данных большого размера. Отсюда необходимость в средствах повышения эффективности, при проектировании которых полезно помнить следующее обстоятельство: если база данных содержит миллионы узлов и связей, то каждый узел не будет резко отличаться от всех остальных. Напротив, узлы в этом случае можно разбить на кластеры таким образом, что узлы в каждом кластере будут иметь похожие по некоторой метрике наборы имен исходящих дуг. Иначе говоря, в больших слабоструктурированных данных неизбежно можно выделить структуру. Когда в данных присутствует структура, уже можно говорить об их представлении в реляционной модели. Исполнение запросов в реляционных базах данных оптимизировано лучше, чем в любых других, поэтому есть основания полагать, что перевод данных из слабоструктурированной модели в реляционную модель повысит эффективность их обработки. Так, если удалось выделить кластеры, то данные об объектах каждого кластера можно поместить в одну таблицу реляционной базы данных.
В этой работе будет сделан шаг к реализации описанной выше идеи.
В рамках работы были достигнуты следующие результаты.
1. Разработана архитектура инструментария.
2. Реализован на языке Java с использованием среды R модуль выявления типов объектов в графовой базе данных Neo4j и в формате XML.
3. Реализован на языке Java модуль конвертации из базы данных Neo4j и из XML в реляционную базу данных.
4. Реализован на языке Java модуль оценки качества кластеризации.
5. Проведена апробация созданного инструментария на известной базе данных научных публикаций DBLP.
[1] Seung-Seok Choi, Sung-Hyuk Cha, Charles C. Tappert, (2010), “A Survey of Binary Similarity and Distance Measures”, Systemics, Cybernetics and Informatics, Vol.8, No.1
[2] А.А.Барсегян, М.С.Куприянов, «OLAP и Data Mining», БХВ-Петербург, 2004, стр. 149 - 207
[3] Е.В.Сивоголовко, «Оценка обоснованности кластеризации для данных высокой размерности», дипломная работа, СПбГУ, МатематикоМеханический факультет, кафедра Системного Программирования, Санкт- Петербург, 2008
[4] I. Nekrestyanov, B. Novikov, and E. Pavlova, “An analysis of alternative methods for storing semistructured data in relations.” In Proc. of the ADBIS’2000, volume 1884 of Lecture Notes in Computer Science, pages 354-361, Prague, Chech, September 2000
[5] Lyle H. Ungar and Dean P. Foster, “Clusterig Methods for Collaborative Filtering”, AAAI Technical Report WS-98-08
[6] Laurel Orr and Jennifer Ortiz, “Clustering with the DBLP Bibliography to Measure External Impact of a Computer Science Research Area”, доступен по ссылке http: //homes.cs.washington.edu/~jortiz 16/images/MLProj ectPaper.pdf
[7] Seyed-Mehdi-Reza Beheshti, Boualem Benetellah and Hamid Reza Motahari- Nezhad, “Scalable graph-based OLAP analytics over process execution data”, Distributed and Parallel Databases, September 2016, Volume 34, Issue 3, pp. 379423
[8] Jeevan Joishi, Ashlish Sureka, “Graph or Relational Databases: A Speed Comparison for Process Mining Algorithm”, CoRRabs/1701.00072 (2017)
[9] Zongmin Ma, Miriam A.M.Capretz and Li Yan, “Storing massive Resource Description Framework (RDF) data: a survey”, Knowledge Eng. Review 31 (4), pp.391-413 (2016)
[10] Jung-Ho Um, Seungwoo Lee, Taehong Kim, Chang-Hoo Jeong, Sa-Kwang Song and Hanmin Jung, “Distributed RDF Store for efficient searching billions of triples based on Hadoop”, The Journal of Supercomputing 72(5), pp. 1825-1840 (2016)