📄Работа №125781

Тема: Выявление типов объектов в графовой базе данных на основе кластеризации

Характеристики работы

Тип работы Бакалаврская работа
Программирование
Предмет Программирование
📄
Объем: 29 листов
📅
Год: 2017
👁️
Просмотров: 90
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 4
Постановка задачи 6
1. Обзор 7
1.1 Обзор литературы 7
1.2 Описание используемых методов и технологий 8
2. Архитектура инструментария 11
3. Модуль выявления типов объектов 14
4. Конвертация в реляционную базу данных 18
5. Оценка качества кластеризации 21
6. Апробация инструментария на DBLP 23
7. Заключение 27
Список литературы 28

📖 Введение

Данные, которые содержатся в Интернет, обычно ориентированы на восприятие людьми. И это затрудняет их машинную обработку. В связи с этим в настоящее время ведется работа над созданием семантической паутины (Semantic web) - глобальной семантической сети, формируемой на основе Интернета и содержащей информацию в виде, пригодном для машинной обработки.
Семантическая паутина - частный случай слабоструктурированных данных (linked data). Данные в этой модели хранятся в виде ориентированного графа с именованными дугами, вершины которого - хранимые объекты, а дуги - связи между объектами. Есть множество способов хранения слабоструктурированных данных: в виде графовой базы данных, XML-файла, файла RDF и другие. Также существуют специальные языки запросов для работы со слабоструктурированными данными: SPARQL для графовых баз данных, XPath для XML.
Недостаток всех способов хранения и языков запросов для слабоструктурированных данных - низкая эффективность в случае обработки данных большого размера. Отсюда необходимость в средствах повышения эффективности, при проектировании которых полезно помнить следующее обстоятельство: если база данных содержит миллионы узлов и связей, то каждый узел не будет резко отличаться от всех остальных. Напротив, узлы в этом случае можно разбить на кластеры таким образом, что узлы в каждом кластере будут иметь похожие по некоторой метрике наборы имен исходящих дуг. Иначе говоря, в больших слабоструктурированных данных неизбежно можно выделить структуру. Когда в данных присутствует структура, уже можно говорить об их представлении в реляционной модели. Исполнение запросов в реляционных базах данных оптимизировано лучше, чем в любых других, поэтому есть основания полагать, что перевод данных из слабоструктурированной модели в реляционную модель повысит эффективность их обработки. Так, если удалось выделить кластеры, то данные об объектах каждого кластера можно поместить в одну таблицу реляционной базы данных.
В этой работе будет сделан шаг к реализации описанной выше идеи.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В рамках работы были достигнуты следующие результаты.
1. Разработана архитектура инструментария.
2. Реализован на языке Java с использованием среды R модуль выявления типов объектов в графовой базе данных Neo4j и в формате XML.
3. Реализован на языке Java модуль конвертации из базы данных Neo4j и из XML в реляционную базу данных.
4. Реализован на языке Java модуль оценки качества кластеризации.
5. Проведена апробация созданного инструментария на известной базе данных научных публикаций DBLP.
Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

[1] Seung-Seok Choi, Sung-Hyuk Cha, Charles C. Tappert, (2010), “A Survey of Binary Similarity and Distance Measures”, Systemics, Cybernetics and Informatics, Vol.8, No.1
[2] А.А.Барсегян, М.С.Куприянов, «OLAP и Data Mining», БХВ-Петербург, 2004, стр. 149 - 207
[3] Е.В.Сивоголовко, «Оценка обоснованности кластеризации для данных высокой размерности», дипломная работа, СПбГУ, Математико­Механический факультет, кафедра Системного Программирования, Санкт- Петербург, 2008
[4] I. Nekrestyanov, B. Novikov, and E. Pavlova, “An analysis of alternative methods for storing semistructured data in relations.” In Proc. of the ADBIS’2000, volume 1884 of Lecture Notes in Computer Science, pages 354-361, Prague, Chech, September 2000
[5] Lyle H. Ungar and Dean P. Foster, “Clusterig Methods for Collaborative Filtering”, AAAI Technical Report WS-98-08
[6] Laurel Orr and Jennifer Ortiz, “Clustering with the DBLP Bibliography to Measure External Impact of a Computer Science Research Area”, доступен по ссылке http: //homes.cs.washington.edu/~jortiz 16/images/MLProj ectPaper.pdf
[7] Seyed-Mehdi-Reza Beheshti, Boualem Benetellah and Hamid Reza Motahari- Nezhad, “Scalable graph-based OLAP analytics over process execution data”, Distributed and Parallel Databases, September 2016, Volume 34, Issue 3, pp. 379­423
[8] Jeevan Joishi, Ashlish Sureka, “Graph or Relational Databases: A Speed Comparison for Process Mining Algorithm”, CoRRabs/1701.00072 (2017)
[9] Zongmin Ma, Miriam A.M.Capretz and Li Yan, “Storing massive Resource Description Framework (RDF) data: a survey”, Knowledge Eng. Review 31 (4), pp.391-413 (2016)
[10] Jung-Ho Um, Seungwoo Lee, Taehong Kim, Chang-Hoo Jeong, Sa-Kwang Song and Hanmin Jung, “Distributed RDF Store for efficient searching billions of triples based on Hadoop”, The Journal of Supercomputing 72(5), pp. 1825-1840 (2016)

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ