Тема: Выявление типов объектов в графовой базе данных на основе кластеризации
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
1. Обзор 7
1.1 Обзор литературы 7
1.2 Описание используемых методов и технологий 8
2. Архитектура инструментария 11
3. Модуль выявления типов объектов 14
4. Конвертация в реляционную базу данных 18
5. Оценка качества кластеризации 21
6. Апробация инструментария на DBLP 23
7. Заключение 27
Список литературы 28
📖 Введение
Семантическая паутина - частный случай слабоструктурированных данных (linked data). Данные в этой модели хранятся в виде ориентированного графа с именованными дугами, вершины которого - хранимые объекты, а дуги - связи между объектами. Есть множество способов хранения слабоструктурированных данных: в виде графовой базы данных, XML-файла, файла RDF и другие. Также существуют специальные языки запросов для работы со слабоструктурированными данными: SPARQL для графовых баз данных, XPath для XML.
Недостаток всех способов хранения и языков запросов для слабоструктурированных данных - низкая эффективность в случае обработки данных большого размера. Отсюда необходимость в средствах повышения эффективности, при проектировании которых полезно помнить следующее обстоятельство: если база данных содержит миллионы узлов и связей, то каждый узел не будет резко отличаться от всех остальных. Напротив, узлы в этом случае можно разбить на кластеры таким образом, что узлы в каждом кластере будут иметь похожие по некоторой метрике наборы имен исходящих дуг. Иначе говоря, в больших слабоструктурированных данных неизбежно можно выделить структуру. Когда в данных присутствует структура, уже можно говорить об их представлении в реляционной модели. Исполнение запросов в реляционных базах данных оптимизировано лучше, чем в любых других, поэтому есть основания полагать, что перевод данных из слабоструктурированной модели в реляционную модель повысит эффективность их обработки. Так, если удалось выделить кластеры, то данные об объектах каждого кластера можно поместить в одну таблицу реляционной базы данных.
В этой работе будет сделан шаг к реализации описанной выше идеи.
✅ Заключение
1. Разработана архитектура инструментария.
2. Реализован на языке Java с использованием среды R модуль выявления типов объектов в графовой базе данных Neo4j и в формате XML.
3. Реализован на языке Java модуль конвертации из базы данных Neo4j и из XML в реляционную базу данных.
4. Реализован на языке Java модуль оценки качества кластеризации.
5. Проведена апробация созданного инструментария на известной базе данных научных публикаций DBLP.





