Реализация эффективного алгоритма проверки графовых функциональных зависимостей в платформе Desbordante,

Содержание

Введение 4
1. Постановка задачи 6
2. Обзор 7
2.1. Графовые зависимости 7
2.2. Наивный алгоритм 9
2.3. Базовый алгоритм 10
2.4. Обзор алгоритмов поиска подграфа 11
3. Предлагаемое решение 16
4. Результаты 18
Заключение 20
Список литературы 21

Введение

Профилирование данных — это процесс извлечения дополнительной информации о данных. В первом приближении под дополнительной информацией может пониматься такая метаинформация как автор, дата создания, размер занимаемой памяти. Однако помимо этого данные могут содержать неочевидные зависимости и закономерности, сокрытые в них. О выявлении такого рода информации из данных и будет идти речь в данной работе.
Профилирование является частой задачей у людей, работающих с массивами данных. Выявленные зависимости могут представлять ценность для довольно широкого круга людей. Некоторые примеры приведены ниже:
• Специалисты по машинному обучению.
Перед обучением алгоритма, решающего некую задачу, данные для обучения необходимо подготовить. Одно из важных действий — определение параметров, которые являются производными от других параметров. Такие параметры стоит исключать из обучающей выборки, ведь они не несут новой полезной информации об объекте. Их наличие только увеличит количество потребляемой памяти, время обучения, а также повысит шансы переобучения.
• Люди, работающие с финансовыми данными.
Проверка или получение гипотезы из финансовых данных могут быть очень полезны с точки зрения бизнеса. Например, найденная зависимость “если покупатель приобретает наушники, то он приобретает и микрофон” может указать на то, что целесообразно размещать указанные товары физически ближе друг к другу в магазинах техники, или же продавать наушники со встроенным микрофоном.
• Учёные, работающие с экспериментальными данными.
Автоматическое нахождение зависимости в данных может натолкнуть на формулирование гипотезы, открытие нового закона или по крайней мере указать направление для дальнейшего исследования.
Функциональные зависимости хорошо изучены для таблиц. Их описание можно найти в любом учебнике по базам данных...

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

Результаты работы:
• Выявлена наиболее ресурсозатратная часть наивного алгоритма валидации.
• Выполнен обзор существующих подходов к оптимизации выявленной части и выбран наиболее релевантный.
• Спроектирован и реализован быстрый алгоритм валидации на основе выбранного подхода.
• Произведено сравнение базового и быстрого алгоритмов валидации.
Код этой работы доступен на GitHub.
По теме данной работы была написана статья “FastGFDs: Efficient Validation of Graph Functional Dependencies with Desbordante”, которая была доложена на конференции FRUCT’23.

Литература

[1] Aggarwal Gagan, Motwani Rajeev, and Zhu An. The Load Rebalancing Problem. — 2003. — Access mode: https://dl.acm.org/doi/abs/10. 1145/777412.777460 (online; accessed: 2022-11-24).
[2] Bi Fei, Chang Lijun, Lin Xuemin, Qin Lu, and Zhang Wen- jie. Efficient Subgraph Matching by Postponing Cartesian Products. — 2016. — Access mode: https://dl.acm.org/doi/abs/10. 1145/2882903.2915236 (online; accessed: 2023-02-23).
[3] Fan Wenfei, Liu Xueli, and Cao Yingjie. Parallel Reasoning of Graph Functional Dependencies. — 2018. — Access mode: https: //ieeexplore.ieee.org/abstract/document/8509281 (online; accessed: 2022-10-17).
[4] Fan Wenfei, Wu Yinghui, and Xu Jingbo. Functional Dependencies for Graphs. — 2016. — Access mode: https://dl.acm.org/doi/abs/ 10.1145/2882903.2915232 (online; accessed: 2022-09-14).
[5] Ullmann J. R. An Algorithm for Subgraph Isomorphism. — 1976. —Access mode: https://dl.acm.org/doi/abs/10.1145/321921.321925 (online; accessed: 2022-11-11).
[6] Yang Jiong and Jin Wei. BR-Index: An Indexing Structure for Subgraph Matching in Very Large Dynamic Graphs. — 2011. — Access mode: https://link.springer.com/chapter/10. 1007/978-3-642-22351-8_20 (online; accessed: 2023-02-14).
[7] Zhao Peixiang and Han Jiawei. On Graph Query Optimization in Large Networks.—2010. — Access mode: https://dl.acm.org/doi/abs/10. 14778/1920841.1920887 (online; accessed: 2023-02-17).
[8] Lee Jinsoo, Han Wook-Shin, Kasperovics Romans, and Lee Jeong-Hoon. An in-depth comparison of subgraph isomorphism algorithms in graph databases. — 2013. — Access mode: https://dl.acm.org/doi/abs/ 10.14778/2535568.2448946