Тип работы:
Предмет:
Язык работы:


Исследование влияния точности модели затрат на исполнение аналитических запросов к СУБД в основной памяти в гетерогенных системах

Работа №126733

Тип работы

Бакалаврская работа

Предмет

база данных

Объем работы47
Год сдачи2023
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
70
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 6
1. Обзорный раздел по предметной области 7
1.1. Подходы к исполнению запросов 7
1.2. Оптимизация планов запросов 8
1.3. Обзор литературы 8
1.3.1 Аналитическая модель затрат 8
1.3.2 Нейросетевой подход к оценке стоимости запроса 10
1.3.3 Оценка стоимости пользовательских методов в объектно-реляционных СУБД 11
1.3.4 Самонастраивающееся распределение операций СУБД на гибридных платформах 12
1.4. Выводы 13
2. Гетерогенные системы 15
2.1. Центральный процессор 15
2.2. Графический процессор 15
2.3. Различие центрального и графического процессоров 16
2.3.1 Архитектура 16
2.3.2 Задержка и пропускная способность. Программные мо­дели 17
2.3.3 Устройство памяти 18
2.4. Стандарты для программирования гетерогенных систем 20
2.4.1 OpenCL 20
2.4.2 SYCL 21
2.5. Выводы 22
3. Аналитические шаблоны и Dwarf Bench 23
3.1. Аналитические шаблоны 23
3.2. Dwarf Bench 24
3.3. Детали реализации 24
3.3.1 Scan-filter 24
3.3.2 Sort 25
3.3.3 Reduction 26
3.3.4 Hash-build, Hash-probe, Hash-join 26
3.3.5 Group-By и Group-By-Aggregate 27
3.4. Калибровка Dwarf Bench 28
3.5. Применение аналитических шаблонов и Dwarf Bench 28
4. HDK и Модель затрат 30
4.1. Обзор HDK 30
4.2. Модель затрат и интеграция Dwarf Bench 30
4.2.1 Сбор данных 31
4.2.2 Экстраполяция 32
4.2.3 Выделение аналитических шаблонов и оценка времени исполнения 33
4.2.4 Оптимизация гетерогенного плана 34
5. Результаты 36
5.1. Общее сравнение производительности 36
5.2. Увеличение точности предсказаний 39
5.3. Выводы 41
Заключение 42
Благодарность 43
Список литературы 44

С течением времени количество информации, которое производит че­ловечество, растет [1]. В связи с прогнозируемым ростом объема данных остро встает вопрос об анализе этих данных . Логично предположить, что при их росте потенциально будет возникать нужда в ускорении обработки. Для решения данной проблемы разрабатывается и исследуется множество разных подходов. Один из наиболее перспективных - использование ап­паратных ускорителей, в частности графических процессоров. Уже сейчас графические устройства показывают хорошие результаты в области уско­рения работы моделей машинного обучения, а тренды развития многообе­щающие [14].
Рис. 1: Сравнение времени исполнения запросов системы бенчмаркинга NYC Taxi на ЦПУ и графическом процессоре.
В обработке данных графические процессоры также могут показы­вать неплохие результаты (Рис. 1). Однако в то же время сравнение может продемонстрировать отсутствие единственно оптимального устройства для исполнения аналитических запросов к СУБД. Это наблюдение показывает, что интеграция графического устройства в систему не решает все пробле­мы автоматически и требует дополнительных усилий.
Причины у таких результатов - разные архитектурные особенности центрального и графического процессоров, разные подходы к разработке, разные программные модели и модели памяти.
Все эти наблюдения приводят к тому, что для успешного ускоре­ния исполнения аналитических запросов с использованием графического устройства, необходимо разработать механизм распределения работ меж­ду устройствами. Формально говоря, возникает дополнительный параметр, который необходимо оптимизировать при поиске оптимального плана за­проса.
Задача поиска оптимального плана в реляционных СУБД как пра­вило решается использованием моделей затрат. Их задача давать оцен­ку каждому физическому плану таким образом, чтобы оптимизация этой оценки приводила к оптимизации времени исполнения. Модели затрат мо­гут давать как оценку на время исполнения, так и генерировать абстракт­ное значение, позволяющее оптимизировать время исполнения.
Проблема существующих решений в том, что они не учитывают воз­никший при использовании гетерогенного исполнения параметр, а их адап­тация к новым архитектурам может быть затруднительной. Цель этой вы­пускной квалификационной работы изучить возможность использования модели затрат в целях оптимизации гетерогенных планов запросов и их влияние на качество этих планов.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Основные результаты работы заключаются в следующем:
1. Была разработана библиотека аналитических шаблонов.
2. Была разработана и реализована модель затрат в HDK, позволяющая оценивать стоимость планов в гетерогенной системе.
3. Разработанная модель затрат позволяет получать повышение произ­водительности.
4. Была исследована зависимость времени исполнения от точности пред­сказаний модели затрат. На запросах, которые модель затрат оце­нивала хуже, замечено более активное улучшение результатов при повышении точности. Также отмечено, что модель затрат позволяет получать оптимальные результаты без полной ликвидации ошибок.
Таким образом в выпускной квалификационной работе проведено ис­следование влияния точности модели затрат на исполнение аналитических запросов к СУБД в основной памяти в гетерогенных системах, что явля­ется актуальным результатом для области анализа данных.


[1] High Data Growth and Modern Applications Drive New Storage Requirements in Digitally Transformed Enterprises. URL: https: //www.delltechnologies.com/asset/en-us/products/storage/ industry-market/h19267-wp-idc-storage-reqs-digital- enterprise.pdf
[2] Viktor Leis, Andrey Gubichev, Atanas Mirchev, Peter Boncz, Alfons Kemper, and Thomas Neumann. 2015. How good are query optimizers, really? Proc. VLDB Endow. 9, 3 (November 2015), 204-215. https:// doi.org/10.14778/2850583.2850594
[3] S. Bress, et al., Self-Tuning Distribution of DB-Operations on Hybrid CPU/GPU Platforms, 2012
[4] Курапов П.А., Куликов Д.В., Мелик-Адамянх А.Ф. МОДЕЛЬ ЗАТРАТ ДЛЯ ОПТИМИЗАЦИИ АНАЛИТИЧЕСКИХ ЗАПРОСОВ В ГЕТЕ­РОГЕННЫХ СИСТЕМАХ // International Journal of Open Information Technologies. 2022. №4.
[5] Du, Weimin & Krishnamurthy, Ravi & Shan, Ming-Chien. (1992). Query Optimization in a Heterogeneous DBMS.. 277-291.
[6] Boulos, Jihad, Yann Viemont and Kinji Ono. “A Neural Networks Approach for Query Cost Evaluation.” (1997).
[7] Kurt Hornik, Maxwell Stinchcombe, Halbert White: Multilayer feedforward networks are universal approximators, Neural Networks, Volume 2, Issue 5, Pages 359-366 (1989)
[8] Jihad Boulos and Kinji Ono. 1999. Cost estimation of user-defined methods in object-relational database systems. SIGMOD Rec. 28, 3 (Sept. 1999), 22-28. https://doi.org/10.1145/333607.333610
[9] Harada, Takahiro and Lee W. Howes. “Introduction to GPU Radix Sort.” (2011).
[10] W. Wu, Y. Chi, S. Zhu, J. Tatemura, H. Hacigumus and J. F. Naughton, "Predicting query execution time: Are optimizer cost models really unusable?,"2013 IEEE 29th International Conference on Data Engineering (ICDE), Brisbane, QLD, Australia, 2013, pp. 1081-1092, doi: 10.1109/ICDE.2013.6544899.
[11] Thomas Neumann. 2011. Efficiently compiling efficient query plans for modern hardware. Proc. VLDB Endow. 4, 9 (June 2011), 539-550. https: //doi.org/10.14778/2002938.2002940
[12] Timo Kersten, Viktor Leis, Alfons Kemper, Thomas Neumann, Andrew Pavlo, and Peter Boncz. 2018. Everything you always wanted to know about compiled and vectorized queries but were afraid to ask. Proc. VLDB Endow. 11, 13 (September 2018), 2209-2222. https://doi.org/10.14778/ 3275366.3284966
[13] Viktor Leis, Peter Boncz, Alfons Kemper, and Thomas Neumann. 2014. Morsel-driven parallelism: a NUMA-aware query evaluation framework for the many-core age. In Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data (SIGMOD ’14). Association for Computing Machinery, New York, NY, USA, 743-754. https://doi.org/ 10.1145/2588555.2610507
[14] Marius Hobbhahn and Tamay Besiroglu (2022), "Trends in GPU price­performance". Published online at epochai.org. Retrieved from: https:// epochai.org/blog/trends-in-gpu-price-performance [online resource]
[15] Andy Adinets, Duane Merrill. Onesweep: A Faster Least Significant Digit Radix Sort for GPUs https://doi.org/10.48550/arXiv.2206.01784
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ