Тема: Исследование влияния точности модели затрат на исполнение аналитических запросов к СУБД в основной памяти в гетерогенных системах
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
1. Обзорный раздел по предметной области 7
1.1. Подходы к исполнению запросов 7
1.2. Оптимизация планов запросов 8
1.3. Обзор литературы 8
1.3.1 Аналитическая модель затрат 8
1.3.2 Нейросетевой подход к оценке стоимости запроса . . 10
1.3.3 Оценка стоимости пользовательских методов в объектно
реляционных СУБД 11
1.3.4 Самонастраивающееся распределение операций СУБД
на гибридных платформах 12
1.4. Выводы 13
2. Гетерогенные системы 15
2.1. Центральный процессор 15
2.2. Графический процессор 15
2.3. Различие центрального и графического процессоров ... 16
2.3.1 Архитектура 16
2.3.2 Задержка и пропускная способность. Программные мо
дели 17
2.3.3 Устройство памяти 18
2.4. Стандарты для программирования гетерогенных систем . 20
2.4.1 OpenCL 20
2.4.2 SYCL 21
2.5. Выводы 22
3. Аналитические шаблоны и Dwarf Bench 23
3.1. Аналитические шаблоны 23
3.2. Dwarf Bench 24
3.3. Детали реализации 24
3.3.1 Scan-filter 24
3.3.2 Sort 25
3.3.3 Reduction 26
3.3.4 Hash-build, Hash-probe, Hash-join 26
3.3.5 Group-By и Group-By-Aggregate 27
3.4. Калибровка Dwarf Bench 28
3.5. Применение аналитических шаблонов и Dwarf Bench ... 28
4. HDK и Модель затрат 30
4.1. Обзор HDK 30
4.2. Модель затрат и интеграция Dwarf Bench 30
4.2.1 Сбор данных 31
4.2.2 Экстраполяция 32
4.2.3 Выделение аналитических шаблонов и оценка времени
исполнения 33
4.2.4 Оптимизация гетерогенного плана 34
5. Результаты 36
5.1. Общее сравнение производительности 36
5.2. Увеличение точности предсказаний 39
5.3. Выводы 41
Заключение 42
Благодарность 43
Список литературы 44
📖 Введение
В обработке данных графические процессоры также могут показывать неплохие результаты (Рис. 1). Однако в то же время сравнение может продемонстрировать отсутствие единственно оптимального устройства для исполнения аналитических запросов к СУБД. Это наблюдение показывает, что интеграция графического устройства в систему не решает все проблемы автоматически и требует дополнительных усилий.
Причины у таких результатов - разные архитектурные особенности центрального и графического процессоров, разные подходы к разработке, разные программные модели и модели памяти.
Все эти наблюдения приводят к тому, что для успешного ускорения исполнения аналитических запросов с использованием графического устройства, необходимо разработать механизм распределения работ между устройствами. Формально говоря, возникает дополнительный параметр, который необходимо оптимизировать при поиске оптимального плана запроса.
Задача поиска оптимального плана в реляционных СУБД как правило решается использованием моделей затрат. Их задача давать оценку каждому физическому плану таким образом, чтобы оптимизация этой оценки приводила к оптимизации времени исполнения. Модели затрат могут давать как оценку на время исполнения, так и генерировать абстрактное значение, позволяющее оптимизировать время исполнения.
Проблема существующих решений в том, что они не учитывают возникший при использовании гетерогенного исполнения параметр, а их адаптация к новым архитектурам может быть затруднительной. Цель этой выпускной квалификационной работы изучить возможность использования модели затрат в целях оптимизации гетерогенных планов запросов и их влияние на качество этих планов.
✅ Заключение
1. Была разработана библиотека аналитических шаблонов.
2. Была разработана и реализована модель затрат в HDK, позволяющая оценивать стоимость планов в гетерогенной системе.
3. Разработанная модель затрат позволяет получать повышение производительности.
4. Была исследована зависимость времени исполнения от точности предсказаний модели затрат. На запросах, которые модель затрат оценивала хуже, замечено более активное улучшение результатов при повышении точности. Также отмечено, что модель затрат позволяет получать оптимальные результаты без полной ликвидации ошибок.
Таким образом в выпускной квалификационной работе проведено исследование влияния точности модели затрат на исполнение аналитических запросов к СУБД в основной памяти в гетерогенных системах, что является актуальным результатом для области анализа данных.



