Оглавление 1
Введение 4
1 Техническое задание 5
2 Научно-исследовательская часть 12
2.1 Постановка задачи 12
2.1.1 Метод итераций в подпространстве 12
2.1.2 Математическое представление задачи 13
2.2 Методы решения 14
2.2.1 Решение на основе матриц жесткости элементов 14
2.2.2 Решение на основе глобальной матрицы жесткости 15
2.3 Выбор технологии 17
2.3.1 Вычисления общего назначения на графических устройствах
17
2.3.2 Технология Nvidia CUDA 17
2.3.3 Альтернативы технологии CUDA 17
2.4 Анализ результатов 18
2.4.1 Анализ работы программ 18
2.4.1.1 Анализ вычисления матрицы в подпространстве с
использованием матриц жесткости элементов 18
2.4.1.2 Анализ вычисления матрицы в подпространстве с
использованием глобальной матрицы жесткости 20
2.4.2 Сравнение скорости выполнения на GPU и CPU 20
3 Проектно-конструкторская часть 21
3.1 Структуры хранения данных 21
3.1.1 Расширенная матрица 21
3.2 Представление данных в программе 23
3.2.1 Блочная матрица 23
3.3 Программная реализация 24
3.3.1 Вычисление матрицы в подпространстве с использованием
матриц жесткости элементов 24
3.3.1.1 Выполнение на GP U 24
3.3.2 Вычисление матрицы в подпространстве с использованием
глобальной матрицы жесткости 26
3.3.2.1 Выполнение на GPU 26
3.3.2.2 Выполнение на CPU 27
4 Технологическая часть 27
4.1 Архитектура CUDA 27
4.2 Аппаратная модель CUDA 29
4.2.1 Планировщик блоков потоков 29
4.2.2 Мультипроцессор 30
4.3 Программная модель CUDA 32
4.3.1 Расширение языка 32
4.3.1.1 Спецификаторы функций 32
4.3.1.1 Спецификаторы переменных 33
4.3.1.2 Оператор запуска ядра 34
4.3.1.3 Встроенные переменные 35
4.3.1.4 Дополнительные типы данных 35
4.3.2 Представление потоков CUDAв программе 35
4.3.3 Модель памяти 37
4.3.3.1 Локальная 38
4.3.3.2 Регистровая 38
4.3.3.3 Глобальная 38
4.3.3.4 Разделяемая 39
4.3.3.5 Константная 39
4.3.3.6 Текстурная 39
5 Заключение 41
Библиографический список 42
В настоящей работе за основу взята реализация метода итераций в подпространстве для определения собственных частот и форм колебаний конечно-элементных моделей с большим числом степеней свободы, реализованный на CPUв программном комплексе UZOR1.0, имеющего параллельную сетевую архитектуру клиент-сервер. Этап вычисления проекции матрицы жесткости в рассматриваемой реализации выполняется в серверной части программы и занимает около 40-60% от всего времени выполнения одной итерации алгоритма, в зависимости от характеристик конкретной конечно-элементной модели при осуществлении расчета на одном вычислительном узле. В связи с этим, повышение производительности данного этапа за счет применения графического процессора является актуальным, поскольку позволит существенно повысить общую производительность при решении задачи.
Целью работы является повышение производительности расчета за счет применения GPUпри решении задачи об определении собственных частот колебаний конструкции.
Для достижения цели была поставлена задача - адаптировать алгоритмы и реализовать программный компонент для нахождения матрицы жесткости в подпространстве собственных форм, с учетом особенностей вычислений на графическом процессоре.
Технология Nvidia CUDAявляется удобным и эффективным средством для вычислений общего назначения на графических устройствах. Скорость решения задачи по определению матрицы жесткости в подпространстве собственных форм с применением данной технологии увеличилась в несколько раз (в сравнении с CPUверсией). Современные графические процессоры имеют большие возможности в решении массивно-параллельных задач. CUDAрасполагает простым механизмом выполнения параллельных программ на различных аппаратных платформах. Так один алгоритм, написанный с применением CUDA,может быть запущен на различных картах компании, и скорость выполнения будет зависеть только от аппаратных средств GPU.Таким образом данная технология позволяет системам быть легко масштабируемыми, а программное обеспечение переносимым и актуальным.