Разработка и исследование итеративных параллельных алгоритмов формирования скрытых функционально-детерминированных структур для классификации и анализа геофизических данных
|
Введение 11
1. Сравнительный обзор и анализ методов структуризации и
построения распределенных вычислительных систем 14
1.1. Обзор методов кластерного анализа 14
1.2. Обзор распределенных грид систем 16
2. Исследование и программные эксперименты по оценке
быстродействия в задаче фазовой кластеризации 24
2.1. Однопоточное вычисление в стандартном режиме: 24
2.2. Многопоточное вычисление в стандартном режиме 25
2.3. Многопоточное вычисление на базе суперкомпьютера ТПУ 26
2.4. Мультиагентные вычисления на базе распределенной
вычислительной системы 28
3. Функциональная структура основных системных и вычислительных
компонентов грид системы 29
3.1. Распределенная вычислительная среда 29
3.2. Алгоритм формирования скрытых функциональнодетерминированных структур для классификации и анализа геофизических данных. 32
4. Технологическая схема реализации и развертывания многомашинной
системы для фазовой кластеризации 37
4.1. Описание алгоритма кластеризации метеорологических станций по фазе температурного ряда 37
4.1.1. Загрузка входных данных 38
4.1.2. Вычисление фазы температурного ряда 39
4.1.3. Алгоритм кластеризации
4.2. Описание грид системы 46
4.2.1. Центр управления 47
4.2.2. Клиентское приложение 54
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение 57
5.1. Организация и планирование работы 57
5.1.1 Продолжительность этапов работ 58
5.1.2. Расчет накопления готовности проекта 61
5.2. Расчет сметы затрат на выполнение проекта 62
5.2.1. Расчет заработной платы 62
5.2.2. Расчет затрат на социальный налог 64
5.2.3. Расчет затрат на электроэнергию 64
5.2.4. Расчет амортизационных расходов 65
5.2.5. Расчет прочих расходов 66
5.2.6. Расчет общей себестоимости разработки 66
5.2.7. Расчет прибыли 67
5.2.8. Расчет НДС 67
5.2.9. Цена разработки НИР 67
5.3. Оценка экономической эффективности проекта 67
5.4. Оценка научно-технического уровня НИР 69
6. Социальная ответственность 71
6.1. Введение 71
6.2. Производственная безопасность 71
6.2.1. Вредные производственные факторы 72
6.2.2. Опасные производственные факторы 77
6.2.3. Мероприятия и рекомендации по устранению и минимизации 78
6.3. Экологическая безопасность 80
6.4. Безопасность в чрезвычайных ситуациях 82
6.5. Правовые и организационные вопросы обеспечения безопасности 84
6.5.1. Правовые нормы трудового законодательства для рабочей
зоны оператора ПЭВМ 84
6.5.2. Организационные мероприятия при компоновке рабочей зоны 85
Заключение 87
Список публикаций студента 89
Список использованных источников 91
Приложение А 99
Приложение Б 108
1. Сравнительный обзор и анализ методов структуризации и
построения распределенных вычислительных систем 14
1.1. Обзор методов кластерного анализа 14
1.2. Обзор распределенных грид систем 16
2. Исследование и программные эксперименты по оценке
быстродействия в задаче фазовой кластеризации 24
2.1. Однопоточное вычисление в стандартном режиме: 24
2.2. Многопоточное вычисление в стандартном режиме 25
2.3. Многопоточное вычисление на базе суперкомпьютера ТПУ 26
2.4. Мультиагентные вычисления на базе распределенной
вычислительной системы 28
3. Функциональная структура основных системных и вычислительных
компонентов грид системы 29
3.1. Распределенная вычислительная среда 29
3.2. Алгоритм формирования скрытых функциональнодетерминированных структур для классификации и анализа геофизических данных. 32
4. Технологическая схема реализации и развертывания многомашинной
системы для фазовой кластеризации 37
4.1. Описание алгоритма кластеризации метеорологических станций по фазе температурного ряда 37
4.1.1. Загрузка входных данных 38
4.1.2. Вычисление фазы температурного ряда 39
4.1.3. Алгоритм кластеризации
4.2. Описание грид системы 46
4.2.1. Центр управления 47
4.2.2. Клиентское приложение 54
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение 57
5.1. Организация и планирование работы 57
5.1.1 Продолжительность этапов работ 58
5.1.2. Расчет накопления готовности проекта 61
5.2. Расчет сметы затрат на выполнение проекта 62
5.2.1. Расчет заработной платы 62
5.2.2. Расчет затрат на социальный налог 64
5.2.3. Расчет затрат на электроэнергию 64
5.2.4. Расчет амортизационных расходов 65
5.2.5. Расчет прочих расходов 66
5.2.6. Расчет общей себестоимости разработки 66
5.2.7. Расчет прибыли 67
5.2.8. Расчет НДС 67
5.2.9. Цена разработки НИР 67
5.3. Оценка экономической эффективности проекта 67
5.4. Оценка научно-технического уровня НИР 69
6. Социальная ответственность 71
6.1. Введение 71
6.2. Производственная безопасность 71
6.2.1. Вредные производственные факторы 72
6.2.2. Опасные производственные факторы 77
6.2.3. Мероприятия и рекомендации по устранению и минимизации 78
6.3. Экологическая безопасность 80
6.4. Безопасность в чрезвычайных ситуациях 82
6.5. Правовые и организационные вопросы обеспечения безопасности 84
6.5.1. Правовые нормы трудового законодательства для рабочей
зоны оператора ПЭВМ 84
6.5.2. Организационные мероприятия при компоновке рабочей зоны 85
Заключение 87
Список публикаций студента 89
Список использованных источников 91
Приложение А 99
Приложение Б 108
В последние годы в научных исследованиях и образовании усиливается внимание к использованию высокопроизводительной вычислительной техники. Во многих областях знаний фундаментальные научные исследования связаны с необходимостью проведения масштабных численных экспериментов. Общепризнанным является класс фундаментальных научных и инженерных проблем Grand challenges , эффективное решение которых возможно только с использованием мощных вычислительных ресурсов с производительностью сотен Гфлопс (~10 операций в секунду) и выше.
Единственным способом достижения требуемой производительности в настоящее время является использование многопроцессорных вычислительных систем с применением параллельных вычислений.
Список применения параллельных вычислений неуклонно растет, параллельные вычисления применяются в областях, связанных с проведением больших расчетов. Так, в системах поддержки проектирования (CAD - Computer aided design) необходимость осуществлять моделирование в реальном масштабе времени предъявляет высокие требования к производительности программного обеспечения. В инженерных приложениях и математическом моделировании для повышения точности используются параллельные алгоритмы. Также, большой областью применения являются бизнес приложения, например, задачи, связанные с анализом финансовых рынков и прогнозирования курсов валют. В итоге можно с уверенностью утверждать, что параллельные информационные технологии превратились из узконаправленной дисциплины в необходимую составляющую комплекса знаний разработчика современного программного обеспечения .
Идея распараллеливания вычислений основана на том, что большинство задач может быть разделено на набор меньших задач, которые могут быть решены одновременно. Основная цель параллельных вычислений - уменьшение времени решения задачи. Для решения трудоемких задач такие вычисления могут быть запущены, например, на супер компьютерах, вычислительных кластерах или грид-системах.
Супер компьютер - специализированная вычислительная машина, значительно превосходящая по своим техническим параметрам и скорости вычислений большинство существующих в мире компьютеров. Как правило, современные супер компьютеры представляют собой большое число высокопроизводительных серверных компьютеров, соединенных друг с другом локальной высокоскоростной магистралью [4]. Стоимость таких систем очень высока.
Вычислительные кластеры - группа компьютеров, объединенных высокоскоростными каналами связи, представляющая с точки зрения пользователя единый аппаратный ресурс.
Грид-вычисления - форма распределенных вычислений, в которой «виртуальный супер компьютер» представлен в виде кластеров, соединенных с помощью сети, слабосвязанных гетерогенных компьютеров, работающих вместе для выполнения огромного количества задания. Грид-вычисления можно организовать на базе множества устаревших моделей персональных компьютеров объединенных в иерархическую локальную вычислительную сеть. Распределенные грид-системы являются разновидностью параллельных вычислений, которые основываются на обычных компьютерах и выгодно отличается от обычных супер компьютеров тем, что могут быть развернуты при помощи обычных протоколов, например, Ethernet. Таким образом обычные компьютеры могут быть объединены в единую распределенную систему, а их ресурсы могут быть использованы для вычислений.
Одной из областей, где возникают фундаментальные научные или инженерные задачи с широкой областью применения, эффективное решение которых возможно только с использованием мощных (супер компьютерных) вычислительных ресурсов является предсказание погоды, климата и глобальных изменений в атмосфере. Примером такой задачи, в частности, является формирование скрытых функционально-детерминированных структур для классификации и анализа метеорологических данных. В данном случае, необходимость реализации возможности параллельных вычислений обусловлена огромным количеством данных. Число элементов дискретизации метеорологических данных только для одной точки Земли за 50 лет может достигать несколько тысяч, а количество таких точек для анализа климатических изменений превышает несколько сотен. Время, необходимое для анализа такого большого объема данных может доходить до нескольких дней, что подчеркивает необходимость и важность параллельных вычислений для данной задачи.
Данная работа посвящена разработке и исследованию итеративного параллельного алгоритма, а также построению грид-системы для выполнения данного алгоритма.
Единственным способом достижения требуемой производительности в настоящее время является использование многопроцессорных вычислительных систем с применением параллельных вычислений.
Список применения параллельных вычислений неуклонно растет, параллельные вычисления применяются в областях, связанных с проведением больших расчетов. Так, в системах поддержки проектирования (CAD - Computer aided design) необходимость осуществлять моделирование в реальном масштабе времени предъявляет высокие требования к производительности программного обеспечения. В инженерных приложениях и математическом моделировании для повышения точности используются параллельные алгоритмы. Также, большой областью применения являются бизнес приложения, например, задачи, связанные с анализом финансовых рынков и прогнозирования курсов валют. В итоге можно с уверенностью утверждать, что параллельные информационные технологии превратились из узконаправленной дисциплины в необходимую составляющую комплекса знаний разработчика современного программного обеспечения .
Идея распараллеливания вычислений основана на том, что большинство задач может быть разделено на набор меньших задач, которые могут быть решены одновременно. Основная цель параллельных вычислений - уменьшение времени решения задачи. Для решения трудоемких задач такие вычисления могут быть запущены, например, на супер компьютерах, вычислительных кластерах или грид-системах.
Супер компьютер - специализированная вычислительная машина, значительно превосходящая по своим техническим параметрам и скорости вычислений большинство существующих в мире компьютеров. Как правило, современные супер компьютеры представляют собой большое число высокопроизводительных серверных компьютеров, соединенных друг с другом локальной высокоскоростной магистралью [4]. Стоимость таких систем очень высока.
Вычислительные кластеры - группа компьютеров, объединенных высокоскоростными каналами связи, представляющая с точки зрения пользователя единый аппаратный ресурс.
Грид-вычисления - форма распределенных вычислений, в которой «виртуальный супер компьютер» представлен в виде кластеров, соединенных с помощью сети, слабосвязанных гетерогенных компьютеров, работающих вместе для выполнения огромного количества задания. Грид-вычисления можно организовать на базе множества устаревших моделей персональных компьютеров объединенных в иерархическую локальную вычислительную сеть. Распределенные грид-системы являются разновидностью параллельных вычислений, которые основываются на обычных компьютерах и выгодно отличается от обычных супер компьютеров тем, что могут быть развернуты при помощи обычных протоколов, например, Ethernet. Таким образом обычные компьютеры могут быть объединены в единую распределенную систему, а их ресурсы могут быть использованы для вычислений.
Одной из областей, где возникают фундаментальные научные или инженерные задачи с широкой областью применения, эффективное решение которых возможно только с использованием мощных (супер компьютерных) вычислительных ресурсов является предсказание погоды, климата и глобальных изменений в атмосфере. Примером такой задачи, в частности, является формирование скрытых функционально-детерминированных структур для классификации и анализа метеорологических данных. В данном случае, необходимость реализации возможности параллельных вычислений обусловлена огромным количеством данных. Число элементов дискретизации метеорологических данных только для одной точки Земли за 50 лет может достигать несколько тысяч, а количество таких точек для анализа климатических изменений превышает несколько сотен. Время, необходимое для анализа такого большого объема данных может доходить до нескольких дней, что подчеркивает необходимость и важность параллельных вычислений для данной задачи.
Данная работа посвящена разработке и исследованию итеративного параллельного алгоритма, а также построению грид-системы для выполнения данного алгоритма.
В результате выполнения выпускной квалификационной работы был проведен сравнительный обзор и анализ методов структуризации и построения распределенных вычислительных систем. Основное внимание было уделено методам кластерного анализа и практике построения распределенных грид систем.
В ходе исследования были проведены программные эксперименты по оценке эффективности выполнения вычислений в задаче фазовой кластеризации. Рассматривались следующие модели выполнения вычислений:
• однопоточное вычисление в стандартном режиме;
• многопоточное вычисление в стандартном режиме;
• многопоточное вычисление на базе супер компьютера ТПУ;
• мультиагентные вычисления на базе распределенной
вычислительной системы.
Анализ эффективности показал, что алгоритм фазовой группировки с использованием метеорологических данных поддается распараллеливанию, и в многопоточной реализации обеспечивает увеличение производительности на 25-30%.
Дополнительно, была спроектирована и реализована многомашинная распределенная вычислительная среда из персональных компьютеров для формирования скрытых функционально-детерминированных структур для классификации и анализа геофизических данных.
Технологическая схема реализации и развертывания
многомашинной системы включала в себя два функциональных компонента: центр управления и масштабируемый кластер вычислительных агентов, предоставляющих свои вычислительные мощности для выполнения задач центра по запросу. Основным каналом связи между компонентами системы являлся сокетный интерфейс.
Кроме того, в выпускной квалификационной работе рассмотрены вопросы финансового менеджмента, ресурсо-эффективности и ресурсосбережения, а также идентифицированы основные опасные и вредные производственные факторы, мероприятия по их устранению, и правовые и организационные вопросы обеспечения безопасности.
В ходе исследования были проведены программные эксперименты по оценке эффективности выполнения вычислений в задаче фазовой кластеризации. Рассматривались следующие модели выполнения вычислений:
• однопоточное вычисление в стандартном режиме;
• многопоточное вычисление в стандартном режиме;
• многопоточное вычисление на базе супер компьютера ТПУ;
• мультиагентные вычисления на базе распределенной
вычислительной системы.
Анализ эффективности показал, что алгоритм фазовой группировки с использованием метеорологических данных поддается распараллеливанию, и в многопоточной реализации обеспечивает увеличение производительности на 25-30%.
Дополнительно, была спроектирована и реализована многомашинная распределенная вычислительная среда из персональных компьютеров для формирования скрытых функционально-детерминированных структур для классификации и анализа геофизических данных.
Технологическая схема реализации и развертывания
многомашинной системы включала в себя два функциональных компонента: центр управления и масштабируемый кластер вычислительных агентов, предоставляющих свои вычислительные мощности для выполнения задач центра по запросу. Основным каналом связи между компонентами системы являлся сокетный интерфейс.
Кроме того, в выпускной квалификационной работе рассмотрены вопросы финансового менеджмента, ресурсо-эффективности и ресурсосбережения, а также идентифицированы основные опасные и вредные производственные факторы, мероприятия по их устранению, и правовые и организационные вопросы обеспечения безопасности.



