Разработка и исследование итеративных параллельных алгоритмов формирования скрытых функционально-детерминированных структур для классификации и анализа геофизических данных
Введение 11
1. Сравнительный обзор и анализ методов структуризации и
построения распределенных вычислительных систем 14
1.1. Обзор методов кластерного анализа 14
1.2. Обзор распределенных грид систем 16
2. Исследование и программные эксперименты по оценке
быстродействия в задаче фазовой кластеризации 24
2.1. Однопоточное вычисление в стандартном режиме: 24
2.2. Многопоточное вычисление в стандартном режиме 25
2.3. Многопоточное вычисление на базе суперкомпьютера ТПУ 26
2.4. Мультиагентные вычисления на базе распределенной
вычислительной системы 28
3. Функциональная структура основных системных и вычислительных
компонентов грид системы 29
3.1. Распределенная вычислительная среда 29
3.2. Алгоритм формирования скрытых функциональнодетерминированных структур для классификации и анализа геофизических данных. 32
4. Технологическая схема реализации и развертывания многомашинной
системы для фазовой кластеризации 37
4.1. Описание алгоритма кластеризации метеорологических станций по фазе температурного ряда 37
4.1.1. Загрузка входных данных 38
4.1.2. Вычисление фазы температурного ряда 39
4.1.3. Алгоритм кластеризации
4.2. Описание грид системы 46
4.2.1. Центр управления 47
4.2.2. Клиентское приложение 54
5. Финансовый менеджмент, ресурсоэффективность и
ресурсосбережение 57
5.1. Организация и планирование работы 57
5.1.1 Продолжительность этапов работ 58
5.1.2. Расчет накопления готовности проекта 61
5.2. Расчет сметы затрат на выполнение проекта 62
5.2.1. Расчет заработной платы 62
5.2.2. Расчет затрат на социальный налог 64
5.2.3. Расчет затрат на электроэнергию 64
5.2.4. Расчет амортизационных расходов 65
5.2.5. Расчет прочих расходов 66
5.2.6. Расчет общей себестоимости разработки 66
5.2.7. Расчет прибыли 67
5.2.8. Расчет НДС 67
5.2.9. Цена разработки НИР 67
5.3. Оценка экономической эффективности проекта 67
5.4. Оценка научно-технического уровня НИР 69
6. Социальная ответственность 71
6.1. Введение 71
6.2. Производственная безопасность 71
6.2.1. Вредные производственные факторы 72
6.2.2. Опасные производственные факторы 77
6.2.3. Мероприятия и рекомендации по устранению и минимизации 78
6.3. Экологическая безопасность 80
6.4. Безопасность в чрезвычайных ситуациях 82
6.5. Правовые и организационные вопросы обеспечения безопасности 84
6.5.1. Правовые нормы трудового законодательства для рабочей
зоны оператора ПЭВМ 84
6.5.2. Организационные мероприятия при компоновке рабочей зоны 85
Заключение 87
Список публикаций студента 89
Список использованных источников 91
Приложение А 99
Приложение Б 108
В последние годы в научных исследованиях и образовании усиливается внимание к использованию высокопроизводительной вычислительной техники. Во многих областях знаний фундаментальные научные исследования связаны с необходимостью проведения масштабных численных экспериментов. Общепризнанным является класс фундаментальных научных и инженерных проблем Grand challenges , эффективное решение которых возможно только с использованием мощных вычислительных ресурсов с производительностью сотен Гфлопс (~10 операций в секунду) и выше.
Единственным способом достижения требуемой производительности в настоящее время является использование многопроцессорных вычислительных систем с применением параллельных вычислений.
Список применения параллельных вычислений неуклонно растет, параллельные вычисления применяются в областях, связанных с проведением больших расчетов. Так, в системах поддержки проектирования (CAD - Computer aided design) необходимость осуществлять моделирование в реальном масштабе времени предъявляет высокие требования к производительности программного обеспечения. В инженерных приложениях и математическом моделировании для повышения точности используются параллельные алгоритмы. Также, большой областью применения являются бизнес приложения, например, задачи, связанные с анализом финансовых рынков и прогнозирования курсов валют. В итоге можно с уверенностью утверждать, что параллельные информационные технологии превратились из узконаправленной дисциплины в необходимую составляющую комплекса знаний разработчика современного программного обеспечения .
Идея распараллеливания вычислений основана на том, что большинство задач может быть разделено на набор меньших задач, которые могут быть решены одновременно. Основная цель параллельных вычислений - уменьшение времени решения задачи. Для решения трудоемких задач такие вычисления могут быть запущены, например, на супер компьютерах, вычислительных кластерах или грид-системах.
Супер компьютер - специализированная вычислительная машина, значительно превосходящая по своим техническим параметрам и скорости вычислений большинство существующих в мире компьютеров. Как правило, современные супер компьютеры представляют собой большое число высокопроизводительных серверных компьютеров, соединенных друг с другом локальной высокоскоростной магистралью [4]. Стоимость таких систем очень высока.
Вычислительные кластеры - группа компьютеров, объединенных высокоскоростными каналами связи, представляющая с точки зрения пользователя единый аппаратный ресурс.
Грид-вычисления - форма распределенных вычислений, в которой «виртуальный супер компьютер» представлен в виде кластеров, соединенных с помощью сети, слабосвязанных гетерогенных компьютеров, работающих вместе для выполнения огромного количества задания. Грид-вычисления можно организовать на базе множества устаревших моделей персональных компьютеров объединенных в иерархическую локальную вычислительную сеть. Распределенные грид-системы являются разновидностью параллельных вычислений, которые основываются на обычных компьютерах и выгодно отличается от обычных супер компьютеров тем, что могут быть развернуты при помощи обычных протоколов, например, Ethernet. Таким образом обычные компьютеры могут быть объединены в единую распределенную систему, а их ресурсы могут быть использованы для вычислений.
Одной из областей, где возникают фундаментальные научные или инженерные задачи с широкой областью применения, эффективное решение которых возможно только с использованием мощных (супер компьютерных) вычислительных ресурсов является предсказание погоды, климата и глобальных изменений в атмосфере. Примером такой задачи, в частности, является формирование скрытых функционально-детерминированных структур для классификации и анализа метеорологических данных. В данном случае, необходимость реализации возможности параллельных вычислений обусловлена огромным количеством данных. Число элементов дискретизации метеорологических данных только для одной точки Земли за 50 лет может достигать несколько тысяч, а количество таких точек для анализа климатических изменений превышает несколько сотен. Время, необходимое для анализа такого большого объема данных может доходить до нескольких дней, что подчеркивает необходимость и важность параллельных вычислений для данной задачи.
Данная работа посвящена разработке и исследованию итеративного параллельного алгоритма, а также построению грид-системы для выполнения данного алгоритма.
В результате выполнения выпускной квалификационной работы был проведен сравнительный обзор и анализ методов структуризации и построения распределенных вычислительных систем. Основное внимание было уделено методам кластерного анализа и практике построения распределенных грид систем.
В ходе исследования были проведены программные эксперименты по оценке эффективности выполнения вычислений в задаче фазовой кластеризации. Рассматривались следующие модели выполнения вычислений:
• однопоточное вычисление в стандартном режиме;
• многопоточное вычисление в стандартном режиме;
• многопоточное вычисление на базе супер компьютера ТПУ;
• мультиагентные вычисления на базе распределенной
вычислительной системы.
Анализ эффективности показал, что алгоритм фазовой группировки с использованием метеорологических данных поддается распараллеливанию, и в многопоточной реализации обеспечивает увеличение производительности на 25-30%.
Дополнительно, была спроектирована и реализована многомашинная распределенная вычислительная среда из персональных компьютеров для формирования скрытых функционально-детерминированных структур для классификации и анализа геофизических данных.
Технологическая схема реализации и развертывания
многомашинной системы включала в себя два функциональных компонента: центр управления и масштабируемый кластер вычислительных агентов, предоставляющих свои вычислительные мощности для выполнения задач центра по запросу. Основным каналом связи между компонентами системы являлся сокетный интерфейс.
Кроме того, в выпускной квалификационной работе рассмотрены вопросы финансового менеджмента, ресурсо-эффективности и ресурсосбережения, а также идентифицированы основные опасные и вредные производственные факторы, мероприятия по их устранению, и правовые и организационные вопросы обеспечения безопасности.
1. Задачи для суперкомпьютеров, суперкомпьютерные приложения // Parallel.ru URL: https://parallel.ru/research/chanenges.html (дата обращения:
02.06.2016) .
2. Параллельные вычисления при решении современных задач науки и
техники // Вычислительная механика. Кафедра механикоматематического факультета МГУ им М.В. Ломоносова URL: http ://compmech.math .msu.su/publ/Zabrodin_Parallel_comp.pdf (дата
обращения: 02.06.2016).
3. Учебное пособие. Параллельное программирование на основе библиотек. / Васильева М.В., Захаров П.Е., Сирдитов И.К., Попов П.А.,Еремеева М.С., Якутск: Издательско-полиграфический комплекс СВФУ, 2011.
4. Суперкомпьютер // Wikipedia URL:
https://ru.wikipedia.org/wiki/Суперкомпьютер (дата обращения:
02.06.2016) .
5. Кластер (группа компьютеров) // Wikipedia URL:
https://ru.wikipedia.org/wiki/Кластер_(группа_компьютеров) (дата
обращения: 02.06.2016).
6. Грид // Wikipedia URL: https://ru.wikipedia.org/wiki/Грид (дата обращения:
02.06.2016) .
7. Волкова С.Л., Воробьева И.В. Исследование алгоритмов кластеризации // V Международная студенческая электронная научная конференция «Студенческий научный форум»: материалы. М.: Российская академия естествознания, 2013.
8. Нейский И.М. Классификация и сравнение методов кластеризации. //
Научно-образовательный кластер CLAIM URL: http://it-
claim.ru/Persons/Neyskiy/Artide2_Neiskiy.pdf (дата обращения:
03.06.2016) .
9. K-means // Wikipedia URL: https://ru.wikipedia.org/wiki/K-means (дата обращения: 03.06.2016).
10. Кластеризация категорийных данных: масштабируемый алгоритм CLOPE
// BaseGroups Labs: Технологии анализа данных URL:
https://basegroup.ru/community/articles/clope (дата обращения: 03.06.2016).
11. Data Mining // ИНТУИТ URL:
http://www.intuit.ru/studies/courses/6/6/lecture/184?page=2 (дата обращения:
03.06.2016) .
12. Речкалов Т.В. Параллельный алгоритм кластеризации для многоядерного сопроцессора Intel Xeon Phi // Суперкомпьютерные дни в Росии 2015: материалы. М.: Издательство МГУ, 2015.
13. Самоорганизующиеся карты Кохонена — математический аппарат // BaseGroup Labs Технологии анализ данных URL: https://basegroup.ru/community/artides/som (дата обращения: 03.06.2016).
14. Селезнев К. Проблемы анализа Больших Данных // Открытые системы. 2012. №7.
15. Распределенные системы. Принципы и парадигмы. / Таненбаум Э., Спб.: Питер, 2003.
16. Введение в распределенные вычисления. Учебное пособие. / Косяков М.С., Спб.: НИУ ИТМО, 2014.
17. Распределенные вычислительные системы. / Радченко Г.И., Челябинск: Фотохудожник, 2012.
18. Введение в грид технологии / Радченко Г.И., Демичев А.П., Ильин В.А., Крюков А.П. и др. М.: НИИЯФ МГУ, 2007.
19. Великевич С., Демченко Ю. Использование Грид-технологий для построения распределенных САПР // RELARN-2005: Материалы. М.: Ассоциация РЕЛАРН, 2005.
20. Голубовский А.В., Гиоргизова-Гай В.Ш. Построение одноуровневой Грид-системы на платформе Condor. // Системный анализ и информационные технологии: материалы. Киев: 2011.
21. Воеводин В.В., Жолудев Ю.А., Соболев С.И., Стефанов К.С. Эволюция системы метакомпьютинга X-COM // Вестник Нижегородского университета им. Н.И. Лобачевского. 2009. №4.
22. Березовский П.С. Реализация системы диспетчеризации заданий SARD в одноуровневом гриде // Препринты ИПМ им. М.В.Келдыша. 2010. № 49. 32 с. URL: http://library.keldysh.ru/preprint.asp?id=2010-49
23. Методические указания. Установка и настройка компонентов вычислительной среды OurGrid / Бороздюхин А.А., Саратов: Саратовский государственный технический университет, 2007.
24. Увеличение вычислительной мощности распределенных систем с помощью грид-систем из персональных компьютеров // Сайт Российского отделения международной федерации грид-систем из персональных
компьютеров URL:
http://desktopgrid.ru/articles/increasing_computing_power.pdf (дата
обращения: 03.06.2016).
25. Кластеризация // MachineLearning.ru URL:
http://www.machinelearning.ru/wiki/index.php?title=Кластеризация (дата
обращения: 26.02.2016).
26. Обзор алгоритмов кластеризации данных // Хабрахабр URL: https://habrahabr.ru/post/101338/ (дата обращения: 26.02.2016).
27. Ю.В. Волков, В.А. Тартаковский Региональная группировка данных, полученных на метеостанциях Евразии // Энергетика: Эффективность, надежность, безопасность. - Томск: ООО "СКАН", 2013. - С. 177-178.
28. Вакман Д.Е., Вайнштейн Л.А. Амплитуда, фазы частота - основные понятия теории колебаний // Успехи физических наук. 1977. 123. Вып.4. С. 657.
29. В. О. Попова, Ю. В. Волков; науч. рук. Ю. В. Волков // Неразрушающий контроль: электронное приборостроение, технологии, безопасность: сборник трудов IV Всероссийской научно-практической конференции студентов, аспирантов и молодых учёных, Томск, 26-30 мая 2014 г.в 2 т. /
Национальный исследовательский Томский политехнический университет (ТПУ). — 2014. — Т. 2. — [C. 211-213].
30. В.А. Тартаковский, В.А. Крутиков, Ю.В. Волков, Н.Н. Чередько Классификация климата путем анализа фазы температурных рядов // Оптика атмосферы и океана. - 2015. - №8. - С. 711-718.
31. Ю.В. Волков, В.А. Тартаковский Региональная группировка данных, полученных на метеостанциях Евразии // Энергетика: Эффективность, надежность, безопасность. - Томск: ООО "СКАН", 2013. - С. 177-178.
32. Вакман Д.Е., Вайнштейн Л.А. Амплитуда, фазы частота - основные понятия теории колебаний // Успехи физических наук. 1977. 123. Вып.4. С.657.
33. Vakman D. On the analytic signal, the Teager-Kaiser energy algorithm, and other methods for defining amplitude and frequency // IEEE Trans. Signal processing. 1996. 44. № 4. P.791.
34. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М: Мир, 1978.
35. Охрана труда. Основы безопасности жизнедеятельности // www.Grandars.ru. 2016. URL: http://www.grandars.ru/shkola/bezopasnost- zhiznedeyatelnosti/ohrana-truda.html (дата обращения: 22.04.2016).
36. ГОСТ 12.0.003-74. Система стандартов безопасности труда. Опасные и вредные производственные факторы. Классификация // Библиотека ГОСТов. 2016. URL: http://vsegost.com/Catalog/41/41131.shtml (дата обращения: 22.04.2016).
37. Ефремова О. С. Требования охраны труда при работе на персональных электронно-вычислительных машинах. - 2-е изд., перераб. и доп. - М. : Издательство «Альфа-Пресс», 2008. - 176 с.
38. Назаренко О. Б. Безопасность жизнедеятельности: учебное пособие / О. Б. Назаренко, Ю. А. Амелькович; Томский политехнический университет. - 3-е изд., перераб. и доп. - Томск: Изд-во Томского политехнического университета, 2013. - 178 с.
39. СанПиН 2.2.4.548-96. Санитарные правила и нормы. Гигиенические
требования к микроклимату производственных помещений // Библиотека гостов и нормативов. 2016. URL:
http://ohranatruda.rU/ot_biblio/normativ/data_normativ/5/5225/ (дата
обращения: 23.04.2016).
40. Белов С. В. Безопасность жизнедеятельности и защита окружающей среды (техносферная безопасность): учебник / С. В. Белов. - 2-е изд., испр. и доп. - М.: Издательство Юрайт, 2011. - 680 с.
41. СанПиН 2.2.2/2.4.1340-03. Санитарно-эпидемиологические правила и
нормы. Гигиенические требования к персональным электронновычислительным машинам и организации работы // Библиотека гостов и нормативов. 2016. URL:
http://www.ohranatruda.ru/ot_biblio/normativ/data_normativ/39/39082/#i7287 0 (дата обращения: 23.04.2016).
42. СП 52.13330.2011. Естественное и искусственное освещение. Актуализированная редакция СНиП 23-05-95 // Докипедия. 2016. URL: http://dokipedia.ru/document/5147250 (дата обращения: 23.04.2016).
43. ГОСТ Р 12.1.019-2009 ССБТ. Электробезопасность. Общие требования и
номенклатура видов защиты // Электронный фонд правовой и нормативно-технической документации. 2010. URL:
http://docs.cntd.ru/document/gost-r-12-1-019-2009-ssbt (дата обращения:
24.04.2016) .
44. СНиП 21-01-97. Пожарная безопасность зданий и сооружений // Библиотека гостов и нормативов. 2016. URL: http://www.ohranatruda.ru/ot_biblio/normativ/data_normativ/2/2107/ (дата обращения: 24.04.2016).
45. СанПиН 2.2.1/2.1.1.1200-03. Санитарно-эпидемиологические правила и
нормативы. Санитарно-защитные зоны и санитарная классификация предприятий, сооружений и других объектов // Библиотека гостов и нормативов. 2016. URL:
http ://ohranatruda.ru/ot_biblio/normativ/data_normativ/11/11774/ (дата
обращения: 24.04.2016).
46. СанПиН 2.1.7.1322-03. Санитарно-эпидемиологические правила и
нормативы. Гигиенические требования к размещению и обезвреживанию отходов производства и потребления. 2.1.7. Почва, очистка населённых мест, бытовые и промышленные отходы, санитарная охрана почвы // Библиотека гостов и нормативов. 2016. URL: http ://ohranatruda.ru/ot_biblio/normativ/ data_normativ/11/11774/ (дата
обращения: 02.05.2016).
47. Постановление Правительства РФ от 03.09.2010 N 681 (ред. от 01.10.2013) "Об утверждении Правил обращения с отходами производства и потребления в части осветительных устройств, электрических ламп, ненадлежащие сбор, накопление, использование, обезвреживание, транспортирование и размещение которых может повлечь причинение вреда жизни, здоровью граждан, вреда животным, растениям и окружающей среде // Консультант Плюс. 2015. URL: http://www.consultant.ru/document/cons_doc_LAW_104420/e1b31c36ed1083 efeb6cd9c63ed12f99e2ca77ed/#dst100007 (дата обращения: 02.05.2016).
48. Энергосбережение в компьютерном мире // HWP. 2008. URL:
http://www.hwp.ru/articles/Energosberezhenie_v_kompyuternom_mire_CHast _1 osnovnie_tendentsii/?SHOWALL_1=1 (дата обращения: 24.04.2016).
49. НПБ 105-03 Определение категорий помещений, зданий и наружных установок по взрывопожарной и пожарной опасности // Электронный фонд правовой и нормативно-технической документации. 2016. URL: http://docs.cntd.ru/document/1200032102 (дата обращения: 24.04.2016).
50. ППБ 01-03. Правила пожарной" безопасности в Российской Федерации. - М.: Министерство Российской Федерации по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий, 2003.
51. Трудовой кодекс Российской Федерации" от 30.12.2001 N 197-ФЗ (ред. от
30.12.2015) // Консультант Плюс. 2015. URL:
http://www.consultant.ru/document/cons_doc_law_34683/7utm_campaign4a w_doc&utm_source=google.adwords&utm_medium=cpc&=utm_content=Lab or%20Code&gclid=CjwKEAjwgPe4BRCB66GG8PO69QkSJAC4EhHhU- 5yAFZCJfmzkTLNGnrpgHHAYFPhhPzRo-sZGWmqnBoCPynw_wcB (дата обращения: 25.04.2016).
52. В.Ю. Конотопский Методические указания к выполнению раздела «Финансовый менеджмент, Ресурсоэффективность и ресурсосбережение» магистерских диссертаций для всех специальностей ИК. - Томск: Издательство Томского политехнического университета, 2015.
53. Кнышова Е. Н. Экономика организации: учебник / Е. Н. Кнышова, ЕЕ. Панфилова. - Москва: Форум Инфра-М, 2012. - 334 с.: ил. - Профессиональное образование.
54. Бочаров В. В. Инвестиции: учебник для вузов / В. В. Бочаров. - 2-е изд. - СПб.: Питер, 2009. - 381 с. - Учебник для вузов.
55. Староверова Г. С. Экономическая оценка инвестиций : учебное пособие / Г. С. Староверова, А. Ю. Медведев, И. В. Сорокина. - 2-е изд., стер. - Москва: КноРус, 2009. — 312 с
56. Несветаев Ю. А. Экономическая оценка инвестиций: учебное пособие / Ю. А. Несветаев; Московский Государственный индустриальный университет; Институт дистанционного образования. - 3-е изд., стер. - Москва: Изд-во МГИУ, 2006. - 162 с.
57. Шульмин В. А. Экономическое обоснование в дипломных проектах: учебное пособие для вузов / В. А. Шульмин, Т. С. Усынина. - Старый Оскол: ТНТ, 2012. - 192 с.
58. Голосовский С. И. Эффективность научных исследований в промышленности / С. И. Голосовский. - Москва: Экономика, 1986. - 159 с.
59. Мигуренко Р. А. Научно-исследовательская работа: учебно-методическое пособие / Р. А. Мигуренко; Национальный исследовательский Томский политехнический университет (ТПУ), Институт дистанционного образования (ИДО). - 2-е изд., стер. - Томск: Изд-во ТПУ, 2010. - 184 с.