Введение 15
1 Обзор и сравнение распределенных файловых систем 16
1.1 Файловые системы 16
1.2 Обзор решений, применяемых для хранения больших данных 17
1.2.1 Hadoop (HDFS) 17
1.2.2 Amazon S3 19
1.2.3 Google File System 19
1.3 Заключение 21
2 Оценка влияния на эффективность структурирования данных и распараллеливания
вычислений 23
2.1 Структура метаописания 23
2.2 Многопоточность в работе хранилища 26
3 Разработка обобщенной функциональной структуры распределенного хранилища данных29
3.1 Анализ требований. Выбор средств разработки 29
3.2 Выбор архитектуры 29
3.3 Приложение «Командный центр» 30
3.4 Приложение «Агент» 32
3.5 Приложение «Файловый менеджер» 33
3.6 Прием сообщений системой 34
4 Программная реализация и технологическая схема развертывания компонентов
распределенного хранилища данных 37
4.1 Развертывание системы 37
4.2 Занесение файлов в систему с помощью приложения «Файловый менеджер» 40
Рисунок 18 — Информация о новом файле в главном окне4.3 Применение системы 42
4.4 Описание классов основных компонентов 43
4.5 Описание классов приложения «Файловый менеджер» 47
4.6 Мониторинг агентов 51
4.7 Получение сообщений 52
4.8 Защита данных 59
5 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение 61
5.1 Организация и планирование работ 61
5.1.1 Продолжительность этапов работ 61
5.1.2 Расчет накопления готовности проекта 65
5.2 Расчет сметы затрат на выполнение проекта 66
5.2.1 Расчет затрат на материалы 66
5.2.2 Расчет заработной платы 66
5.2.3 Расчет затрат на социальный налог 67
5.2.4 Расчет затрат на электроэнергию 67
5.2.5 Расчет амортизационных расходов 68
5.2.6 Прочие расходы 68
5.2.7 Расчет общей себестоимости разработки 68
5.2.8 Расчет прибыли 69
5.2.9 Расчет НДС 69
5.2.10 Цена разработки НИР 69
5.3 Оценка экономической эффективности проекта 69
1.4 Оценка научно — технического уровня НИР 70
6 Социальная ответственность 72
6.1 Введение 72
6.2 Производственная безопасность 72
6.2.1 Вредные производственные факторы 73
6.2.1.1 Отклонение показателей микроклимата 73
6.2.1.2 Повышенный уровень электромагнитных излучений 74
6.2.1.3 Недостаточная освещенность рабочей зоны 75
6.2.1.4 Монотонный режим работы 76
6.2.2 Опасные производственные факторы 76
6.2.2.1 Опасность поражения электрическим током 76
6.2.2.2 Опасность возникновения пожара 78
6.2.3 Мероприятия и рекомендации по устранению и минимизации 78
6.3 Экологическая безопасность 80
6.4 Безопасность в чрезвычайных ситуациях 81
6.5 Правовые и организационные вопросы обеспечения безопасности 83
6.5.1 Правовые нормы трудового законодательства для рабочей зоны оператора ПЭВМ 83
6.5.2 Организационные мероприятия при компоновке рабочей зоны 84
Заключение 86
Список публикаций 88
Список использованных источников 89
Приложение А. Раздел ВКР на иностранном языке 92
В настоящее время человеку в своей производственной и научной деятельности приходится иметь дело с огромным объемов различной информации. Например, система МФЦ (многофункциональные центры предоставления госуслуг) потенциально должна обрабатывать до 50000 документов в день или 12 миллионов в год, что составляет примерно 100 Гб в день и около 25 Тб в год. [1] Также данная проблема достаточно остро стоит для различных научно-исследовательских институтов, собирающих терабайты данных, связанных с проводимыми в них исследованиями. Естественным образом, вместе с получением и обработкой больших объемов данных встает проблема их хранения и структурирования.
На данный момент, рынок программного обеспечения предлагает множество решений для хранения больших данных. Однако, большинство из них для своего нормального функционирования требуют закупки дорогостоящей аппаратной части. Решения же, функционирующие в облаке, на базе уже существующих инфраструктур, тоже подходят не всем организациям, как ввиду затрат на аренду мощностей, так и из-за желания обеспечить дополнительную конфиденциальность данных и хранить их локально, в рамках данной организации.
Таким образом, разработка хранилища, работающего на доступных вычислительных мощностях академических институтов, с минимальными затратами на обслуживание, позволяющее создать единое корпоративное информационное пространство, и возможностью хранить большие и разнородные объемы данных является весьма актуальной задачей.
Разрабатываемая система хранения данных прежде всего ориентируется на применение в различных научно — исследовательских институтах, в которых множество персональных компьютеров (в том числе рабочих мест сотрудников) могут быть использованы для развертывания узлов хранения с последующим их объединением в распределенную систему хранения данных.
С каждым годом проблема хранения больших объемов данных становится все более актуальной. В связи с этим, на рынке растет и количество систем хранения, но по ряду различных причин (в особенности, из-за высокой стоимости), они могут не подойти организациям, желающим минимизировать свои расходы.
При проектировании распределенного файлового хранилища встает ряд важных проблем, таких как структурирование и быстрый поиск нужной информации, а также обеспечение отказоустойчивости и сокращения времени обслуживания запросов. Также, крайне важен выбор архитектуры разрабатываемого решения, поскольку от нее зависит, будет ли система удовлетворять заявленным требованиям.
В данной работе был проведен обзор и сравнение некоторых популярных решений на рынке хранения больших данных. Была рассмотрена их внутренняя структура и принципы работы.
Также была проведена оценка влияния многопоточности и структурирования информации на эффективность работы системы. В результате проведенных исследований было выяснено, что при распараллеливании работы командного центра уменьшается время обслуживания отдельного запроса. Для структурирования данных использовались метаописания файлов и разделение на тематические разделы, что позволило осуществлять эффективный поиск информации.
При создании обобщенной функциональной схемы хранилища была выбрана мультиагентная архитектура, которая дает возможность практически неограниченного горизонтального масштабирования системы и позволяет равномерно распределять нагрузку на отдельные узлы.
С точки зрения финансового менеджмента и ресурсоэффективности, данное решение позволит сократить расходы на покупку дорогостоящего оборудования, а также позволит обойтись без аренды дискового пространства у различных вендоров.
При рассмотрении вопроса безопасности жизнедеятельности и экологической безопасности было выяснено, что разработка не наносит ущерб окружающей среде, а ее эксплуатация не требует соблюдения особых норм БЖД. Таким образом, при работе с файловым хранилищем, достаточно соблюдать основные санитарные нормы работы с ПК, а также требования к эргономике рабочего места.
1. Big Data и ECM: рассмотрим практические примеры [Электронный ресурс] // URL: http://ecm-journal.ru/post/Big-Data-i-ECM-rassmotrim-
prakticheskie-primery.aspx. (дата обращения: 20.04.2016).
2. Файловая система [Электронный ресурс] // URL:
http://citforum .ru/operating_systems/ sos/glava_10. shtml (дата обращения:
20.04.2016) .
3. Структура проекта Hadoop организации Apache Software Foundation [Электронный ресурс] // URL: http://network-j ournal .mpei.ac.ru/ cgi-
bin/main.pl?l=ru&n=27&pa=12&ar=4 (дата обращения: 22.04.2016).
4. Hadoop, часть 1: развертывание кластера [Электронный ресурс] // URL:
https://habrahabr.ru/company/selectel/blog/198534/ (дата обращения:
22.04.2016) .
5. HDFS Architecture Guide [Электронный ресурс] // URL: https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html (дата обращения:
22.04.2016) .
6. Технологии облачных вычислений [Электронный ресурс] // URL: http://www.intuit.ru/studies/courses/3508/750/lecture/27416?page=7 (дата обращения: 23.04.2016).
7. Распределенная файловая система GFS (Google File System) [Электронный ресурс] // URL: https://habrahabr.ru/post/73673/ (дата обращения: 23.04.2016).
8. Определение метаданных [Электронный ресурс] // URL: http://www.elbib.ru/index.phtml?page=elbib/rus/methodology/md_rev/md_def (дата обращения: 2.05.2016).
9. Набор элементов метаданных Dublin Core (Дублинского ядра) Версия 1.1: Справочное описание [Электронный ресурс] // URL:
http://www.rusmarc.ru/soft/dc.html (дата обращения: 2.05.2016).
10. Java API documentation. Class Thread [Электронный ресурс] // URL:
https://docs.oracle.com/javase/7/docs/api/java/lang/Thread.html (дата
обращения: 3.05.2016).
11. ГОСТ 12.0.003-74. Система стандартов безопасности труда. Опасные и вредные производственные факторы. Классификация // Библиотека ГОСТов. 2016. URL: http://vsegost.com/Catalog/41/41131. shtml (дата обращения: 9.05.2016).
12. СанПиН 2.2.4.548-96. Санитарные правила и нормы. Гигиенические
требования к микроклимату производственных помещений // Библиотека гостов и нормативов. 2016. URL:
http : // ohranatruda . ru/ot_biblio/normativ/ data_normativ/5/5225/ (дата
обращения: 9.05.2016).
13. СанПиН 2.2.2/2.4.1340-03. Санитарно-эпидемиологические правила и
нормы. Гигиенические требования к персональным электронновычислительным машинам и организации работы // Библиотека гостов и нормативов. 2016. URL:
http : //www.ohranatruda.ru/ot_biblio/normativ/data_normativ/39/39082/#i7287 0 (дата обращения: 9.05.2016).
14. Белов С. В. Безопасность жизнедеятельности и защита окружающей среды (техносферная безопасность): учебник / С. В. Белов. - 2-е изд.,
испр. и доп. - М.: Издательство Юрайт, 2011. - 680 с.
15. СП 52.13330.2011. Естественное и искусственное освещение.
Актуализированная редакция СНиП 23-05-95 // Докипедия. 2016. URL:
http://dokipedia.ru/document/5147250 (дата обращения: 9.05.2016).
16. ГОСТ Р 12.1.019-2009 ССБТ. Электробезопасность. Общие требования и
номенклатура видов защиты // Электронный фонд правовой и нормативно-технической документации. 2010. URL:
http : //docs.cntd.ru/document/gost-r-12-1-019-2009-ssbt (дата обращения:
9.05.2016) .
17. СНиП 21-01-97. Пожарная безопасность зданий и сооружений //
Библиотека гостов и нормативов. 2016. URL: http : // www. ohranatruda. ru/ ot_biblio/normativ/ data_normativ/ 2/2107/ (дата
обращения: 10.05.2016).
18. СанПиН 2.2.1/2.1.1.1200-03. Санитарно-эпидемиологические правила и нормативы. Санитарно-защитные зоны и санитарная классификация
предприятий, сооружений и других объектов // Библиотека гостов и нормативов. 2016. URL:
http://ohranatruda.ru/ot_biblio/normativ/ data_normativ/11/11774/ (дата
обращения: 10.05.2016).
19. НПБ 105-03 Определение категорий помещений, зданий и наружных установок по взрывопожарной и пожарной опасности // Электронный фонд правовой и нормативно-технической документации. 2016. URL:
http://docs.cntd.ru/document/1200032102 (дата обращения: 10.05.2016).
20. ППБ 01-03. Правила пожарной" безопасности в Российской Федерации. -
М.: Министерство Российской Федерации по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий, 2003
21. Трудовой кодекс Российской Федерации" от 30.12.2001 N 197-ФЗ (ред. от
30.12.2015) // Консультант Плюс. 2015. URL:
http : //www.consultant.ru/document/cons_doc_law_34683/? utm_campaign=law_doc&utm_source=google . adwords &utm_medium=cpc&= utm_content=Labor
%20 Code&gclid=CiwKEAiwgPe4BRCB66 GG8PO69QkSJAC4EhHhU- 5yAFZCJfmzkTLNGnrpgHHAYFPhhPzRo - sZGWmqnBoCPynw_wcB (дата обращения: 10.05.2016).
22. ГОСТ 12.2.032-78 «ССБТ. Рабочее место при выполнении работ сидя. Общие эргономические требования» Классификация // Библиотека ГОСТов. 2016. URL: http://vsegost.com/Catalog/31/31970.shtml (дата обращения: 9.05.2016).