Тип работы:
Предмет:
Язык работы:


МЕТОДЫ ХРАНЕНИЯ И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ ПРОСТРАНСТВЕННЫХ ДАННЫХ В РАСТРОВЫХ ФОРМАТАХ

Работа №67753

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы69
Год сдачи2016
Стоимость4275 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
195
Не подходит работа?

Узнай цену на написание


1. Введение 5
2. Определение термина «большие данные» 6
3. Постановка задачи 9
4. Обзор области 11
5. Распределенная ГИС для работы с «большими данными» 21
5.1. Хранение данных 23
5.1.1. Пирамида 24
5.1.2. Мозаика 24
5.1.3. Распределение данных по узлам сети 25
5.2. Обработка данных 28
5.2.1. Перепроецирование 28
5.2.2. Растровая реклассификация 29
5.2.3. Растровая алгебра 31
5.2.4. Визуализация данных 33
5.3. Географическая информационная система 36
5.3.1. Распределенная файловая система 36
5.3.2. Мониторинг состояния узлов вычислительной сети 39
5.3.3. Планирование заданий 41
5.3.4. Вычислительный модуль 42
6. Полученные результаты 44
6.1. Визуализация данных 45
6.2. Растровая реклассификация 46
6.3. Растровая алгебра 47
6.4. Анализ полученных результатов 49
7. Заключение 51
Благодарности 52
Список литературы 53
Приложения 57
Приложение 1: Определение положения пользовательского окна 57
Приложение 2: Алгоритм визуализации растровых данных 60
Приложение 3: Алгоритм растровой реклассификации 63
Приложение 4: Алгоритм растровой алгебры 65


В современном мире человек и создаваемые им информационные системы все чаще сталкиваются с необходимостью хранить, обрабатывать и перемещать колоссальные объемы данных. Это является верным для самых различных областей человеческой деятельности, и эколого-географический анализ не является исключением.
Так, существующие в настоящее время технологии дистанционного зондирования дают возможность в короткие сроки и без значительных финансовых затрат получать высокоточные снимки земной поверхности в самых различных диапазонах электромагнитного спектра. Одновременно с этим, развитие и совершенствование вычислительной техники позволяет быстро и детально анализировать собираемые данные. Наконец, благодаря повсеместной доступности сети Internet в современном мире, заинтересованные специалисты, находящиеся в любых точках земного шара, имеют моментальный доступ как к исходным пространственным данным, так и ко всевозможным результатам их обработки.
Это приводит к тому, что объемы пространственных данных, в первую очередь представленных растровыми форматами, растут едва ли не геометрически. А так как пространственные данные в настоящее время активно используются в самых различных областях научной и повседневной деятельности человека, естественным образом возникает необходимость в надежных и производительных вычислительных системах для хранения, обработки и передачи пространственных данных.
Актуальность разработки географических информационных систем, ориентированных на работу с «большими данными», в современном мире сложно переоценить: использование подобных систем позволяет прогнозировать и отслеживать развитие различного рода чрезвычайных ситуаций; проводить виртуальные биологические, экологические и геологические эксперименты направленные на расширение наших знаний о прошлом и настоящем мира в котором мы живем; а также собирать информацию для более качественного использования земельных и биологических ресурсов при одновременном уменьшении негативного влияния человеческой активности на окружающую среду [1].


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Развитие технологий в современном мире позволяет человеку иметь доступ ко все большим объемам данных из самых различных областей жизнедеятельности, и эколого-географический анализ не является исключением. Ежедневно и ежечасно цифровые каталоги информации об экологии, погоде, климате и распространении биологических объектов уточняются и дополняются усилиями сотен и тысяч людей и автоматических систем, ведущих наблюдение с поверхности Земли, с самолетов и атмосферных зондов, а также из космоса.
И рост объемов собранной информации постоянно ускоряется: растет как число источников данных, так и детализация самих данных. Пространственные данные в современном мире без тени сомнения являются «большими данными». А так как пространственные данные в настоящее время активно используются в различных областях научной и повседневной деятельности человека, возникает необходимость в надежных и производительных вычислительных системах для хранения и обработки пространственных данных.
Возможным вариантом таких систем являются распределенные географические информационные системы, работающие в добровольных вычислительных сетях. Эти ГИС сочетают в себе высокую производительность, репликацию данных, и большие объемы доступной долговременной памяти, присущие вычислительным кластерам, с возможностями независимого использования входящих в состав вычислительной сети персональных компьютеров.
Использование таких распределенных географических информационных систем позволяет выполнять эколого-географический анализ пространственных «больших данных» за разумное время даже без использования высокопроизводительного оборудования. Благодаря этому, даже небольшие лаборатории получат возможность проводить виртуальные биологические и экологические эксперименты, используя для этого карты с высоким пространственным разрешением, или же заниматься прогнозированием распространения опасных биологических объектов, раскрывая секреты окружающего нас мира и делая его безопаснее для жизни.



[1] Грант «Эколого-географическое исследование распространения агробактерий и растений, имеющих в геноме последовательности ДНК агробактериального происхождения», ИАС: 0.37.526.2013.
[2] Hu H., Wen Y., Chua T.-S., Li X. Towards scalable systems for big data analytics: a technology tutorial // IEEE Xplore Digital Library. 2014.http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6842585 (Дата обращения: 04.04.2016)
[3] J. Gantz, D. Reinsel. Extracting value from chaos // Proc. IDC iView. 2011. P. 1-12.
[4] Snijders C., Matzat U., Reips U. D. ’Big Data’: Big gaps of knowledge in the field of Internet. // International Journal of Internet Science 7 (2012). P. 1-5.
[5] D. Laney 3D Data Management: Controlling Data Volume, Velocity, and Variety // META Group Inc. File 949. 2001.
[6] P. Zikopoulos, C. Eaton Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data // New York, NY, USA: McGraw-Hill, 2011.
[7] E. Meijer The world according to LINQ // Commun. ACM. vol 54. No 10. P. 45-51. 2011.
[8] J. Manyika et al. Big data: The Next Frontier for Innovation, Competition, and Productivity // McKinsey Global Institute paper. P. 1-137. 2011.
[9] Targio H. et al. "Big data"on cloud computing: Review and open research issues. // Information Systems 47 (2015). P. 98-115.
[10] De Mauro A., Greco M., Grimaldi M. What is big data? A consensual definition and a review of key research topics. // AIP Conference Proceedings (2015). P. 97-104.
[11] M. Cooper, P. Mell Tackling Big Data // 2012.http://csrc.nist.gov/groups/SMA/forum/documents/june2012presentations/fcsm_june2012_cooper_mell.pdf (дата обращения 04.04.2016)
[12] Processing: What to record? [Электронный ресурс] //http://home.cern/about/computing/processing-what-record (дата обращения: 05.04.2016)
[13] HDFS Architecture Guide [Электронный ресурс] //https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html (дата обращения: 05.04.2016)
[14] Tredger S. SageFS: the location aware wide area distributed filesystem [Электронный ресурс]: URL:https://dspace.library.uvic.ca:8443/bitstream/handle/1828/5824/Tredger_Stephen_MSc_2014.pdf?sequence=3&isAllowed=y (дата об-ращения: 07.04.2016)
[15] NoSQL Databases Explained [Электронный ресурс] //https://www.mongodb.com/nosql-explained (дата обращения: 05.04.2016)
[16] I.Katsov, D. Kirkdorffer NoSQL Data Modeling Techniques [Электронный ресурс] //https://highlyscalable.wordpress.com/2012/03/01/nosql-data-modeling-techniques/ (дата обращения: 05.04.2016)
[17] E. Nightingale, J. Elson, J. Fan, O. Hofmann, J. Howell, Y. Suzue, Flat Datacenter Storage // 10th USENIX Symposium on Operating Systems Design and Implementation (OSDI ’12)
[18] V. Sandeep, K. Yerlanki, Flat Datacenter Storage [Электронный ресурс] //http://www.ece.eng.wayne.edu/~sjiang/ECE7650-winter-15/topic4A-S.pdf (дата обращения: 11.04.2016)
[19] C. Modi, Flat Datacenter Storage [Электронный ресурс] //http://www.ece.eng.wayne.edu/~sjiang/ECE7650-winter-15/topic4B-S.pdf (дата обращения: 11.04.2016)
[20] Соловьев П.А. Использование сетевых файловых систем с запоминанием физического адреса данных для ускорения обработки больших объемов пространственных данных // Процессы управления и устойчивость. 2015. Т. 2(18). № 1. С. 509-514.
[21] J. Dean, S. Ghemawat, MapReduce: Simplified Data Processing on Large Clusters [Электронный ресурс] //http://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf (дата обращения: 15.04.2016)
[22] H. Lin et al, MOON: MapReduce On Opportunistic eNvironments [Электронный ресурс] //http://eprints.cs.vt.edu/archive/00001089/01/moon.pdf (дата об-ращения: 15.04.2016)
[23] C. Yang, C. Yen, C. Tan, S. R. Madden, Osprey: Implementing MapReduce-Style Fault Tolerance in a Shared-Nothing Distributed Database [Электронный ресурс] //http://db.csail.mit.edu/pubs/OspreyDB.pdf (дата обращения: 15.04.2016)
[24] Z. Ma, L. Gu, The limitation of MapReduce: A probing case and a lightweight solution // Proceeding of the 1st Intl. Conf. on Cloud Computing, GRIDs, and Virtualization, 2010.
[25] Z. Ma, K. Hong, L. Gu, MapReduce-style Computation in Distributed Virtual Memory [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.394.115&rep=rep1&type=pdf (дата обращения: 15.04.2016)
[26] M. A. Kozuch et al, Tashi: Location-aware Cluster Management [Электронный ресурс] //http://www.pdl.cmu.edu/PDL-FTP/Storage/tashi-acdc2009.pdf (дата обращения: 16.04.2016)
[27] сайт директивы INSPIRE Европейского Сообщества //http://inspire.jrc.ec.europa.eu/
[28] S. Tschirner, A. Scherp, S. Staab, Semantic access to INSPIRE: how to publish and query advanced GML data [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.662.5258&rep=rep1&type=pdf (дата обращения: 26.04.2016)
[29] M. Zhang el al, TerraFly GeoCloud: An Online Spatial Data Analysis and Visualization System [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.705.6789&rep=rep1&type=pdf (дата обращения: 26.04.2016)
[30] W. Kuhn, Geospatial Semantics: Why, of What, and How [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.504.1688&rep=rep1&type=pdf (дата обращения: 26.04.2016)
[31] A. Crow, S. Aerni, H. Farinas, R. Radhakrishnan, G. Muralidhar, Data Science How To: Massively Parallel, In-Database Image Processing [Электронный ресурс] //https://blog.pivotal.io/big-data-pivotal/features/data-science-how-to-massively-parallel-in-database-image-processing-part-1(дата обращения: 28.04.2016)
[32] Y. Yan, L. Huang, Large-Scale Image Processing Research Cloud [Электронный ресурс] //https://www.thinkmind.org/download.php?articleid=cloud_computing_2014_4_20_20069 (дата обращения: 28.04.2016)
[33] Oracle Spatial GeoRaster Developer’s Guide [Электронный ресурс]: URL:http://docs.oracle.com/cd/B28359_01/appdev.111/b28398/geor_intro.htm (дата обращения: 09.03.2015)
[34] Xu Hong, Mangtani P. Managing imagery and raster data using mosaic datasets // ESRI International User Conference. Technical Workshop. 2012.
[35] Описание возможностей файлового формата BigTiff [Электронный ресурс] // http://bigtiff.org/ (дата обращения: 10.05.2016)
[36] The BigTIFF File Format Proposal [Электронный ресурс] //http://www.awaresystems.be/imaging/tiff/bigtiff.html (дата обращения: 10.05.2016)
[37] Y. Pessach, Distributed Storage: Concepts, Algorithms and Implementations // CreateSpace Independent Publishing Platform; 1 edition. 2013
[38] P. Bailis, A. Ghodsi, Eventual Consistency Today: Limitations, Extensions, and Beyond // ACM Queue, Vol. 11, Issue 3. 2013
[39] Запорожченко А. В., Картографические проекции и методика и выбора для создания карт различных типов // Ногинск: Панорама, 1991-2007. 148 с.
[40] Официальный сайт библиотеки GDAL [Электронный ресурс] //http://www.gdal.org/ (дата обращения: 10.05.2016)
[41] Афонин А. Н., Грин С. Л., Дзюбенко Н. И., Фролов А. Н. (ред.) Агроэкологический атлас России и сопредельных стран: экономически значимые растения, их вредители, болезни и сорные растения. 2008. 1 электрон. опт. диск (DVD).
[42] Афонин А. Н., Ли Ю. С., Эколого-географический подход на базе географических информационных технологий в изучении экологии и распространения биологических объектов // BioGIS Journal. 2011, N 1.
[43] Carpenter G., Gillison A. N., Winter J., DOMAIN: a flexible modelling procedure for mapping potential distributions of plants and animals. // Biodiversity and Conservation 2, 1993. С. 667-680.
[44] J. Fung, S. Mann, Using Multiple Graphics Cards as a General Purpose Parallel Computer: Applications to Computer Vision // Proceedings of the 17th International Conference on Pattern Recognition (ICPR2004), vol. 1, pp. 805-808
[45] D. Goddeke, Fast and Accurate Finite-Element Multigrid Solvers for PDE Simulations on GPU Clusters. [Электронный ресурс] //http://d-nb.info/100545535X/34 (дата обращения: 15.05.2016)
[46] Документация по протоколу WMS [Электронный ресурс] //http://www.opengeospatial.org/standards/wms (дата обращения: 15.05.2016)
[47] Репозиторий клиентской библиотеки SageFS [Электронный ресурс] //https://github.com/stredger/sagefs (дата обращения: 15.05.2016)
[48] M. Y. Eltabakh, Y. Tian, F. Ozcab, R. Gemulla, A. Krettek, J. McPherson, CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop [Электронный ресурс] //http://researcher.watson.ibm.com/researcher/files/us-ytian/colocation.pdf (дата обращения: 19.05.2016)
[49] M. G. Ferriera, Replication and Data Placement in Distributed Key-Value Stores [Электронный ресурс] //http://www.gsd.inesc-id.pt/~ler/reports/manuelferreira-midterm.pdf (дата обращения: 19.05.2016)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ