В современном мире человек и создаваемые им информационные системы все чаще сталкиваются с необходимостью хранить, обрабатывать и перемещать колоссальные объемы данных. Это является верным для самых различных областей человеческой деятельности, и эколого-географический анализ не является исключением.
Так, существующие в настоящее время технологии дистанционного зондирования дают возможность в короткие сроки и без значительных финансовых затрат получать высокоточные снимки земной поверхности в самых различных диапазонах электромагнитного спектра. Одновременно с этим, развитие и совершенствование вычислительной техники позволяет быстро и детально анализировать собираемые данные. Наконец, благодаря повсеместной доступности сети Internet в современном мире, заинтересованные специалисты, находящиеся в любых точках земного шара, имеют моментальный доступ как к исходным пространственным данным, так и ко всевозможным результатам их обработки.
Это приводит к тому, что объемы пространственных данных, в первую очередь представленных растровыми форматами, растут едва ли не геометрически. А так как пространственные данные в настоящее время активно используются в самых различных областях научной и повседневной деятельности человека, естественным образом возникает необходимость в надежных и производительных вычислительных системах для хранения, обработки и передачи пространственных данных.
Актуальность разработки географических информационных систем, ориентированных на работу с «большими данными», в современном мире сложно переоценить: использование подобных систем позволяет прогнозировать и отслеживать развитие различного рода чрезвычайных ситуаций; проводить виртуальные биологические, экологические и геологические эксперименты направленные на расширение наших знаний о прошлом и настоящем мира в котором мы живем; а также собирать информацию для более качественного использования земельных и биологических ресурсов при одновременном уменьшении негативного влияния человеческой активности на окружающую среду [1].
Развитие технологий в современном мире позволяет человеку иметь доступ ко все большим объемам данных из самых различных областей жизнедеятельности, и эколого-географический анализ не является исключением. Ежедневно и ежечасно цифровые каталоги информации об экологии, погоде, климате и распространении биологических объектов уточняются и дополняются усилиями сотен и тысяч людей и автоматических систем, ведущих наблюдение с поверхности Земли, с самолетов и атмосферных зондов, а также из космоса.
И рост объемов собранной информации постоянно ускоряется: растет как число источников данных, так и детализация самих данных. Пространственные данные в современном мире без тени сомнения являются «большими данными». А так как пространственные данные в настоящее время активно используются в различных областях научной и повседневной деятельности человека, возникает необходимость в надежных и производительных вычислительных системах для хранения и обработки пространственных данных.
Возможным вариантом таких систем являются распределенные географические информационные системы, работающие в добровольных вычислительных сетях. Эти ГИС сочетают в себе высокую производительность, репликацию данных, и большие объемы доступной долговременной памяти, присущие вычислительным кластерам, с возможностями независимого использования входящих в состав вычислительной сети персональных компьютеров.
Использование таких распределенных географических информационных систем позволяет выполнять эколого-географический анализ пространственных «больших данных» за разумное время даже без использования высокопроизводительного оборудования. Благодаря этому, даже небольшие лаборатории получат возможность проводить виртуальные биологические и экологические эксперименты, используя для этого карты с высоким пространственным разрешением, или же заниматься прогнозированием распространения опасных биологических объектов, раскрывая секреты окружающего нас мира и делая его безопаснее для жизни.
[1] Грант «Эколого-географическое исследование распространения агробактерий и растений, имеющих в геноме последовательности ДНК агробактериального происхождения», ИАС: 0.37.526.2013.
[2] Hu H., Wen Y., Chua T.-S., Li X. Towards scalable systems for big data analytics: a technology tutorial // IEEE Xplore Digital Library. 2014.http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6842585 (Дата обращения: 04.04.2016)
[3] J. Gantz, D. Reinsel. Extracting value from chaos // Proc. IDC iView. 2011. P. 1-12.
[4] Snijders C., Matzat U., Reips U. D. ’Big Data’: Big gaps of knowledge in the field of Internet. // International Journal of Internet Science 7 (2012). P. 1-5.
[5] D. Laney 3D Data Management: Controlling Data Volume, Velocity, and Variety // META Group Inc. File 949. 2001.
[6] P. Zikopoulos, C. Eaton Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data // New York, NY, USA: McGraw-Hill, 2011.
[7] E. Meijer The world according to LINQ // Commun. ACM. vol 54. No 10. P. 45-51. 2011.
[8] J. Manyika et al. Big data: The Next Frontier for Innovation, Competition, and Productivity // McKinsey Global Institute paper. P. 1-137. 2011.
[9] Targio H. et al. "Big data"on cloud computing: Review and open research issues. // Information Systems 47 (2015). P. 98-115.
[10] De Mauro A., Greco M., Grimaldi M. What is big data? A consensual definition and a review of key research topics. // AIP Conference Proceedings (2015). P. 97-104.
[11] M. Cooper, P. Mell Tackling Big Data // 2012.http://csrc.nist.gov/groups/SMA/forum/documents/june2012presentations/fcsm_june2012_cooper_mell.pdf (дата обращения 04.04.2016)
[12] Processing: What to record? [Электронный ресурс] //http://home.cern/about/computing/processing-what-record (дата обращения: 05.04.2016)
[13] HDFS Architecture Guide [Электронный ресурс] //https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html (дата обращения: 05.04.2016)
[14] Tredger S. SageFS: the location aware wide area distributed filesystem [Электронный ресурс]: URL:https://dspace.library.uvic.ca:8443/bitstream/handle/1828/5824/Tredger_Stephen_MSc_2014.pdf?sequence=3&isAllowed=y (дата об-ращения: 07.04.2016)
[15] NoSQL Databases Explained [Электронный ресурс] //https://www.mongodb.com/nosql-explained (дата обращения: 05.04.2016)
[16] I.Katsov, D. Kirkdorffer NoSQL Data Modeling Techniques [Электронный ресурс] //https://highlyscalable.wordpress.com/2012/03/01/nosql-data-modeling-techniques/ (дата обращения: 05.04.2016)
[17] E. Nightingale, J. Elson, J. Fan, O. Hofmann, J. Howell, Y. Suzue, Flat Datacenter Storage // 10th USENIX Symposium on Operating Systems Design and Implementation (OSDI ’12)
[18] V. Sandeep, K. Yerlanki, Flat Datacenter Storage [Электронный ресурс] //http://www.ece.eng.wayne.edu/~sjiang/ECE7650-winter-15/topic4A-S.pdf (дата обращения: 11.04.2016)
[19] C. Modi, Flat Datacenter Storage [Электронный ресурс] //http://www.ece.eng.wayne.edu/~sjiang/ECE7650-winter-15/topic4B-S.pdf (дата обращения: 11.04.2016)
[20] Соловьев П.А. Использование сетевых файловых систем с запоминанием физического адреса данных для ускорения обработки больших объемов пространственных данных // Процессы управления и устойчивость. 2015. Т. 2(18). № 1. С. 509-514.
[21] J. Dean, S. Ghemawat, MapReduce: Simplified Data Processing on Large Clusters [Электронный ресурс] //http://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf (дата обращения: 15.04.2016)
[22] H. Lin et al, MOON: MapReduce On Opportunistic eNvironments [Электронный ресурс] //http://eprints.cs.vt.edu/archive/00001089/01/moon.pdf (дата об-ращения: 15.04.2016)
[23] C. Yang, C. Yen, C. Tan, S. R. Madden, Osprey: Implementing MapReduce-Style Fault Tolerance in a Shared-Nothing Distributed Database [Электронный ресурс] //http://db.csail.mit.edu/pubs/OspreyDB.pdf (дата обращения: 15.04.2016)
[24] Z. Ma, L. Gu, The limitation of MapReduce: A probing case and a lightweight solution // Proceeding of the 1st Intl. Conf. on Cloud Computing, GRIDs, and Virtualization, 2010.
[25] Z. Ma, K. Hong, L. Gu, MapReduce-style Computation in Distributed Virtual Memory [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.394.115&rep=rep1&type=pdf (дата обращения: 15.04.2016)
[26] M. A. Kozuch et al, Tashi: Location-aware Cluster Management [Электронный ресурс] //http://www.pdl.cmu.edu/PDL-FTP/Storage/tashi-acdc2009.pdf (дата обращения: 16.04.2016)
[27] сайт директивы INSPIRE Европейского Сообщества //http://inspire.jrc.ec.europa.eu/
[28] S. Tschirner, A. Scherp, S. Staab, Semantic access to INSPIRE: how to publish and query advanced GML data [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.662.5258&rep=rep1&type=pdf (дата обращения: 26.04.2016)
[29] M. Zhang el al, TerraFly GeoCloud: An Online Spatial Data Analysis and Visualization System [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.705.6789&rep=rep1&type=pdf (дата обращения: 26.04.2016)
[30] W. Kuhn, Geospatial Semantics: Why, of What, and How [Электронный ресурс] //http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.504.1688&rep=rep1&type=pdf (дата обращения: 26.04.2016)
[31] A. Crow, S. Aerni, H. Farinas, R. Radhakrishnan, G. Muralidhar, Data Science How To: Massively Parallel, In-Database Image Processing [Электронный ресурс] //https://blog.pivotal.io/big-data-pivotal/features/data-science-how-to-massively-parallel-in-database-image-processing-part-1(дата обращения: 28.04.2016)
[32] Y. Yan, L. Huang, Large-Scale Image Processing Research Cloud [Электронный ресурс] //https://www.thinkmind.org/download.php?articleid=cloud_computing_2014_4_20_20069 (дата обращения: 28.04.2016)
[33] Oracle Spatial GeoRaster Developer’s Guide [Электронный ресурс]: URL:http://docs.oracle.com/cd/B28359_01/appdev.111/b28398/geor_intro.htm (дата обращения: 09.03.2015)
[34] Xu Hong, Mangtani P. Managing imagery and raster data using mosaic datasets // ESRI International User Conference. Technical Workshop. 2012.
[35] Описание возможностей файлового формата BigTiff [Электронный ресурс] // http://bigtiff.org/ (дата обращения: 10.05.2016)
[36] The BigTIFF File Format Proposal [Электронный ресурс] //http://www.awaresystems.be/imaging/tiff/bigtiff.html (дата обращения: 10.05.2016)
[37] Y. Pessach, Distributed Storage: Concepts, Algorithms and Implementations // CreateSpace Independent Publishing Platform; 1 edition. 2013
[38] P. Bailis, A. Ghodsi, Eventual Consistency Today: Limitations, Extensions, and Beyond // ACM Queue, Vol. 11, Issue 3. 2013
[39] Запорожченко А. В., Картографические проекции и методика и выбора для создания карт различных типов // Ногинск: Панорама, 1991-2007. 148 с.
[40] Официальный сайт библиотеки GDAL [Электронный ресурс] //http://www.gdal.org/ (дата обращения: 10.05.2016)
[41] Афонин А. Н., Грин С. Л., Дзюбенко Н. И., Фролов А. Н. (ред.) Агроэкологический атлас России и сопредельных стран: экономически значимые растения, их вредители, болезни и сорные растения. 2008. 1 электрон. опт. диск (DVD).
[42] Афонин А. Н., Ли Ю. С., Эколого-географический подход на базе географических информационных технологий в изучении экологии и распространения биологических объектов // BioGIS Journal. 2011, N 1.
[43] Carpenter G., Gillison A. N., Winter J., DOMAIN: a flexible modelling procedure for mapping potential distributions of plants and animals. // Biodiversity and Conservation 2, 1993. С. 667-680.
[44] J. Fung, S. Mann, Using Multiple Graphics Cards as a General Purpose Parallel Computer: Applications to Computer Vision // Proceedings of the 17th International Conference on Pattern Recognition (ICPR2004), vol. 1, pp. 805-808
[45] D. Goddeke, Fast and Accurate Finite-Element Multigrid Solvers for PDE Simulations on GPU Clusters. [Электронный ресурс] //http://d-nb.info/100545535X/34 (дата обращения: 15.05.2016)
[46] Документация по протоколу WMS [Электронный ресурс] //http://www.opengeospatial.org/standards/wms (дата обращения: 15.05.2016)
[47] Репозиторий клиентской библиотеки SageFS [Электронный ресурс] //https://github.com/stredger/sagefs (дата обращения: 15.05.2016)
[48] M. Y. Eltabakh, Y. Tian, F. Ozcab, R. Gemulla, A. Krettek, J. McPherson, CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop [Электронный ресурс] //http://researcher.watson.ibm.com/researcher/files/us-ytian/colocation.pdf (дата обращения: 19.05.2016)
[49] M. G. Ferriera, Replication and Data Placement in Distributed Key-Value Stores [Электронный ресурс] //http://www.gsd.inesc-id.pt/~ler/reports/manuelferreira-midterm.pdf (дата обращения: 19.05.2016)