Тема: Исследование архитектур построения и алгоритмов работы систем хранения и анализа больших данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Процесс анализа больших данных 6
1.1 Роль больших данных в развитии Data Science 6
1.2 Понятие и особенности больших данных 13
1.3 Процесс Big Data 16
2 Архитектуры построения систем хранения и анализа больших данных 20
2.1 Виды архитектурных решений больших данных 20
2.2 Экосистема больших данных 24
2.3 Обобщенная архитектура систем хранения и анализа больших данных 26
2.4 Виды и области применения NoSQL баз данных 33
2.4.1 Столбцовые БД 37
2.4.2 NoSQL базы данных «ключ-значение» 38
2.4.3 Документальные NoSQL базы данных 38
2.4.4 Графовые NoSQL базы данных 39
2.5 Дистрибутивы для развертывания систем хранения и анализа больших
данных 40
3 Алгоритмы систем хранения и анализа больших данных 44
3.1 Методы получения, обработки и анализа больших данных 45
3.2 Способы и технологии получения больших данных 48
3.2.1 Вэб-скрепинг 51
3.2.2 Веб-сканирование 52
3.2.3 Доступ к данным через API Интернет ресурсов 57
3.3 Очистка данных 65
3.4 Загрузка данных в систему хранения и анализа больших данных 73
Заключение 77
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 79
Приложение А Код веб-скрепинга 86
Приложение Б Код веб-сканера 87
Приложение В Код просмотра набора данных портала открытых данных РФ . 90
Приложение Г Код загрузки набора данных с портала открытых данных РФ .. 91
Приложение Д Код приложений для анализа и чтения CSV файлов 93
📖 Введение
В соответствии с национальной программой «Цифровая экономика Российской Федерации» количество опорных центров обработки данных должно быть увеличено с двух в 2018 году к восьми в 2024 [1, 2]. Общий объем финансирования программы составляет 1634,9 млрд. руб. Выполнение указанной программы основано на структуре из шести федеральных проектов, среди которых присутствуют следующие:
• Информационная инфраструктура;
• Информационная безопасность;
• Цифровые технологии;
• Цифровое государственное управление.
В соответствии с паспортами указанных проектов предполагается значительное увеличение объемов хранимых и анализируемых данных.
Тольяттинский государственный университет в 2018 году включён в перечень организаций, рекомендованных для присвоения статуса Федеральной инновационной площадки. Проект «Умный университет», предложенный ТГУ, признан одним из наиболее значимых инновационных образовательных проектов в 2018 году и предполагает цифровую трансформацию процессов вуза [62]. Кроме того, программа трансформации университета предусматривает широкое внедрение цифровых технологий и становление ТГУ как цифрового университета. Однако, в университете отсутствует достаточный опыт практического использования технологий хранения и анализа больших данных.
Таким образом, актуальность магистерской работы обусловлена необходимостью апробации технологий и систем хранения и анализа больших данных.
Объектом исследования процессы хранения и анализа больших данных.
Предметом исследования является системы хранения и анализа больших данных.
Целью работы является апробация этапов доступа, очистки и загрузки в системы хранения и анализа больших данных и выдача практических рекомендаций по реализации указанных этапов.
Для достижения поставленной цели были выделены следующие задачи:
• проанализировать процесс анализа и хранения больших данных;
• проанализировать подходы к построению систем хранения и анализа больших данных;
• провести исследование способов выполнения этапов доступа, очистки и загрузки данных с использованием Java технологий;
• дать практические рекомендации по реализации и выполнению этапов доступа, очистки и загрузки в систему хранения и анализа больших данных с использованием Java технологий.
Методы исследования. В процессе исследования были использованы следующие методы: методы системного анализа, экспертной оценки, методы объектно-ориентированного анализа и проектирования.
Новизна исследования заключается в разработке практических рекомендаций по реализации этапов доступа, очистки и загрузки данных в систему хранения и анализа больших данных.
Практическая значимость исследования заключается в возможности практического применения апробированных технологий хранения и анализа больших данных.
Теоретической основой диссертационного исследования являются научные труды российских и зарубежных ученых, занимающихся проблемами хранения и анализа больших данных.
На защиту выносятся:
• результаты анализа способов построения систем хранения и анализа больших данных;
• результаты апробации реализации этапов доступа, очистки и загрузки в системы хранения и анализа больших данных.
Публикации. По результатам проведённого исследования подготовлена к печати научная статья.
Диссертация состоит из введения, трех разделов, заключения, списка используемой литературы и приложений.
В первом разделе проанализирована актуальность применения технологий хранения и анализа больших данных. Описаны и проанализированы особенные характеристики больших данных. Рассмотрен процесс Data Science применительно к большим данным.
Во втором разделе выполнен анализ архитектурных и программных решений при построении систем хранения и анализа больших данных. Произведены обзор и анализ применимости NoSQL баз данных.
Третий раздел посвящена апробации использования стандартных и сторонних библиотек языка Java при реализации этапов доступа, очистки и загрузки в системы хранения и анализа больших данных.
В заключении приводятся результаты исследования.
Работа изложена на 86 страницах, включает 44 рисунка и 5 приложений.
Магистерская диссертация выполнена по заданию Центра IT Student Тольяттинского государственного университета.
✅ Заключение
Выполненные в работе научные исследования представлены следующими основными результатами:
1. Проведен анализ архитектур построения систем хранения и анализа больших данных. Показано, что на начальных этапах целесообразно использовать дистрибутивы для развертывания рассматриваемых систем с учетом пакетной или потоковой обработки данных.
2. Произведен обзор применимости четырех видов NoSQL баз данных. Рассмотрены области их применимости.
3. С использованием стандартных и сторонних Java библиотек апробированы методы веб-сканирования и веб-скрепинга, как дополнительные методы получения внешних данных.
4. Апробирован доступ к российским Интернет источникам открытых данных с использованием JSON и CSV технологий. Разработаны алгоритмы получения информации об открытых наборах данных, скачивания наборов и их очистки.
5. Апробированы два способа загрузки данных в распределенную файловую систему Hadoop системы хранения и анализа больших данных, развернутой на основе Hortonworks HDP.
Исследованный комплекс технологий, алгоритмов и их реализаций на языке Java показал свою работоспособность и возможность его применения при дальнейших исследованиях в области больших данных.
Таким образом, в представленной магистерской диссертации решена актуальная научно-практическая проблема построения системы хранения и анализа больших данных, а также решены практические вопросы работы по технологии больших данных на первых этапах процесса Data Science.
Результаты проведенного исследования имеют значимый практический интерес и могут быть использованы при проведении научных и прикладных исследований в области больших данных в Центре IT Student, в частности, и в Тольяттинском государственном опорном университете в целом.



