Тема: Сравнительный анализ движков для работы с Big Data
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Обзор технологий для обработки и хранения Больших данных 5
1.1. Big Data 5
1.2. Apache Hadoop 8
1.3. Hadoop MapReduce 11
1.4. Apache Spark 14
1.5 CouchDB 18
1.6 MongoDB 22
Глава 2. Оценка эффективности на практике 26
2.1. Тестовая задача 26
2.2. Алгоритм решения 27
2.3. Полигон исследования 28
2.4. Проведение тестов 29
Заключение 31
Список литературы 32
📖 Введение
Помимо обработки, данные также нуждаются в хранении. На сегодняшний день популярным решением являются NoSQL базы данных, которые позволяют хранить слабоструктурированные данные и обладают способностью к горизонтальному масштабированию. Распределенность данных физически означает, что связь между вычислительным узлом кластера и сервером базы данных в рамках организованной сети может состоять из двух и более маршрутизаторов.
В данной исследовательской работе была поставлена следующая цель - выбрать задачу и провести сравнительный анализ работы движка и СУБД в связке, выявить наиболее эффективную пару при условии взаимодействия вычислительного кластера и сервера базы данных по глобальной сети.
Для достижение поставленной цели исследования были определены следующие задачи:
• Рассмотреть существующие технологии для обработки Больших Данных и их хранения.
• Выбрать и реализовать тестовую задачу
• Провести тесты, оценить время работы и эффективность технологий в паре.
• Определить наиболее эффективную пару.
✅ Заключение
Проведен эксперимент по использованию данных технологий в связке. В результате эксперимента было выяснено, что NoSQL СУБД CouchDB проигрывает в скорости MongoDB при взаимодействии с Hadoop MapReduce и Apache Spark. При работе с удаленной базой данных разницы в эффективности между Hadoop MapReduce и Apache Spark не выявлено, т.к. скорость работы ограничена скоростью Сети.
При небольших объемах данных в рамках одной базы данных MongoDB можно воспользоваться возможностью запускать MapReduce задачи, т.к. это может оказаться быстрее, чем скачивать данные по Сети.





