📄Работа №63230

Тема: Исследование возможности сжатия хеш-значений при дедупликации данных

📝

Тип работы Бакалаврская работа

📚

Предмет информационные системы

📄

Объем: 15 листов

📅

Год: 2016

👁️

4355 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 4
1. Постановка задачи 5
2. Предварительная работа 6
3. Идентификаторы блоков 8
4. Представление хеш-значений 9
5. Коллизия хеш-функций 10
6. Обработка коллизий 11
7. Результаты эксперимента с данными 13
8. Заключение 14
Список литературы

📖 Введение

Регулярное резервное копирование является обычной практикой для защиты от аппаратных сбоев и ошибок пользователей. Сжатие данных перед передачей может помочь существенно увеличить пропускную способность[1]. Действенным методом для эффективного уменьшения передаваемых данных является дедупликация[2].
Дедупликация - это метод сжатия массива данных, при котором находятся и удаляются дубликаты данных. Сначала данные разбиваются на блоки, по которым считаются хеш-значения, а затем эти хеш-значения сравниваются, и только при совпадении уже сравниваются сами блоки данных.
В процессе дедупликации генерируется большой массив хеш-значений. Например, для блоков по 4 Кб на 4 Тб данных потребуется 8 Гб памяти только для хеш-значений (если брать алгоритм, в котором 1 хеш занимает 8 байт). Кроме того, требуется память для хранения идентификаторов блоков и других метаданных.
Одной из стадий дедупликации является сравнение полученных хеш-значений с теми, которые уже хранятся в базе данных. Для ускорения процесса сравнения можно хранить список хешей в in-memory базе данных. Но такой способ подходит не для всех хранилищ, т.к. размер in-memory баз данных намного меньше обычных. Поэтому для расширения границ ее использования можно применить сжатие к хеш-значениям перед хранением.

✅ Заключение

В данной работе была рассмотрена задача сжатия хеш-значений в процессе дедупликации. В ходе решения данной задачи были произведены следующие работы:
• Изучение литературы по алгоритмам хеширования и компрессии;
• Разработка структуры данных для дедупликации, которая позволит хранить хеш-таблицу к более компактному виду;
• Разработка программного кода и проведение экспериментов на его основе;
• Сравнение результатов для разных алгоритмов сжатия;
Результаты эксперимента (параграф 7) показывают, что уменьшение затрат на хранение таких метаданных, как хеш-значения и идентификаторов блоков, действительно возможно, и умеренно увеличивает время процесса дедупликации.
В качестве продолжения работы можно предложить реализацию, в которой при переполнении имеющейся in-memory базы данных, часть хеш-значений отправляется во вторичную память.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] P. Shilane, M. Huang, G. Wallace, and W. Hsu. WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression. In Backup Recovery Systems Division EMC Corporation
[2] Data deduplication. http://www.emc.com/corporate/glossary/data-deduplication.htm
[3] Ахо, Хопкрофт и Ульман. Структуры данных и алгоритмы. 2003. С. 116-121
[4] R. Rivest. The MD5 Message-Digest Algorithm. MIT Laboratory for Computer Science and RSA Data Security, Inc. 1992
[5] Penard W, Werkhoven T. On the secure hash algorithm family. 2008
[6] MurmurHash. http://murmurhash.googlepages.com/
[7] Theresa Maxino. Revisiting Fletcher and Adler Checksums Carnegie. Mellon University Student Forum. 2006
[8] Алгоритмы сжатия данных без потерь.http://habrahabr.ru/post/231177/
[9] Алгоритмы сжатия данных без потерь. Часть 2.http://habrahabr.ru/post/235553/
[10] Understanding Pages and Extents. https://msdn.microsoft.com/en-
us/library/ms190969.aspx
[11] Richard E. Smith. Elementary Information Security. 2013. С. 203-205
[12] А. Кладов. Презентация “Надежность хеша для однозначной идентификации данных при дедупликации”. 2011

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208540)

Статьи

»» Все статьи

Вход в личный кабинет