Тип работы:
Предмет:
Язык работы:


Адаптация фреймворка BGX для консенсуса горизонтально интегрированной среды

Работа №129427

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы32
Год сдачи2020
Стоимость4270 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
17
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Качество данных 8
1.1. Понятие качества данных 8
1.2. Качество больших данных 12
1.3. Блокчейн и качество данных 14
Глава 2. Платформа DGT 16
2.1. Архитектура и особенности работы DGT 16
2.2. Методика учета качества поверх DGT 21
Глава 3. Построение семейства транзакций 25
3.1. Пример реализации семейства транзакций 25
3.2. Результаты работы 26
Выводы 29
Заключение 30
Список литературы


Сегодня человечество живет в эпоху цифровизации, когда неразрывным спутником повседневной жизни является широкое применение технологий: многочисленные IT системы, работа пользователей в социальных сетях, сайты в Internet ежесекундно создают 109 байт. Это приводит к значительному росту объема данных, вариативности источников информации, скорости их изменения. Согласно отчету [1] 90% данных было создано за последние несколько лет.
Но ценность данных, возможность извлекать из них знания, принимать решения — существенно зависит от качества. Для упорядоченных, регулярных (структурированных) данных были найдены простые и эффективные решения, внедренные в инструменты управления данными. Однако, в случае больших данных (Big Data) контролировать качество значительно сложнее из-за большого разнообразия их источников, которые порождают конфликты, противоречия, потери связей и другие проблемы.
Наиболее критично вопрос о качестве данных возникает в важнейшей для цифровой экономике проблеме — построении обоснованных консенсусов.
Постановка задачи
Переход к консенсусу в горизонтально интегрированной структуре упирается в целый ряд проблем: малая скорость транзакций, трудности с глобальным арбитражем, и так далее. Но все они упираются в проблему повышения качества данных. Блокчейн обладает свойствами неизменяемости и обеспечения целостности, что исключает возможность изменения данных, записанных в блокчейн, и тем самым улучшает контроль качества. Консенсус F-BFT хорошо подходит, как для построения горизонтально интегрированной системы, так как может быть масштабирован вертикально и горизонтально, так и для контроля качества данных.
Примером контроля качества данных на базе консенсуса F -BFT могут быть написанные семейства транзакций, которые отбирают данные по заданному критерию. Поэтому для демонстрации качества контроля данных в качестве такого примера был выбран процессор транзакций, контролирующий качество данных при вставке в реестр транзакций информации по ценным бумагам.
Поставленная задача может быть разделена на следующие подзадачи:
1) изучение понятия качества данных и метрик качества;
2) изучение контроля качества данных при помощи технологии блокчейн;
3) изучение архитектуры DGT;
4) написание процессора транзакций для контроля качества данных.
Обзор литературы
Согласно [2] (Gartner Report) значительного прогресса в вопросе качества больших данных можно достичь за счет проверок в реальном времени и создания надежной среды хранения распределенных данных с помощью блокчейн технологий. В этом направлении ведется целый ряд исследований, например, [3], в которых предлагается проводить такие проверки непосредственно в реальном времени за счет валидации при вставке данных в распределенный реестр или с использованием смарт- контрактов, обеспечивающих проверку данных.
В то же время нельзя не отметить, что прямое использование классических блокчейн-систем для контроля качества данных имеет ряд ограничений:
• Скорость работы и возможность масштабирования классических блокчейн сетей ограничены энергозатратными механизмами проверки (механизмы консенсуса) и не могут обеспечить высокопроизводительную обработку данных;
• Поддержка публичных сетей за счет механизмов майнинга или подобных вероятностных методов является дорогой с точки зрения использования вычислительных мощностей на единицу обрабатываемых данных;
• Блокчейн сети часто используют для своей работы GOSSIP - протоколы, порождающие избыточный трафик, который затрудняет работу с потоковыми данными, превалирующими над традиционной пакетной обработкой.
Учитывая перечисленное выше, представляется актуальным использование решений распределенной обработки данных гибридного характера: сохраняющими основные положительные свойства блокчейна в части проверок в реальном времени и хранения неизменной копии реестра, но уклоняющихся от отмеченных выше недостатков.
Ниже представлено решение на базе платформы DGT, представляющее собой распределенную гибридную сеть с возможностью хранения распределенного реестра в виде DAG (Directed Acyclic Graph). Платформа работает с использованием консенсуса F-BFT [4], позволяющего проводить проверки качества данных в реальном времени без падения скорости из-за конкуренции узлов.
Общий механизм предлагаемого решения дается следующим алгоритмом:
• Один из узлов (виртуальных серверов) сети пытается вставить данные в реестр. Для этого он должен валидировать информацию за счет ее проверки с другими узлами;
• Для этой цели узел отправляет данные с использованием специального механизма пермалинков в топологически соседние узлы, каждый из которых проверяет данные на предмет их соответствия правилам валидации (корректность, имеются ли уже копии таких данных в реестре, соответствуют ли данные правилам полноты и т.п.);
• Если данные прошли проверку, соседние узлы «голосуют за вставку» и данные добавляются узлом-лидером, поддерживающим группу узлов;
• В процессе проверок могут осуществляться коррекции данные, характеризующие как сам пакет (микро-пакет) данных, так и его источник. Это обстоятельство позволяет непосредственно в процессе обработки оценивать метрику качества данных, как это сделано, например, в [5].
Поскольку DGT является мульти-транзакционной сетью (одновременно допустимы разные семейства транзакций), для моделирования вопросов обработки качества в настоящей работе представлено отдельное семейство транзакций, которое имитирует вставку в реестр транзакций по ценным бумагам.
Данный пример выбран как важный случай потоковых данных, позволяющих оценить и сам источник, и качество информации по торгам (например, насколько она изменяется искусственно). Поскольку такие данные могут поступать из разных источников, само поведение систем в значительной степени контролируются торговыми алгоритмами и ботами, оценка качества данных может быть выполнена за счет статистического анализа тиковых баров (tick bars - минимальных движений цен по каждой акции).


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Контроль качества данных является одной из важнейших задач. На основе данных принимаются решения, и качество данных играет огромную роль в получении нужных результатов. В данной работе представлен пример использования DGT для контроля качества данных на базе консенсуса F-BFT. Изучены преимущества использования блокчейн для контроля данных и архитектура DGT.


[1] IBM Marketing Cloud, “10 Key Marketing Trends For 2017”
[Электронный ресурс]: URL: https://totallygaming.com/eventblog/ice-
live/ibm-marketing-experts-predict- 10-key-marketing-trends-2017 (дата
обращения: 30.05.2020).
[2] Predicts 2020: Data and Analytics Strategies — Invest, Influence and Impact,
Gartner Report, 2019 [Электронный ресурс]: URL:
https://www.gartner.com/en/newsroom/press-releases/2020-01 -30-gartner-predicts-that-organizations-using-blockchain- (дата обращения 30.05.2020) .
[3] Hao Dai, H Patrick Young, Thomas JS Durant TrialChain: A Blockchain¬
Based Platform to Validate Data Integrity in Large, Biomedical Research Studies // arXiv:1807.03662. 2018.
[4] Bogdanov A., Uteshev A., Khvatov V. Error Detection in the Decentralized
Voting Protocol // Computational Science and Its Applications - ICCSA 2019. ICCSA 2019. 2019. LNCS 11620, Springer. P. 485-494.
[5] Courtney Napoles, Keisuke Sakaguchi, Matt Post, Joel Tetreault. Ground
Truth for Grammatical Error Correction Metrics, Johns // Hopkins University. 2016.
[6] List of Conformed Dimensions of Data Quality, CDDQ Open Standard
[Электронный ресурс]: URL:
http://dimensionsofdataquality.com/alldimensions (дата обращения
30.05.2020).
[7] John Bauman Data quality management: What you need to know.
[Электронный ресурс] URL:
https: //www.sas .com/en_us/insights/articles/data-management/data-quality- management-what-you-need-to-know.html (дата обращения 30.05.2020).
[8] Bogdanov A., Degtyarev A., Shchegoleva N., Khvatov V. Data Quality in
Decentralized Environment.
[9] Хаммер К., Костроч Д., Кирос Г. и сотрудники Департамента
статистики Большие данные: потенциал, проблемы и применение в статистике // Записка для обсуждения // МВФ. 2017.
[10] . Wells D. A Data Quality Framework for Big Data [Электронный ресурс]:
URL: https://www.eckerson.com/articles/a-data-quality-framework-for-big-
data (дата обращения 30.05.2020).
[11] . Predicts 2020: Data and Analytics Strategies — Invest, Influence and Impact,
Gartner Report, 2019 [Электронный ресурс]: URL:
https://www.gartner.com/en/newsroom/press-releases/2020-01 -30-gartner-predicts-that-organizations-using-blockchain- (дата обращения 30.05.2020) .
[12] . Cappiello C., Comuzzi M., Daniel F., Meroni G. Data Quality Control in Blockchain Applications // Di Ciccio C. et al. (eds) Business Process Management: Blockchain and Central and Eastern Europe Forum. BPM 2019. Lecture Notes in Business Information Processing. Vol 361. P.166—181.
[13] . Bogdanov A., Degtyarev A., Shchegoleva N., Khvatov V. Data Quality in Decentralized Environment.
[14] . Исходный код процессора транзакций [Электронный ресурс]: URL: https://github.com/AlTimofeevM/DataQuality(дата обращения 30.05.2020).
[15] . CryptoDatum.io API documentation [Электронный ресурс]: URL:
https://documenter.getpostman.com/view/7244886/S1ENzJzL?version=latest(дата обращения 30.05.2020).
[16] . Gerard Martinez Advanced candlesticks for machine learning (i): tick bars
[Электронный ресурс]: URL: https://towardsdatascience.com/advanced-
candlesticks-for-machine-learning-i-tick-bars-a8b93728b4c5 (дата обращения 30.05.2020).


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ