Введение 3
Глава 1 Анализ современного состояния проблемы повышения эффективности систем сбора и обработки больших массивов данных 7
1.1 Современное представление о системах транзакционной обработки
данных 7
1.2 Принципы построения систем транзакционной обработки данных 11
1.3 Методологические основы моделирования систем транзакционной
обработки данных 14
Глава 2 Анализ и выбор методологии разработки высокоэффективных систем
сбора и обработки больших массивов данных 20
2.1 Обзор и анализ технологий управления эффективностью систем сбора и
обработки больших массивов данных 20
2.2 Архитектура распределенных баз данных 22
2.3 Технология NoSQL 26
2.4 Технология NewSQL 29
2.5 Обзор и анализ СУБД класса NewSQL 33
2.6 Технология In-memory 39
Глава 3 Разработка модели эффективной системы сбора и обработки больших массивов данных и оценка ее эффективности 45
3.1 Выбор методологии моделирования OLTP-системы для сбора и
обработки больших массивов данных 45
3.2 Разработка логической модели OLTP-системы для сбора и обработки
больших массивов данных 46
3.3 Разработка физической модели OLTP-системы для сбора и обработки
больших массивов данных 48
3.4 Проверка адекватности модели системы сбора и обработки больших
массивов данных 60
Заключение 68
Список используемой литературы 70
Как известно, для сбора и обработки информации используются системы оперативной транзакционной обработки данных - OLTP-системы.
В настоящее время предъявляются повышенные требования к эффективности указанных систем, приближая их характеристики к системам реального времени.
Решения данной проблемы существенно усложняется, если объектом обработки являются большие массивы данных, неограниченных источником которых является Интернет вещей.
Под большими массивами данных в рассматриваемом контексте понимаются большие структурированные данные.
Следует также отметить, что некоторые предприятия и компании социально-экономической сферы могут использовать различные источники внешних данных и объединять их со своей транзакционными данными.
Как показывает практика, эффективность OLTP-системы зависит от модели, положенной в ее основу в процессе проектирования.
Актуальность темы исследования обусловлена необходимостью разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности указанной системы.
Объектом исследования магистерской диссертации являются системы сбора и обработки больших массивов данных.
Предметом исследования является модель системы сбора и обработки больших массивов данных.
Целью работы является разработка модели эффективной системы сбора и обработки больших массивов данных.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проанализировать современное состояние проблемы исследования.
2. Проанализировать и выбрать методологию разработки высокоэффективных систем сбора и обработки больших массивов
данных.
3. Разработать модель системы сбора и обработки больших массивов данных.
4. Проверить адекватность предлагаемой модели.
Гипотеза исследования: применение предлагаемой модели в качестве основы для построения системы сбора и обработки больших массивов данных позволит повысить эффективность последней.
Методы исследования. В процессе исследования будут использованы следующие положения и методы: системный анализ, методологии и технологии построения OLTP-систем.
Новизна исследования заключается в разработке модели эффективной системы сбора и обработки больших массивов данных.
Практическая значимость исследования заключается в возможности практического применения предлагаемой модели для построения эффективной системы сбора и обработки больших массивов данных.
Теоретической основой диссертационного исследования являются научные труды российских и зарубежных ученых, занимающихся проблемами моделирования и повышения эффективности OLTP-систем.
Основные этапы исследования: исследование проводилось с 2018 по 2020 год в несколько этапов:
На первом этапе (констатирующем этапе) - формулировалась тема исследования, выполнялся сбор информации по теме исследования из различных источников, проводилась формулировка гипотезы, определялись постановка цели, задач, предмета исследования, объекта исследования и выполнялось определение проблематики данного исследования.
Второй этап (поисковый этап) - в ходе проведения данного этапа осуществлялся анализ методологий моделирования OLTP-систем, была разработана модель эффективной системы сбора и обработки больших массивов данных, подготовлены и опубликованы научные статьи по теме исследования в научных журналах и сборниках.
Третий этап (оценка эффективности) - на данном этапе осуществлялась оценка эффективности и проверка адекватности предлагаемой модели системы сбора и обработки больших массивов данных, сформулированы выводы о полученных результатах по проведенному исследованию.
На защиту выносятся:
1. Модель эффективной системы сбора и обработки больших массивов данных.
2. Результаты проверки адекватности предлагаемой модели системы сбора и обработки больших массивов данных.
По теме исследования опубликованы 2 статьи:
1. Кондрусева С.А. Технологии сбора и обработки больших массивов информации // В сборнике: Прикладная математика и информатика: современные исследования в области естественных и технических наук. Материалы VI Международной научно-практической конференции (школы-семинара) молодых ученых. 2020 (принята к публикации).
2. Кондрусева С.А. Методы повышения эффективности OLTP-систем // Вестник научных конференций. 2020. N 5-3(57). С. 52-53. https://ukonf.com/doc/cn.2020.05.03.pdf
Диссертация состоит из введения, трех глав, заключения и списка литературы.
В первой главе проанализировано современное состояния проблемы повышения эффективности систем сбора и обработки больших массивов данных. Рассмотрено современное представление о системах транзакционной обработки данных. Описаны принципы построения систем транзакционной обработки данных и методологические основы их моделирования.
Вторая глава посвящена анализу и выбору методологии разработки высокоэффективных систем сбора и обработки больших массивов данных .
Даны обзор и анализ технологий управления эффективностью систем сбора и обработки больших массивов данных. Рассмотрены технологии распределенных баз данных, NoSQL, NewSQL и In-Memory. Дан сравнительный анализ представленных технологий. Дан сравнительный анализ и выбран подход к моделированию предметно-ориентированной OLTP-системы.
Третья глава посвящена непосредственно разработке логической и физической моделей эффективной системы сбора и обработки больших массивов данных и оценка ее эффективности.
Произведен выбор методологии разработки логической модели. На основе созданной модели разработана физическая модель OLTP-системы, представляющая ее программную реализацию.
Проведен эксперимент для оценки эффективности OLTP-системы и проверке адекватности предлагаемой модели.
В заключении приводятся результаты исследования.
В настоящее время к OLTP-системам предъявляются повышенные требования к эффективности указанных систем, приближая их характеристики к системам реального времени.
Решения данной проблемы существенно усложняется, если объектом обработки являются большие массивы данных, неограниченных источником которых является Интернет вещей.
Магистерская диссертация посвящена актуальной проблеме разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности указанной системы.
Выполненные в работе научные исследования представлены следующими основными результатами:
1. Проанализировано современное состояние проблемы повышения эффективности OLTP-систем. Как, показал анализ принципы построения OLTP-систем распространяются на решения, предназначенные для обработки больших массивов данных. Вместе с тем анализ позволил констатировать недостаточность работ по проблематике моделирования OLTP-систем для обработки больших данных, что подтверждает актуальность темы магистерской диссертации.
2. Произведены анализ и выбор методологии и технологии моделирования системы сбора и обработки больших массивов данных. Отмечено, что в последнее время для повышения эффективности систем обработки больших массивов данных применяются технологии NoSQL, NewSQL и In-memory. На основании представленного анализа в качестве методологии разработки выбран комплексный подход, использующий лучшие мировые практики обеспечения высокой эффективности OLTP-систем для больших массивов данных.
3. Разработана модель системы сбора и обработки больших массивов данных. Для разработки логической модели эффективной OLTP-системы для сбора и обработки больших массивов данных использованы диаграммы компонентов и развертывания UML, отражающие соответственно компоненты системы и связи между ними, а также ее топологию. На основе предложенной модели в двухзвенной архитектуре выполнена реализация OLTP-системы для сбора и обработки больших массивов данных. В качестве сервера баз данных OLTP-системы использована версия промышленной СУБД MS SQL Server 2017. В качестве клиента использована среда MS SQL Server Management Studio.
4. Для оценки эффективности системы сбора и обработки больших массивов данных, разработанной на основе предлагаемой модели, был проведен эксперимент, который подтвердил эффективность OLTP-системы, а, следовательно, - адекватность предложенной модели.
Таким образом, в работе решена актуальная научно-практическая проблема разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности последней .
Гипотеза исследования подтверждена.
Значение диссертационной работы определяется тем, что в ее рамках исследованы возможности повышения эффективности системы сбора и обработки больших массивов данных.
1. Братченко Н. Ю. Распределенные базы данных : учебное пособие. Ставрополь : Северо-Кавказский федеральный университет, 2015. 130 c. URL: http://www.iprbookshop.ru/63130.html (дата обращения: 30.10.2020).
2. Бурков А. В. Проектирование информационных систем в Microsoft
SQL Server 2008 и Visual Studio 2008 : учебное пособие. Москва, Саратов : Интернет-Университет Информационных Технологий (ИНТУИТ), Ай Пи Ар Медиа, 2020. 310 c. [Электронный ресурс]. URL:
http://www.iprbookshop.ru/89466.html (дата обращения: 23.09.2020).
3. ГОСТ 19781-90 Единая система программной документации. Обеспечение систем обработки информации программное. Термины и определения.
4. ГОСТ 20886-85 Организация данных в системах обработки данных. Термины и определения.
5. ГОСТ 34.003-90 Информационная технология (ИТ). Комплекс стандартов на автоматизированные системы. Термины и определения.
6. ГОСТ 34.321-96 Информационные технологии. Система стандартов по базам данных. Эталонная модель управления данными.
7. Дейт Е.Дж. SQL и реляционная теория. М.: Символ-Плюс, 2010. 480с.
8. Зудилова Т.В., Шмелева Г.Ю. Создание запросов в Microsoft SQL Server 2008. СПб: НИУ ИТМО, 2013. 149 с.
9. Как создать таблицу, оптимизированную для памяти? Технология In¬Memory OLTP в Microsoft SQL Server [Электронный ресурс]. URL: https://info- comp.ru/obucheniest/679-create-table-in-memory-ottp.html (дата обращения: 30.10.2020).
10. Корпорация Oracle [Электронный ресурс]. URL:
https://www.oracle.com/index.html (дата обращения: 23.09.2020).
11. Леоненков А. В. Объектно-ориентированный анализ и
проектирование с использованием UML и IBM Rational Rose : учебное пособие. Москва : Интернет-Университет Информационных Технологий (ИНТУИТ), Ай Пи Ар Медиа, 2020. 317 c. URL:
http://www.iprbookshop.ru/97554.html (дата обращения: 30.10.2020).
12. Обзор основных нововведений в Microsoft SQL Server 2017 [Электронный ресурс]. URL: https://info-comp.ru/novosti/594-review-microsoft- sql-server-2017.html (дата обращения: 30.10.2020).
13. Самуйлов С.В. Объектно-ориентированное моделирование на
основе UML [Электронный ресурс]: учебное пособие. Саратов: Вузовское образование, 2016. 37 c. URL: http://www.iprbookshop.ru/47277.html (дата
обращения: 30.10.2020).
14. СУБД NuoDB Database [Электронный ресурс]. URL: http://doc.nuodb.com/Latest/Default.htm (дата обращения: 23.09.2020).
15. СУБД VoltDB [Электронный ресурс]. URL:
https://www.voltdb.com/ (дата обращения: 23.09.2020).
16. A Comparison of Data Modeling Methods for Big Data [Электронный ресурс]. URL:https://dzone.com/articles/a-comparison-of-data-modeling-methods- for-big- data#:~:text=Modeling%20Methodology%20for%20OLTP%20and,and%20incons istency%20in%20transaction%20processing (дата обращения: 23.09.2020).
17. ACID [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/ACID (дата обращения: 23.09.2020).
18. Alinous-elastic-db [Электронный ресурс]. URL:
https://github.com/alinous-core/alinous-elastic-db (дата обращения: 23.09.2020).
19. Brewer Eric A. Towards robust distributed systems. (Invited Talk) Principles of Distributed Computing, Portland, Oregon, July 2000.
20. Deployment Diagram Tutorial [Электронный ресурс]. URL: https://www.lucidchart.com/pages/uml-deployment-diagram (дата обращения: 30.10.2020).
21. Diaconu С. Hekaton: SQL Server’s Memory-Optimized OLTP Engine, Conference Paper, June 2013.
22. Gartner Glossary [Электронный ресурс]. URL:
https://www. gartner. com/en/information-technology/glossary (дата обращения: 23.09.2020).
23. Hive как инструмент для ETL или ELT [Электронный ресурс].
URL: https://www.ibm.com/developerworks/ru/library/bd-hivetool/index.html
(дата обращения: 23.09.2020).
24. Improving Online Transaction Processing Systems with SSDs
[Электронный ресурс]. URL:
https://insights.samsung.com/2018/01/23/improving-online-transaction-processing- systems-with-ssds/ (дата обращения: 23.09.2020).
25. Information Systems Effectiveness Measures [Электронный ресурс].
URL: https://tech-talk.org/2015/03/10/information-systems-effectiveness-
measures/ (дата обращения: 30.10.2020).
26. In-Memory Processing [Электронный ресурс]. URL:
https://hazelcast.com/glossary/in-memory-processing/ (дата обращения:
23.09.2020).
27. Introducing SQL Server In-Memory OLTP [Электронный ресурс]. URL: https://www.red-gate.com/simple-talk/sql/learn-sql-server/introducing-sql- server-in-memory-oltp/ (дата обращения: 23.09.2020).
28. McCarthy W. The REA Accounting Model: A Generalized Framework for Accounting System in a Shared Data Environment, 1982.
29. Mkrtychev S. Methodology to design management accounting information systems, CEUR Workshop Proceedings. 2018. №2258. P. 21-28.
30. Murthy U.S., Geerts G.L. An REA Ontology-Based Model for Mapping Big Data to Accounting Information Systems Elements, Journal of Information Systems 31(3), 2017.
31. OLTP (online transaction processing) [Электронный ресурс]. URL:
https://searchdatacenter.techtarget.com/definition/OLTP (дата обращения:
23.09.2020).
32. OLTP [Электронный ресурс]. URL: http://sewiki.ru/OLTP (дата обращения: 23.09.2020).
33. Speelpenning J., Daux P., Gallus J. Data Modeling and Relational Database Design, Oracle Corporation, 1998, 1999,2001.
34. The Benefits of Optimizing OLTP Databases Using IBM eXFlash
Solid-State Drives [Электронный ресурс]. URL:
https://lenovopress.com/redp4849.pdf (дата обращения: 30.10.2020).
35. Transactional data [Электронный ресурс]. URL:
https://docs.microsoft.com/en-us/azure/architecture/data-guide/relational- data/online-transaction-processing (дата обращения