Моделирование системы сбора и обработки больших массивов данных
|
Введение 3
Глава 1 Анализ современного состояния проблемы повышения эффективности систем сбора и обработки больших массивов данных 7
1.1 Современное представление о системах транзакционной обработки
данных 7
1.2 Принципы построения систем транзакционной обработки данных 11
1.3 Методологические основы моделирования систем транзакционной
обработки данных 14
Глава 2 Анализ и выбор методологии разработки высокоэффективных систем
сбора и обработки больших массивов данных 20
2.1 Обзор и анализ технологий управления эффективностью систем сбора и
обработки больших массивов данных 20
2.2 Архитектура распределенных баз данных 22
2.3 Технология NoSQL 26
2.4 Технология NewSQL 29
2.5 Обзор и анализ СУБД класса NewSQL 33
2.6 Технология In-memory 39
Глава 3 Разработка модели эффективной системы сбора и обработки больших массивов данных и оценка ее эффективности 45
3.1 Выбор методологии моделирования OLTP-системы для сбора и
обработки больших массивов данных 45
3.2 Разработка логической модели OLTP-системы для сбора и обработки
больших массивов данных 46
3.3 Разработка физической модели OLTP-системы для сбора и обработки
больших массивов данных 48
3.4 Проверка адекватности модели системы сбора и обработки больших
массивов данных 60
Заключение 68
Список используемой литературы 70
Глава 1 Анализ современного состояния проблемы повышения эффективности систем сбора и обработки больших массивов данных 7
1.1 Современное представление о системах транзакционной обработки
данных 7
1.2 Принципы построения систем транзакционной обработки данных 11
1.3 Методологические основы моделирования систем транзакционной
обработки данных 14
Глава 2 Анализ и выбор методологии разработки высокоэффективных систем
сбора и обработки больших массивов данных 20
2.1 Обзор и анализ технологий управления эффективностью систем сбора и
обработки больших массивов данных 20
2.2 Архитектура распределенных баз данных 22
2.3 Технология NoSQL 26
2.4 Технология NewSQL 29
2.5 Обзор и анализ СУБД класса NewSQL 33
2.6 Технология In-memory 39
Глава 3 Разработка модели эффективной системы сбора и обработки больших массивов данных и оценка ее эффективности 45
3.1 Выбор методологии моделирования OLTP-системы для сбора и
обработки больших массивов данных 45
3.2 Разработка логической модели OLTP-системы для сбора и обработки
больших массивов данных 46
3.3 Разработка физической модели OLTP-системы для сбора и обработки
больших массивов данных 48
3.4 Проверка адекватности модели системы сбора и обработки больших
массивов данных 60
Заключение 68
Список используемой литературы 70
Как известно, для сбора и обработки информации используются системы оперативной транзакционной обработки данных - OLTP-системы.
В настоящее время предъявляются повышенные требования к эффективности указанных систем, приближая их характеристики к системам реального времени.
Решения данной проблемы существенно усложняется, если объектом обработки являются большие массивы данных, неограниченных источником которых является Интернет вещей.
Под большими массивами данных в рассматриваемом контексте понимаются большие структурированные данные.
Следует также отметить, что некоторые предприятия и компании социально-экономической сферы могут использовать различные источники внешних данных и объединять их со своей транзакционными данными.
Как показывает практика, эффективность OLTP-системы зависит от модели, положенной в ее основу в процессе проектирования.
Актуальность темы исследования обусловлена необходимостью разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности указанной системы.
Объектом исследования магистерской диссертации являются системы сбора и обработки больших массивов данных.
Предметом исследования является модель системы сбора и обработки больших массивов данных.
Целью работы является разработка модели эффективной системы сбора и обработки больших массивов данных.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проанализировать современное состояние проблемы исследования.
2. Проанализировать и выбрать методологию разработки высокоэффективных систем сбора и обработки больших массивов
данных.
3. Разработать модель системы сбора и обработки больших массивов данных.
4. Проверить адекватность предлагаемой модели.
Гипотеза исследования: применение предлагаемой модели в качестве основы для построения системы сбора и обработки больших массивов данных позволит повысить эффективность последней.
Методы исследования. В процессе исследования будут использованы следующие положения и методы: системный анализ, методологии и технологии построения OLTP-систем.
Новизна исследования заключается в разработке модели эффективной системы сбора и обработки больших массивов данных.
Практическая значимость исследования заключается в возможности практического применения предлагаемой модели для построения эффективной системы сбора и обработки больших массивов данных.
Теоретической основой диссертационного исследования являются научные труды российских и зарубежных ученых, занимающихся проблемами моделирования и повышения эффективности OLTP-систем.
Основные этапы исследования: исследование проводилось с 2018 по 2020 год в несколько этапов:
На первом этапе (констатирующем этапе) - формулировалась тема исследования, выполнялся сбор информации по теме исследования из различных источников, проводилась формулировка гипотезы, определялись постановка цели, задач, предмета исследования, объекта исследования и выполнялось определение проблематики данного исследования.
Второй этап (поисковый этап) - в ходе проведения данного этапа осуществлялся анализ методологий моделирования OLTP-систем, была разработана модель эффективной системы сбора и обработки больших массивов данных, подготовлены и опубликованы научные статьи по теме исследования в научных журналах и сборниках.
Третий этап (оценка эффективности) - на данном этапе осуществлялась оценка эффективности и проверка адекватности предлагаемой модели системы сбора и обработки больших массивов данных, сформулированы выводы о полученных результатах по проведенному исследованию.
На защиту выносятся:
1. Модель эффективной системы сбора и обработки больших массивов данных.
2. Результаты проверки адекватности предлагаемой модели системы сбора и обработки больших массивов данных.
По теме исследования опубликованы 2 статьи:
1. Кондрусева С.А. Технологии сбора и обработки больших массивов информации // В сборнике: Прикладная математика и информатика: современные исследования в области естественных и технических наук. Материалы VI Международной научно-практической конференции (школы-семинара) молодых ученых. 2020 (принята к публикации).
2. Кондрусева С.А. Методы повышения эффективности OLTP-систем // Вестник научных конференций. 2020. N 5-3(57). С. 52-53. https://ukonf.com/doc/cn.2020.05.03.pdf
Диссертация состоит из введения, трех глав, заключения и списка литературы.
В первой главе проанализировано современное состояния проблемы повышения эффективности систем сбора и обработки больших массивов данных. Рассмотрено современное представление о системах транзакционной обработки данных. Описаны принципы построения систем транзакционной обработки данных и методологические основы их моделирования.
Вторая глава посвящена анализу и выбору методологии разработки высокоэффективных систем сбора и обработки больших массивов данных .
Даны обзор и анализ технологий управления эффективностью систем сбора и обработки больших массивов данных. Рассмотрены технологии распределенных баз данных, NoSQL, NewSQL и In-Memory. Дан сравнительный анализ представленных технологий. Дан сравнительный анализ и выбран подход к моделированию предметно-ориентированной OLTP-системы.
Третья глава посвящена непосредственно разработке логической и физической моделей эффективной системы сбора и обработки больших массивов данных и оценка ее эффективности.
Произведен выбор методологии разработки логической модели. На основе созданной модели разработана физическая модель OLTP-системы, представляющая ее программную реализацию.
Проведен эксперимент для оценки эффективности OLTP-системы и проверке адекватности предлагаемой модели.
В заключении приводятся результаты исследования.
В настоящее время предъявляются повышенные требования к эффективности указанных систем, приближая их характеристики к системам реального времени.
Решения данной проблемы существенно усложняется, если объектом обработки являются большие массивы данных, неограниченных источником которых является Интернет вещей.
Под большими массивами данных в рассматриваемом контексте понимаются большие структурированные данные.
Следует также отметить, что некоторые предприятия и компании социально-экономической сферы могут использовать различные источники внешних данных и объединять их со своей транзакционными данными.
Как показывает практика, эффективность OLTP-системы зависит от модели, положенной в ее основу в процессе проектирования.
Актуальность темы исследования обусловлена необходимостью разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности указанной системы.
Объектом исследования магистерской диссертации являются системы сбора и обработки больших массивов данных.
Предметом исследования является модель системы сбора и обработки больших массивов данных.
Целью работы является разработка модели эффективной системы сбора и обработки больших массивов данных.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Проанализировать современное состояние проблемы исследования.
2. Проанализировать и выбрать методологию разработки высокоэффективных систем сбора и обработки больших массивов
данных.
3. Разработать модель системы сбора и обработки больших массивов данных.
4. Проверить адекватность предлагаемой модели.
Гипотеза исследования: применение предлагаемой модели в качестве основы для построения системы сбора и обработки больших массивов данных позволит повысить эффективность последней.
Методы исследования. В процессе исследования будут использованы следующие положения и методы: системный анализ, методологии и технологии построения OLTP-систем.
Новизна исследования заключается в разработке модели эффективной системы сбора и обработки больших массивов данных.
Практическая значимость исследования заключается в возможности практического применения предлагаемой модели для построения эффективной системы сбора и обработки больших массивов данных.
Теоретической основой диссертационного исследования являются научные труды российских и зарубежных ученых, занимающихся проблемами моделирования и повышения эффективности OLTP-систем.
Основные этапы исследования: исследование проводилось с 2018 по 2020 год в несколько этапов:
На первом этапе (констатирующем этапе) - формулировалась тема исследования, выполнялся сбор информации по теме исследования из различных источников, проводилась формулировка гипотезы, определялись постановка цели, задач, предмета исследования, объекта исследования и выполнялось определение проблематики данного исследования.
Второй этап (поисковый этап) - в ходе проведения данного этапа осуществлялся анализ методологий моделирования OLTP-систем, была разработана модель эффективной системы сбора и обработки больших массивов данных, подготовлены и опубликованы научные статьи по теме исследования в научных журналах и сборниках.
Третий этап (оценка эффективности) - на данном этапе осуществлялась оценка эффективности и проверка адекватности предлагаемой модели системы сбора и обработки больших массивов данных, сформулированы выводы о полученных результатах по проведенному исследованию.
На защиту выносятся:
1. Модель эффективной системы сбора и обработки больших массивов данных.
2. Результаты проверки адекватности предлагаемой модели системы сбора и обработки больших массивов данных.
По теме исследования опубликованы 2 статьи:
1. Кондрусева С.А. Технологии сбора и обработки больших массивов информации // В сборнике: Прикладная математика и информатика: современные исследования в области естественных и технических наук. Материалы VI Международной научно-практической конференции (школы-семинара) молодых ученых. 2020 (принята к публикации).
2. Кондрусева С.А. Методы повышения эффективности OLTP-систем // Вестник научных конференций. 2020. N 5-3(57). С. 52-53. https://ukonf.com/doc/cn.2020.05.03.pdf
Диссертация состоит из введения, трех глав, заключения и списка литературы.
В первой главе проанализировано современное состояния проблемы повышения эффективности систем сбора и обработки больших массивов данных. Рассмотрено современное представление о системах транзакционной обработки данных. Описаны принципы построения систем транзакционной обработки данных и методологические основы их моделирования.
Вторая глава посвящена анализу и выбору методологии разработки высокоэффективных систем сбора и обработки больших массивов данных .
Даны обзор и анализ технологий управления эффективностью систем сбора и обработки больших массивов данных. Рассмотрены технологии распределенных баз данных, NoSQL, NewSQL и In-Memory. Дан сравнительный анализ представленных технологий. Дан сравнительный анализ и выбран подход к моделированию предметно-ориентированной OLTP-системы.
Третья глава посвящена непосредственно разработке логической и физической моделей эффективной системы сбора и обработки больших массивов данных и оценка ее эффективности.
Произведен выбор методологии разработки логической модели. На основе созданной модели разработана физическая модель OLTP-системы, представляющая ее программную реализацию.
Проведен эксперимент для оценки эффективности OLTP-системы и проверке адекватности предлагаемой модели.
В заключении приводятся результаты исследования.
В настоящее время к OLTP-системам предъявляются повышенные требования к эффективности указанных систем, приближая их характеристики к системам реального времени.
Решения данной проблемы существенно усложняется, если объектом обработки являются большие массивы данных, неограниченных источником которых является Интернет вещей.
Магистерская диссертация посвящена актуальной проблеме разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности указанной системы.
Выполненные в работе научные исследования представлены следующими основными результатами:
1. Проанализировано современное состояние проблемы повышения эффективности OLTP-систем. Как, показал анализ принципы построения OLTP-систем распространяются на решения, предназначенные для обработки больших массивов данных. Вместе с тем анализ позволил констатировать недостаточность работ по проблематике моделирования OLTP-систем для обработки больших данных, что подтверждает актуальность темы магистерской диссертации.
2. Произведены анализ и выбор методологии и технологии моделирования системы сбора и обработки больших массивов данных. Отмечено, что в последнее время для повышения эффективности систем обработки больших массивов данных применяются технологии NoSQL, NewSQL и In-memory. На основании представленного анализа в качестве методологии разработки выбран комплексный подход, использующий лучшие мировые практики обеспечения высокой эффективности OLTP-систем для больших массивов данных.
3. Разработана модель системы сбора и обработки больших массивов данных. Для разработки логической модели эффективной OLTP-системы для сбора и обработки больших массивов данных использованы диаграммы компонентов и развертывания UML, отражающие соответственно компоненты системы и связи между ними, а также ее топологию. На основе предложенной модели в двухзвенной архитектуре выполнена реализация OLTP-системы для сбора и обработки больших массивов данных. В качестве сервера баз данных OLTP-системы использована версия промышленной СУБД MS SQL Server 2017. В качестве клиента использована среда MS SQL Server Management Studio.
4. Для оценки эффективности системы сбора и обработки больших массивов данных, разработанной на основе предлагаемой модели, был проведен эксперимент, который подтвердил эффективность OLTP-системы, а, следовательно, - адекватность предложенной модели.
Таким образом, в работе решена актуальная научно-практическая проблема разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности последней .
Гипотеза исследования подтверждена.
Значение диссертационной работы определяется тем, что в ее рамках исследованы возможности повышения эффективности системы сбора и обработки больших массивов данных.
Решения данной проблемы существенно усложняется, если объектом обработки являются большие массивы данных, неограниченных источником которых является Интернет вещей.
Магистерская диссертация посвящена актуальной проблеме разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности указанной системы.
Выполненные в работе научные исследования представлены следующими основными результатами:
1. Проанализировано современное состояние проблемы повышения эффективности OLTP-систем. Как, показал анализ принципы построения OLTP-систем распространяются на решения, предназначенные для обработки больших массивов данных. Вместе с тем анализ позволил констатировать недостаточность работ по проблематике моделирования OLTP-систем для обработки больших данных, что подтверждает актуальность темы магистерской диссертации.
2. Произведены анализ и выбор методологии и технологии моделирования системы сбора и обработки больших массивов данных. Отмечено, что в последнее время для повышения эффективности систем обработки больших массивов данных применяются технологии NoSQL, NewSQL и In-memory. На основании представленного анализа в качестве методологии разработки выбран комплексный подход, использующий лучшие мировые практики обеспечения высокой эффективности OLTP-систем для больших массивов данных.
3. Разработана модель системы сбора и обработки больших массивов данных. Для разработки логической модели эффективной OLTP-системы для сбора и обработки больших массивов данных использованы диаграммы компонентов и развертывания UML, отражающие соответственно компоненты системы и связи между ними, а также ее топологию. На основе предложенной модели в двухзвенной архитектуре выполнена реализация OLTP-системы для сбора и обработки больших массивов данных. В качестве сервера баз данных OLTP-системы использована версия промышленной СУБД MS SQL Server 2017. В качестве клиента использована среда MS SQL Server Management Studio.
4. Для оценки эффективности системы сбора и обработки больших массивов данных, разработанной на основе предлагаемой модели, был проведен эксперимент, который подтвердил эффективность OLTP-системы, а, следовательно, - адекватность предложенной модели.
Таким образом, в работе решена актуальная научно-практическая проблема разработки модели системы сбора и обработки больших массивов данных, обеспечивающей повышение эффективности последней .
Гипотеза исследования подтверждена.
Значение диссертационной работы определяется тем, что в ее рамках исследованы возможности повышения эффективности системы сбора и обработки больших массивов данных.



