Моделирование системы анализа данных на основе технологии OLAP с помощью программного обеспечения с открытым исходным кодом
|
Введение 4
1 Теоретические аспекты систем онлайн аналитической обработки данных 9
1.1 Реляционные базы данных 9
1.2 Хранилище данных 13
1.3 Технология OLAP 14
1.4 Хранилище данных с использованием OLAP-сервера 17
1.5 Алгебраические операции OLAP 22
1.6 Требования к OLAP-системам. FASMI 24
1.7 Классификация OLAP-систем 26
2 Обзор основных методологий и программных продуктов для построения систем анализа данных по технологии OLAP 31
2.1 Обзор функциональных возможностей наиболее популярных программных продуктов для анализа данных на основе технологии OLAP 31
2.2 Обзор функциональных возможностей программных продуктов для анализа данных на основе технологии OLAP, представленных нароссийском рынке зз
2.3 Обзор функциональных возможностей программных продуктов дляанализа данных на основе технологии OLAP с открытым исходным
кодом 35
2.4 Роль OLAP в современном мире 38
3 Анализ бизнес-процессов компании 44
3.1 Характеристика деятельности предприятия. Анализ проблемных
процессов в компании 44
3.2 Сбор требований. Выработка рекомендаций 48
4 Реализация системы OLAP в Atoti 53
4.1 Моделирование системы OLAP в Atoti 53
4.2 Реализация системы 55
4.3 Оценка эффективности решения 63
4.3.1 Методика оценки эффективности 63
4.3.2 Сборка OLAP-куба в Visual Studio 64
4.3.3 Тестирование производительности запросов 66
4.3.4 Нагрузочное тестирование решений 69
4.3.5 Сравнительная оценка решений 72
Заключение 77
Список используемой литературы и используемых источников 80
Приложение А Спецификация требований к программному обеспечению . 88
Приложение Б Бизнес-сценарий для страховой компании 91
1 Теоретические аспекты систем онлайн аналитической обработки данных 9
1.1 Реляционные базы данных 9
1.2 Хранилище данных 13
1.3 Технология OLAP 14
1.4 Хранилище данных с использованием OLAP-сервера 17
1.5 Алгебраические операции OLAP 22
1.6 Требования к OLAP-системам. FASMI 24
1.7 Классификация OLAP-систем 26
2 Обзор основных методологий и программных продуктов для построения систем анализа данных по технологии OLAP 31
2.1 Обзор функциональных возможностей наиболее популярных программных продуктов для анализа данных на основе технологии OLAP 31
2.2 Обзор функциональных возможностей программных продуктов для анализа данных на основе технологии OLAP, представленных нароссийском рынке зз
2.3 Обзор функциональных возможностей программных продуктов дляанализа данных на основе технологии OLAP с открытым исходным
кодом 35
2.4 Роль OLAP в современном мире 38
3 Анализ бизнес-процессов компании 44
3.1 Характеристика деятельности предприятия. Анализ проблемных
процессов в компании 44
3.2 Сбор требований. Выработка рекомендаций 48
4 Реализация системы OLAP в Atoti 53
4.1 Моделирование системы OLAP в Atoti 53
4.2 Реализация системы 55
4.3 Оценка эффективности решения 63
4.3.1 Методика оценки эффективности 63
4.3.2 Сборка OLAP-куба в Visual Studio 64
4.3.3 Тестирование производительности запросов 66
4.3.4 Нагрузочное тестирование решений 69
4.3.5 Сравнительная оценка решений 72
Заключение 77
Список используемой литературы и используемых источников 80
Приложение А Спецификация требований к программному обеспечению . 88
Приложение Б Бизнес-сценарий для страховой компании 91
В результате наложенных на Российскую Федерацию санкций некоторые крупные иностранные разработчики программного обеспечения и IT-корпорации теперь недоступны на территории страны. Среди них Tableau, Qlik, Microsoft. Большое количество отечественных предприятий производило аналитику данных на базе решений этих компаний, предоставляющих наиболее популярные решения в области анализа и визуализации данных. В настоящее время многим отечественным предприятиям приходится искать новые сервисы для своей инфраструктуры и перестраивать бизнес-процессы.
Сегодня компании накапливают большое количество данных. Эти данные необходимо анализировать, чтобы не отставать от конкурентов в эффективности менеджерских решений. Анализ данных позволяет принимать эффективные решения, так как они основываются на информации, полученной в прошлом. Это позволяет уменьшить непредсказуемость в будущем.
Однако накапливание большого количества данных приводит к тому, что для их обработки необходимо задействовать больше ресурсов. Для того, чтобы польза от накапливания данных превышала издержки на их обслуживание, были разработаны информационные аналитические системы, которые получили название «Системы поддержки принятия решений». В архитектуру системы принятия решений в общем случае входят транзакционная база данных, «подсистема хранения и подсистема анализа». Система анализа в классической системе поддержки принятия решений строится на базе технологии многомерного анализа данных OLAP (Online Analytical Processing).
На протяжении нескольких последних лет в области аналитической обработки данных наблюдается тенденция рассматривать технологию OLAP как устаревшую и уходящую в прошлое. Однако в контексте данного исследования предполагается, что с использованием современного программного обеспечения возможно эффективно проводить анализ данных на основе технологии многомерного анализа данных OLAP.
В текущей ситуации компании, которые используют системы анализа данных на основе технологии многомерного анализа данных OLAP, задумываются о способах проводить многомерный анализ данных без использования популярных иностранных платных решений. Так как сервисы для анализа данных на основе технологии многомерного анализа данных, представленные на отечественном рынке, часто являются дорогостоящими, решения с открытым исходным кодом (open-source) могли бы стать альтернативой для многих компаний.
Актуальность исследования определяется ростом потребности в комплексной оценке OLAP-систем для анализа данных с открытым исходным кодом в условиях ограничений на использование зарубежного программного обеспечения.
Проблема, которую могла бы решить данная научно-исследовательская работа, — это отсутствие разработанных методик для всесторонней оценки производительности и бизнес-эффективности OLAP-систем, которые учитывают оценку устойчивости системы, а также необходимость провести сравнение эффективности и производительности инструментов анализа данных на основе технологии многомерного анализа данных OLAP с открытым исходным кодом. Данная проблема широко не изучена, так как до недавнего времени российским компаниям не приходилось существовать в условиях столь жестких санкций и, как следствие, рынок технологических инструментов никогда не был настолько ограниченным. В новых рыночных условиях поиск оптимального технологического решения становится актуальной проблемой для многих предприятий.
Гипотеза исследования: системы анализа данных на основе OLAP- продуктов с открытым исходным кодом могут конкурировать в эффективности с коммерческими OLAP-продуктами....
Сегодня компании накапливают большое количество данных. Эти данные необходимо анализировать, чтобы не отставать от конкурентов в эффективности менеджерских решений. Анализ данных позволяет принимать эффективные решения, так как они основываются на информации, полученной в прошлом. Это позволяет уменьшить непредсказуемость в будущем.
Однако накапливание большого количества данных приводит к тому, что для их обработки необходимо задействовать больше ресурсов. Для того, чтобы польза от накапливания данных превышала издержки на их обслуживание, были разработаны информационные аналитические системы, которые получили название «Системы поддержки принятия решений». В архитектуру системы принятия решений в общем случае входят транзакционная база данных, «подсистема хранения и подсистема анализа». Система анализа в классической системе поддержки принятия решений строится на базе технологии многомерного анализа данных OLAP (Online Analytical Processing).
На протяжении нескольких последних лет в области аналитической обработки данных наблюдается тенденция рассматривать технологию OLAP как устаревшую и уходящую в прошлое. Однако в контексте данного исследования предполагается, что с использованием современного программного обеспечения возможно эффективно проводить анализ данных на основе технологии многомерного анализа данных OLAP.
В текущей ситуации компании, которые используют системы анализа данных на основе технологии многомерного анализа данных OLAP, задумываются о способах проводить многомерный анализ данных без использования популярных иностранных платных решений. Так как сервисы для анализа данных на основе технологии многомерного анализа данных, представленные на отечественном рынке, часто являются дорогостоящими, решения с открытым исходным кодом (open-source) могли бы стать альтернативой для многих компаний.
Актуальность исследования определяется ростом потребности в комплексной оценке OLAP-систем для анализа данных с открытым исходным кодом в условиях ограничений на использование зарубежного программного обеспечения.
Проблема, которую могла бы решить данная научно-исследовательская работа, — это отсутствие разработанных методик для всесторонней оценки производительности и бизнес-эффективности OLAP-систем, которые учитывают оценку устойчивости системы, а также необходимость провести сравнение эффективности и производительности инструментов анализа данных на основе технологии многомерного анализа данных OLAP с открытым исходным кодом. Данная проблема широко не изучена, так как до недавнего времени российским компаниям не приходилось существовать в условиях столь жестких санкций и, как следствие, рынок технологических инструментов никогда не был настолько ограниченным. В новых рыночных условиях поиск оптимального технологического решения становится актуальной проблемой для многих предприятий.
Гипотеза исследования: системы анализа данных на основе OLAP- продуктов с открытым исходным кодом могут конкурировать в эффективности с коммерческими OLAP-продуктами....
В ходе исследования была сформулирована гипотеза исследования: системы анализа данных на основе OLAP-продуктов с открытым исходным кодом могут конкурировать в эффективности с коммерческими OLAP- продуктами.
Для подтверждения этой гипотезы были решены следующие задачи:
- рассмотрены теоретические аспектов систем интерактивной аналитической обработки данных OLAP. По результатам выполнения данной задачи было выяснено, что одной из главных причин широкого использования технологии OLAP в компаниях, работающих с большими объемами данных, является высокая скорость обработки запросов, что является ключевым фактором для аналитических целей;
- проведен обзор существующих методов и инструментов многомерного анализа данных OLAP, включая как коммерческие, так и открытые решения, с оценкой их функциональности и производительности. По результатам выполнения данной задачи было выяснено, что на рынке много OLAP-продуктов, которые поставляются бесплатно, и при этом имеют широкий набор функциональных возможностей для анализа данных. Учитывая тот факт, что открытый исходный код делает эти продукты доступными независимо от политической и экономической ситуации, они могли бы стать подходящим решением для многих компаний;
- исследовалась актуальность применения технологии многомерного анализа данных OLAP. По результатам анализа было выяснено, что роль классического OLAP-подхода сегодня не так велика. Классические методы уступают место более эффективным методам обработки данных, которые обеспечивают более гибкий и масштабируемый анализ. Эти технологии позволяют работать с большими объемами данных и обеспечивают более высокую производительность по сравнению с традиционными методами;
- был произведен анализ деятельности предприятия для выявления проблемных процессов, требующих аналитического вмешательства. В результате анализа требований компании к системе анализа данных и особенностей данных, с которыми она работает, была выработана рекомендация рассмотреть внедрение технологии многомерного анализа данных OLAP в виде инструмента Atoti. Это обусловлено необходимостью обеспечить высокую производительность при выполнении аналитических запросов даже с большими объемами данных;
- моделирование и реализация системы OLAP. Система была смоделирована успешно;
- разработана методика оценки эффективности OLAP-систем анализа данных с включением нагрузочного тестирования. Произведена оценка эффективности и функциональности разработанной системы с точки зрения удовлетворения требований бизнеса и возможности проведения аналитических исследований. Тестирование показало, что внедренная система не уступает по своим возможностям классическому OLAP-кубу и технологии, включающей использование OLTP-таблиц для анализа данных, которая использовалась в компании до этого. Кроме того, внедренная система является более предпочтительной с точки зрения ряда параметров, таких как скорость изменений в системе и интуитивность интерфейса.
По результатам работы были выявлены следующие ключевые моменты.
- технология OLAP остается актуальной несмотря на то, что сегодня появляются более высокопроизводительные базы данных, которые позволяют не хранить предрассчитанные данные. Однако такие базы применимы не для всех структур и особенностей данных. OLAP-системы являются по-прежнему востребованными, благодаря тому, что они модифицируются, чтобы оставаться актуальными;
- включение нагрузочного тестирования в методику оценки эффективности OLAP-систем показало его значимость для определения реальной производительности и устойчивости систем в условиях интенсивной эксплуатации;
- с использованием современных OLAP-инструментов с открытым исходным кодом, таких как Atoti, можно эффективно проводить анализ данных на основе технологии OLAP. Такие сервисы могут позволить отечественным компаниям легче и с меньшими издержками производить трансформацию систем анализа данных в текущих политических условиях.
Таким образом, исследование подтвердило гипотезу о том, что моделирование систем анализа данных на основе OLAP-продуктов с открытым исходным кодом может конкурировать по эффективности с коммерческими продуктами.....
Для подтверждения этой гипотезы были решены следующие задачи:
- рассмотрены теоретические аспектов систем интерактивной аналитической обработки данных OLAP. По результатам выполнения данной задачи было выяснено, что одной из главных причин широкого использования технологии OLAP в компаниях, работающих с большими объемами данных, является высокая скорость обработки запросов, что является ключевым фактором для аналитических целей;
- проведен обзор существующих методов и инструментов многомерного анализа данных OLAP, включая как коммерческие, так и открытые решения, с оценкой их функциональности и производительности. По результатам выполнения данной задачи было выяснено, что на рынке много OLAP-продуктов, которые поставляются бесплатно, и при этом имеют широкий набор функциональных возможностей для анализа данных. Учитывая тот факт, что открытый исходный код делает эти продукты доступными независимо от политической и экономической ситуации, они могли бы стать подходящим решением для многих компаний;
- исследовалась актуальность применения технологии многомерного анализа данных OLAP. По результатам анализа было выяснено, что роль классического OLAP-подхода сегодня не так велика. Классические методы уступают место более эффективным методам обработки данных, которые обеспечивают более гибкий и масштабируемый анализ. Эти технологии позволяют работать с большими объемами данных и обеспечивают более высокую производительность по сравнению с традиционными методами;
- был произведен анализ деятельности предприятия для выявления проблемных процессов, требующих аналитического вмешательства. В результате анализа требований компании к системе анализа данных и особенностей данных, с которыми она работает, была выработана рекомендация рассмотреть внедрение технологии многомерного анализа данных OLAP в виде инструмента Atoti. Это обусловлено необходимостью обеспечить высокую производительность при выполнении аналитических запросов даже с большими объемами данных;
- моделирование и реализация системы OLAP. Система была смоделирована успешно;
- разработана методика оценки эффективности OLAP-систем анализа данных с включением нагрузочного тестирования. Произведена оценка эффективности и функциональности разработанной системы с точки зрения удовлетворения требований бизнеса и возможности проведения аналитических исследований. Тестирование показало, что внедренная система не уступает по своим возможностям классическому OLAP-кубу и технологии, включающей использование OLTP-таблиц для анализа данных, которая использовалась в компании до этого. Кроме того, внедренная система является более предпочтительной с точки зрения ряда параметров, таких как скорость изменений в системе и интуитивность интерфейса.
По результатам работы были выявлены следующие ключевые моменты.
- технология OLAP остается актуальной несмотря на то, что сегодня появляются более высокопроизводительные базы данных, которые позволяют не хранить предрассчитанные данные. Однако такие базы применимы не для всех структур и особенностей данных. OLAP-системы являются по-прежнему востребованными, благодаря тому, что они модифицируются, чтобы оставаться актуальными;
- включение нагрузочного тестирования в методику оценки эффективности OLAP-систем показало его значимость для определения реальной производительности и устойчивости систем в условиях интенсивной эксплуатации;
- с использованием современных OLAP-инструментов с открытым исходным кодом, таких как Atoti, можно эффективно проводить анализ данных на основе технологии OLAP. Такие сервисы могут позволить отечественным компаниям легче и с меньшими издержками производить трансформацию систем анализа данных в текущих политических условиях.
Таким образом, исследование подтвердило гипотезу о том, что моделирование систем анализа данных на основе OLAP-продуктов с открытым исходным кодом может конкурировать по эффективности с коммерческими продуктами.....





