Введение 4
1 Проблемы построения эффективных схем хранилищ данных 7
1.1. Назначение, отличительные черты и принципы построения реляционных хранилищ данных 8
1.1.1 Назначение и роль хранилищ данных в системах аналитической
обработки 11
1.1.2 Отличительные черты реляционных хранилищ данных 16
1.1.3 Принципы построения реляционных хранилищ данных 19
1.2 Роль и место метаданных в хранилище данных 21
1.2.1 Назначение метаданных в реляционных хранилищах данных 21
1.2.2 Виды метаданных в реляционных хранилищах данных 25
1.2.3 Метаданные в жизненном цикле реляционных хранилищах
данных 26
1.3 Обзор архитектур аналитических систем основанных на
метаданных 30
1.3.1 Типовые архитектуры аналитических систем 31
1.3.2 Метаданные в архитектуре современных решений 33
Выводы 38
2 Модельное представление и методика ведения метаданных в
хранилищах данных 39
2.1 Модельные представления метаданных для хранилища данных 39
2.2 Логическая модель и операции ведения хранилища данных 43
2.3 Логическая модель и операции ведения базы данных 54
2.3.1 Назначение базы метаданных 54
2.3.2 Структура базы метаданных 54
2.3.3 Логическая схема базы метаданных 57
Выводы 68
3 Инструментальные средства ведения метаданных в составе
оперативно-аналитической информационной системы 69
3.1 Программное обеспечение подсистемы управления базой
метаданных 69
3.2 Назначение, архитектура и принципы функционирования
оперативно-аналитической информационной системы 70
3.3 Программная реализация инструментальных средств ведения
метаданных 71
3.4 Общая схема функционирования инструментальных средств
ведения метаданных в составе оперативно-аналитической информационной системы 73
Выводы 75
Заключение 76
Список использованных источников 77
Приложение А. Глоссарий 81
Приложение Б. Скрипт развертывания базы метаданных 84
Актуальность темы работы. Популярность хранилищ данных в последние годы существенно возросла. Конкурентоспособные организации находятся на пути построения хранилищ данных (ХД) либо расширения, перепроектирования и усовершенствования уже имеющихся. Метаданные считаются ключевым фактором успеха в проектах по внедрению хранилищ. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из исходных систем, а также для последующего использования и интерпретации содержимого ХД.
Крупнейшие компании России внедряют хранилища с середины 90-х годов. Предыдущие проекты нельзя назвать неуспешными, так как они решали текущие задачи, в частности, обеспечивали руководство компании достоверной непротиворечивой информацией хотя бы по некоторым направлениям деятельности. Однако рост компаний, изменение законодательства и возросшие требования к стратегическому анализу и планированию требуют дальнейшего развития стратегий построения хранилища данных.
Роль метаданных для ХД значительно важнее, чем в системах операционной обработки данных. Если в системах операционной обработки данных интерфейс системы настроен на бизнес-процедуры обработки данных конкретными специалистами и понятен им после специального обучения, то интерфейс систем складирования данных конструируется таким образом, чтобы помимо всего прочего отвечать на неопределенные вопросы. Как правило, такие вопросы формулируются в терминах предметной области и бизнес-процессов, к тому же специалистами, для которых ИТ-технологии не являются основной профессией: аналитиками, менеджерами среднего и высшего уровня. Таким образом, одним из главных аспектов использования метаданных в ХД является их предметная ориентация [1].
Основными целями создания ХД являются минимизации работ по разработке и администрированию ХД и более эффективному извлечению информации из ХД.
Разработка методик и инструментальных средств управления метаданными является актуальной задачей на всех этапах жизненного цикла хранилищ данных в системах принятия решений.
Объектом исследования являются методы и средства управления метаданными при построении схемы хранилища данных.
Предметом исследования являются метаданные при построении, схемы организации хранилищ данных и алгоритмы управления для систем аналитической обработки.
Целью работы является усовершенствование составления схем для эффективного управления метаданными в хранилищах данных.
Для достижения поставленной цели были поставлены и решены следующие задачи:
- провести анализ существующих методик построения схем хранилищ данных;
- провести анализ архитектур информационно-аналитических систем;
- провести анализ хранилищ данных в OLAP системах при различных подходах;
- провести анализ назначения и видов метаданных в хранилище данных;
- провести анализ известных моделей организации хранения данных;
- провести анализ известных алгоритмов формирования хранилищ данных;
- разработать концептуальные и формальные модели представления хранилища данных.
Научная новизна работы заключается в следующем:
- разработаны модельные представления метаданных в хранилищах данных аналитических систем на основе объектной модели предметной области и многомерной модели хранилища данных;
- - разработана схема реляционного репозитория метаданных для хранилища данных;
- - разработаны программные средства ведения метаданных и поддержки динамической структуры хранилища данных.
Практическая значимость исследований. Разработаны модели метаданных и программные средства ведения метаданных и поддержки динамической структуры хранилища данных.
Основные положения, выносимые на защиту:
- модель хранилища данных для построения системы аналитической обработки;
- алгоритм управления метаданными при построении структуры хранилища данных.
Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях:
- VI ежегодная межвузовская научно-практическая конференция «Информационные технологии в науке и образовании. Проблемы и перспективы» (Пенза, март 2019 г.);
- XI Международного молодежного конкурса научных работ. «Молодежь в науке: Новые аргументы » (Липецк, июнь 2019 г.).
Публикации. По теме данной диссертационной работы опубликовано две печатные работы.
Работа включает введение, 3 главы, заключение, список использованных источников и двух приложений. Общий объем основного текста - 90 страниц, включая 14 рисунков и 9 таблиц. Список литературы изложен на 4 страницах и содержит 26 наименований.
В работе проведен анализ принципов построения эффективных схем хранилищ данных. В ходе анализа установлено, что при создании такого рода систем возникает ряд трудностей. Рассмотрены стандартные способы создания ХД и их недостатки. Сформулированы цели создания хранилища данных. В качестве основных недостатков существующих технологий выделены: высокая трудоемкость создания ХД; трудности с обеспечением целостности информации в организации, использующей ХД; необходимость модернизации хранилищ при изменениях в бизнес процессах. Проведен обзор существующих систем, выделены их достоинства и недостатки.
Для решения проблемы проведен анализ известных моделей хранилищ данных, архитектур аналитических систем, основанных на метаданных, изучены модельное представление и методика ведения метаданных в хранилище данных. Приведены логические модели и схемы, а также операции ведения хранилища данных и ведения базы данных. Описаны сущности разделов базы метаданных.
В ходе работы были представлены:
- средства ведения метаданных в составе оперативно аналитической информационной системы;
- программное обеспечение подсистемы управления базой метаданных;
- программное средство управления метаданными в виде набора хранимых функций.
Данная работа является актуальной, так как популярность хранилищ данных в последние годы существенно возросла. Реализация хранилищ данных для предприятий является ключевым фактором успеха. Результаты приведенных исследований могут применяться для разработки средств анализа на основе метаданных в системах оперативного анализа для различных предметных областей.
1. НОУ ИНТУИТ| Лекции | Метаданные в хранилищах данных [Электронный ресурс].- URL: https://www.intuit.ru/studies/courses/599/ 455/lecture/10173?page=1 (дата обращения 10.04.2020).
2. Сахаров А.А. Концепции построения и реализации
информационных систем, ориентированных на анализ данных. [Электронный ресурс].- URL: http://www.olap.ru/basic/saharov.asp(дата обращения:
12.01.2020).
3. Burnett K., Kwong Bor Ng, Park S. A comparison of the two
traditions of metadata development /J. of the American Society for Information Science. Special issue on integrating multiple overlapping metadata standards, Vol. 50, Issue 13, 1999, pp.1209-1217. [Электронный ресурс].-
URL:http://comminfo. rutgers.edu/~kbng/ publications/1999JASISPark.pdf. (дата обращения: 15.02.2020).
4. Что такое метаданные, и почему они так важны, как самиданные? Зарембо Е.С. В сборнике: Шаг в будущее искусственный интеллекти цифровая экономика: SMART NATIONS: Экономика цифрового равенства материалы III Международного научного форума. 2020. С. 86-92.
5. Ralph Kimball - Wikipedia [Электронный ресурс].- URL:
https://en.wikipedia.org/wiki/Ralph_Kimball (дата обращения: 17.03.2020).
6. Метаданные и их место в хранилище данных [Электронный
ресурс].-URL: http://bourabai.ru/tpoi/metadata.htm (дата обращения:
18.10.2019).
7. НОУ ИНТУИТ| Лекции| Метод моделирования «Свод данных» [Электронный ресурс]. URL: https://www.intuit.ru/studies/ courses/599/455/lecture/10179.(дата обращения: 12.12.2019).
8. Барсегян А. А., Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP, БХВ-Петербург, СПб, 2007; [Barsegjan A. A., Tehnologii analiza dannyh: Data Mining, Visual Mining, Text Mining, OLAP, BHV-Peterburg, SPb, 2007, 384 pp., (in Russian).]
9. Дейт К. Дж., Введение в системы баз данных, Вильямс, М., 2001, 1072 с.; [Dejt K.Dzh., Vvedenie v sistemy baz dannyh, Viljams, M., 2001, (in Russian).]
10. Мартин Дж., Организация баз данных в вычислительных системах, Мир, М., 1980,665 с.; [Martin J., Computer data-base organization, IBM Systems Research Institute, New Jersey, 1977, 665 pp., (in Russian).]
11. Коннолли Т., Базы данных: проектирование, реализация и сопровождение: Теория и практика, Вильяму М., 2003, 1440 с.; [Konnolli T., Bazy dannyh: proektirovanie,realizacija i soprovozhdenie: Teorija i praktika, Viljams, M., 2003, 1440 pp., (in Russian).]
12. Хранилища данных, назначение и структура - КиберПедиа
[Электронный ресурс^-URL: https://cyberpedia.su/6x2662.html (дата
обращения: 12.01.2020).
13. Шибанов С.В., Мезенков А.А., Макарычев П.П., Применение
метаданных в адаптивных информационных системах клиент-серверной архитектуры. [Электронный ресурс]. URL: https://cyberleninka.ru/article/n /primenenie - metadannyh-v-adaptivnyh-informatsionnyh-sistemah-klient-
servernoy-arhitektury (дата обращения: 18.12.2019).
14. OLAP системы [Электронный ресурс]. URL: https://www.kpms.ru/Automatization / OLAP_system.htm (дата обращения: 15.02.2020).
15. В.С. Белов Информационно-аналитические системы Основы проектирования и применения Учебно-практическое пособие Издание 2¬ое, переработанное и дополненное Москва 2005 1 УДК 004.415 ББК
16. OLAP - технология. Тест FASMI - Студопедия [Электронный
ресурс].- URL: https://studopedia.ru/7_135423_OLAP-tehnologiya-test-
FASMI.html(дата обращения: 12.05.2020).
17. Многомерное представление данных - Студопедия [Электронный ресурс]. - URL:https: //studopedia.ru/19_382126_mnogomernoe-predstavlenie-dannih.html(дата обращения: 05.02.2020).
18. Метаданные и их место в хранилище данных [Электронный
ресурс].- URL: http://bourabai.ru/tpoi/metadata.htm.(дата обращения:
19.04.2020).
19. Дзюба Е.А., Шибанов С.В., Хмелевской Б.Г., Кочегаров И.И., Гришко А.К. Отображение метаданных в реляционную модель данных. [Электронный ресурс].- URL:https://cyberleninka.ru/article/n/otobrazhenie- metadannyh-v-relyatsionnuyu-model-dannyh(дата обращения: 18. 12.2019).
20. НОУ ИНТУИТ| Лекции| Архитектура хранилищ данных [Электронный ресурс].- URL: https://www.intuit.ru/studies/courses/ 599/455/lecture/10158 (дата обращения: 20.01.2020).
21. Архитектура хранилищ данных: традиционная и облачная
[Электронный ресурс].- URL: https://habr.com/ru/post/441538/ (дата
обращения: 26.03.2020).
22. Артамонов Ю.Н., «Построение хранилища данных с динамической структурой», Моделирование и анализ информационных систем, 23:2 (2016), 93-118.
23. Теоретико-множественное модель ИС для многомерного анализа отвечающая требованиям хранилищ данных Антонов В.В., Куликов Г.Г., Антонов Д.В., Вестник Уфимского государственного авиационного технического университета. 2012. Т. 16. № 6 (51). С. 189-201.
24. ГОСТ 34.003-90 «Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения».
25. ГОСТ 34.201-89 «Информационная технология. Комплекс стандартов на автоматизированные системы. Виды, комплектность и обозначение документов при создании автоматизированных систем».
26. ГОСТ 34.601-90 «Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Стадии создания».