Моделирование хранилища данных

Метод моделирования базы данных
Простая модель хранилища данных с двумя концентраторами (синие), одним каналом (зеленые) и четырьмя спутниками (желтые)

Datavault или моделирование хранилища данных — это метод моделирования базы данных , который предназначен для обеспечения долгосрочного исторического хранения данных , поступающих из нескольких операционных систем. Это также метод просмотра исторических данных, который решает такие вопросы, как аудит, отслеживание данных, скорость загрузки и устойчивость к изменениям, а также подчеркивает необходимость отслеживания того, откуда взялись все данные в базе данных . Это означает, что каждая строка в хранилище данных должна сопровождаться атрибутами источника записи и даты загрузки, что позволяет аудитору отслеживать значения обратно к источнику. Концепция была опубликована в 2000 году Дэном Линстедтом .

Моделирование хранилища данных не делает различий между хорошими и плохими данными («плохие» означает не соответствующие бизнес-правилам). [1] Это резюмируется в утверждении, что хранилище данных хранит « единственную версию фактов » (также выраженное Дэном Линстедтом как «все данные, все время») в отличие от практики в других методах хранения данных, когда хранится «единственная версия истины » [2] , где данные, не соответствующие определениям, удаляются или «очищаются». Корпоративное хранилище данных хранилища данных предоставляет и то, и другое; единственную версию фактов и единственный источник истины. [3]

Метод моделирования разработан таким образом, чтобы быть устойчивым к изменениям в бизнес-среде, из которой поступают хранимые данные, путем явного разделения структурной информации от описательных атрибутов . [4] Хранилище данных разработано для обеспечения максимально возможной параллельной загрузки, [5] чтобы очень большие реализации могли масштабироваться без необходимости серьезной переработки.

В отличие от схемы «звезда» ( многомерное моделирование ) и классической реляционной модели (3NF), моделирование хранилищ данных и якорей хорошо подходят для фиксации изменений, которые происходят при изменении или добавлении исходной системы, но считаются передовыми методами, требующими опытных архитекторов данных . [6] И хранилища данных, и якорные модели являются моделями на основе сущностей , [7] но якорные модели имеют более нормализованный подход. [ требуется ссылка ]

История и философия

В ранние годы Дэн Линстедт называл технику моделирования, которая должна была стать хранилищем данных, общей фундаментальной архитектурой хранилища [8] или общей фундаментальной архитектурой моделирования . [9] В моделировании хранилища данных есть два известных конкурирующих варианта моделирования слоя, где хранятся данные. Либо вы моделируете в соответствии с Ральфом Кимбаллом , с согласованными измерениями и корпоративной шиной данных , либо вы моделируете в соответствии с Биллом Инмоном с нормализованной базой данных . [10] Оба метода имеют проблемы при работе с изменениями в системах, питающих хранилище данных [ необходима ссылка ] . Для согласованных измерений вам также приходится очищать данные (чтобы согласовать их), а это нежелательно в ряде случаев, поскольку это неизбежно приведет к потере информации [ необходима ссылка ] . Хранилище данных предназначено для предотвращения или минимизации влияния этих проблем путем перемещения их в области хранилища данных, находящиеся за пределами области исторического хранения (очистка выполняется в витринах данных), и путем отделения структурных элементов (бизнес-ключей и связей между бизнес-ключами) от описательных атрибутов.

Дэн Линстедт, создатель метода, описывает полученную базу данных следующим образом:

«Модель хранилища данных — это ориентированный на детали, исторический отслеживающий и уникально связанный набор нормализованных таблиц, которые поддерживают одну или несколько функциональных областей бизнеса. Это гибридный подход, охватывающий лучшее из 3-й нормальной формы (3NF) и схемы «звезда» . Дизайн гибкий, масштабируемый, последовательный и адаптируемый к потребностям предприятия» [11]

Философия хранилища данных заключается в том, что все данные являются релевантными данными, даже если они не соответствуют установленным определениям и бизнес-правилам. Если данные не соответствуют этим определениям и правилам, то это проблема для бизнеса, а не для хранилища данных. Определение того, что данные «неправильны», — это интерпретация данных, которая исходит из определенной точки зрения, которая может быть недействительной для всех или в любой момент времени. Поэтому хранилище данных должно собирать все данные, и только при составлении отчетов или извлечении данных из хранилища данных данные интерпретируются.

Другая проблема, на которую хранилище данных является ответом, заключается в том, что все больше и больше возникает потребность в полной прослеживаемости и отслеживаемости всех данных в хранилище данных. Из-за требований закона Сарбейнса-Оксли в США и аналогичных мер в Европе это является актуальной темой для многих внедрений бизнес-аналитики, поэтому фокус любого внедрения хранилища данных заключается в полной прослеживаемости и отслеживаемости всей информации.

Data Vault 2.0 — это новая спецификация. Это открытый стандарт . [12] Новая спецификация состоит из трех столпов: методология ( SEI / CMMI , Six Sigma , SDLC и т. д.), архитектура (среди прочего, входной слой (этап данных, называемый постоянной промежуточной областью в Data Vault 2.0) и уровень представления (витрина данных), а также обработка служб качества данных и основных служб данных) и модель. В рамках методологии определяется реализация лучших практик. Data Vault 2.0 фокусируется на включении новых компонентов, таких как большие данные , NoSQL , а также фокусируется на производительности существующей модели. Старая спецификация (задокументированная здесь по большей части) в значительной степени сосредоточена на моделировании хранилища данных. Она задокументирована в книге: Building a Scalable Data Warehouse with Data Vault 2.0. [13]

Необходимо развивать спецификацию, включив в нее новые компоненты, а также передовой опыт, чтобы системы EDW и BI соответствовали потребностям и желаниям современного бизнеса.

История

Моделирование хранилища данных было первоначально задумано Дэном Линстедтом в 1990-х годах и выпущено в 2000 году как метод моделирования, доступный для общественности. В серии из пяти статей в The Data Administration Newsletter основные правила метода Data Vault расширены и объяснены. Они содержат общий обзор, [14] обзор компонентов, [15] обсуждение конечных дат и объединений, [16] таблицы ссылок, [17] и статью о методах загрузки. [18]

Альтернативное (и редко используемое) название метода — «Общая фундаментальная архитектура моделирования интеграции». [19]

Data Vault 2.0 [20] [21] появился на рынке в 2013 году и предлагает возможности бесшовной интеграции Big Data, NoSQL, неструктурированных и полуструктурированных данных, а также передовые методы методологии, архитектуры и внедрения.

Альтернативные интерпретации

По словам Дэна Линстедта, модель данных вдохновлена ​​(или создана по образцу) упрощенным представлением нейронов, дендритов и синапсов, где нейроны связаны с концентраторами и сателлитами концентраторов, связи являются дендритами (векторами информации), а другие связи являются синапсами (векторами в противоположном направлении). Используя набор алгоритмов добычи данных, связи могут быть оценены с уверенностью и рейтингами прочности . Их можно создавать и удалять на лету в соответствии с изучением взаимосвязей, которые в настоящее время не существуют. Модель может автоматически трансформироваться, адаптироваться и корректироваться по мере ее использования и подачи новых структур. [22]

Другая точка зрения заключается в том, что модель хранилища данных предоставляет онтологию предприятия в том смысле, что она описывает термины в домене предприятия (концентраторы) и отношения между ними (ссылки), добавляя описательные атрибуты (спутники) при необходимости.

Другой способ думать о модели хранилища данных — это графическая модель . Модель хранилища данных фактически предоставляет модель «на основе графа» с концентраторами и связями в мире реляционных баз данных. Таким образом, разработчик может использовать SQL для получения графических связей с ответами менее чем за секунду.

Основные понятия

Хранилище данных пытается решить проблему реагирования на изменения в среде путем отделения бизнес-ключей (которые не так часто меняются, поскольку они уникально идентифицируют бизнес-сущность) и связей между этими бизнес-ключами от описательных атрибутов этих ключей.

Бизнес-ключи и их ассоциации являются структурными атрибутами, образующими скелет модели данных. Метод хранилища данных имеет в качестве одной из своих основных аксиом то, что реальные бизнес-ключи изменяются только при изменении бизнеса и, следовательно, являются наиболее стабильными элементами, из которых можно вывести структуру исторической базы данных. Если вы используете эти ключи в качестве основы хранилища данных, вы можете организовать остальные данные вокруг них. Это означает, что выбор правильных ключей для концентраторов имеет первостепенное значение для стабильности вашей модели. [23] Ключи хранятся в таблицах с несколькими ограничениями на структуру. Эти таблицы ключей называются концентраторами.

Хабы

Хабы содержат список уникальных бизнес-ключей с низкой склонностью к изменению. Хабы также содержат суррогатный ключ для каждого элемента Хаба и метаданные, описывающие происхождение бизнес -ключа . Описательные атрибуты для информации на Хабе (например, описание ключа, возможно, на нескольких языках) хранятся в структурах, называемых таблицами-сателлитами, которые будут рассмотрены ниже.

Хаб содержит как минимум следующие поля: [24]

  • суррогатный ключ , используемый для подключения других структур к этой таблице.
  • бизнес -ключ , драйвер для этого хаба. Бизнес-ключ может состоять из нескольких полей.
  • источник записи, который можно использовать для просмотра того, какая система первой загрузила каждый бизнес-ключ.
  • при желании вы также можете иметь поля метаданных с информацией о ручных обновлениях (пользователь/время) и дате извлечения.

Концентратору не разрешается содержать несколько бизнес-ключей, за исключением случаев, когда две системы предоставляют один и тот же бизнес-ключ, но с коллизиями, имеющими разное значение.

Обычно концентраторы должны иметь по крайней мере один спутник. [24]

Пример концентратора

Это пример таблицы-концентратора, содержащей автомобили, называемой "Car" (H_CAR). Ключом вождения является идентификационный номер транспортного средства .

Имя поляОписаниеОбязательный?Комментарий
H_CAR_IDИдентификатор последовательности и суррогатный ключ для концентратораНетРекомендуется, но необязательно [25]
VEHICLE_ID_NRБизнес-ключ, который управляет этим хабом. Может быть больше одного поля для составного бизнес-ключаДа
H_RSRCИсточник записи этого ключа при первой загрузкеДа
LOAD_AUDIT_IDИдентификатор в таблице с аудиторской информацией, такой как время загрузки, продолжительность загрузки, количество строк и т. д.Нет

Ассоциации или транзакции между бизнес-ключами (например, связывающие хабы для клиента и продукта друг с другом через транзакцию покупки) моделируются с использованием таблиц связей. Эти таблицы в основном являются таблицами соединений «многие ко многим» с некоторыми метаданными.

Ссылки могут ссылаться на другие ссылки, чтобы иметь дело с изменениями в гранулярности (например, добавление нового ключа в таблицу базы данных изменит гранулярность таблицы базы данных). Например, если у вас есть связь между клиентом и адресом, вы можете добавить ссылку на ссылку между хабами для продукта и транспортной компании. Это может быть ссылка с названием «Доставка». Ссылка на ссылку в другой ссылке считается плохой практикой, поскольку она вводит зависимости между ссылками, которые затрудняют параллельную загрузку. Поскольку ссылка на другую ссылку — это то же самое, что и новая ссылка с хабами из другой ссылки, в этих случаях создание ссылок без ссылок на другие ссылки является предпочтительным решением (см. раздел о методах загрузки для получения дополнительной информации).

Ссылки иногда связывают концентраторы с информацией, которая сама по себе недостаточна для построения концентратора. Это происходит, когда один из бизнес-ключей, связанных со ссылкой, не является настоящим бизнес-ключом. В качестве примера возьмем форму заказа с «номером заказа» в качестве ключа и строки заказа, которые помечены полуслучайным числом, чтобы сделать их уникальными. Скажем, «уникальный номер». Последний ключ не является настоящим бизнес-ключом, поэтому он не является концентратором. Однако нам нужно использовать его, чтобы гарантировать правильную гранулярность для ссылки. В этом случае мы не используем концентратор с суррогатным ключом, а добавляем сам бизнес-ключ «уникальный номер» к ссылке. Это делается только тогда, когда нет возможности когда-либо использовать бизнес-ключ для другой ссылки или в качестве ключа для атрибутов в сателлите. Дан Линстедт на своем (ныне несуществующем) форуме назвал эту конструкцию «ссылкой с привязной ногой».

Ссылки содержат суррогатные ключи для связанных хабов, их собственный суррогатный ключ для ссылки и метаданные, описывающие происхождение ассоциации. Описательные атрибуты для информации об ассоциации (например, время, цена или сумма) хранятся в структурах, называемых таблицами-сателлитами , которые обсуждаются ниже.

Это пример таблицы связей между двумя хабами для автомобилей (H_CAR) и людей (H_PERSON). Связь называется «Водитель» (L_DRIVER).

Имя поляОписаниеОбязательный?Комментарий
L_ИД_ВОДИТЕЛЯИдентификатор последовательности и суррогатный ключ для ссылкиНетРекомендуется, но необязательно [25]
H_CAR_IDсуррогатный ключ для автомобильного хаба, первый якорь ссылкиДа
H_ПЕРСОН_ИДсуррогатный ключ для хаба человека, второй якорь ссылкиДа
L_RSRCИсточник записи этой ассоциации при первой загрузкеДа
LOAD_AUDIT_IDИдентификатор в таблице с аудиторской информацией, такой как время загрузки, продолжительность загрузки, количество строк и т. д.Нет

Спутники

Хабы и ссылки формируют структуру модели, но не имеют временных атрибутов и не содержат описательных атрибутов. Они хранятся в отдельных таблицах, называемых спутниками . Они состоят из метаданных, связывающих их с родительским хабом или ссылкой, метаданных, описывающих происхождение ассоциации и атрибутов, а также временной шкалы с датами начала и окончания для атрибута. В то время как хабы и ссылки предоставляют структуру модели, спутники предоставляют «мясо» модели, контекст для бизнес-процессов, которые фиксируются в хабах и ссылках. Эти атрибуты хранятся как в отношении деталей вопроса, так и временной шкалы и могут варьироваться от довольно сложных (все поля, описывающие полный профиль клиента) до довольно простых (сателлит на ссылке только с допустимым индикатором и временной шкалой).

Обычно атрибуты группируются в спутники по исходной системе. Однако описательные атрибуты, такие как размер, стоимость, скорость, количество или цвет, могут изменяться с разной скоростью, поэтому вы также можете разделить эти атрибуты в разных спутниках на основе скорости их изменения.

Все таблицы содержат метаданные, минимально описывающие, по крайней мере, исходную систему и дату, когда эта запись стала действительной, что дает полное историческое представление данных по мере их поступления в хранилище данных.

Спутник эффективности – это спутник, построенный на связи, «и регистрирующий период времени, когда соответствующая связь регистрирует начало и конец эффективности». [26]

Пример спутника

Это пример спутника на водителей-связи между хабами для автомобилей и людей, называемого "Страхование водителя" (S_DRIVER_INSURANCE). Этот спутник содержит атрибуты, которые являются специфическими для страхования отношений между автомобилем и человеком, который им управляет, например, индикатор, является ли это основным водителем, название страховой компании для этого автомобиля и человека (также может быть отдельным хабом) и сводка количества аварий с участием этой комбинации транспортного средства и водителя. Также включена ссылка на справочную или справочную таблицу под названием R_RISK_CATEGORY, содержащую коды для категории риска, в которую, как считается, попадает это отношение.

Имя поляОписаниеОбязательный?Комментарий
S_DRIVER_INSURANCE_IDИдентификатор последовательности и суррогатный ключ для спутника на ссылкеНетРекомендуется, но необязательно [25]
L_ИД_ВОДИТЕЛЯ(суррогатный) первичный ключ для драйверной ссылки, родительского элемента спутникаДа
S_SEQ_NRУпорядочение или порядковый номер для обеспечения уникальности, если для одного родительского ключа существует несколько действительных спутниковНет(**)Это может произойти, если, например, у вас есть центральный КУРС, а название курса является атрибутом, но на нескольких разных языках.
S_LDTSДата загрузки (startdate) для действительности этой комбинации значений атрибутов для родительского ключа L_DRIVER_IDДа
S_LEDTSЗагрузите дату окончания (enddate) для проверки действительности этой комбинации значений атрибутов для родительского ключа L_DRIVER_IDНет
IND_PRIMARY_DRIVERУказывает, является ли водитель основным водителем этого автомобиляНет (*)
СТРАХОВАЯ_КОМПАНИЯНазвание страховой компании этого транспортного средства и этого водителяНет (*)
NR_OF_ACCIDENTSКоличество аварий, совершенных этим водителем на этом транспортном средствеНет (*)
R_RISK_CATEGORY_CDКатегория риска для водителя. Это ссылка на R_RISK_CATEGORYНет (*)
S_RSRCИсточник записи информации в этом спутнике при первой загрузкеДа
LOAD_AUDIT_IDИдентификатор в таблице с аудиторской информацией, такой как время загрузки, продолжительность загрузки, количество строк и т. д.Нет

(*) по крайней мере один атрибут является обязательным. (**) порядковый номер становится обязательным, если он необходим для обеспечения уникальности нескольких допустимых спутников на одном концентраторе или канале.

Справочные таблицы

Справочные таблицы являются нормальной частью здоровой модели хранилища данных. Они существуют для предотвращения избыточного хранения простых справочных данных, на которые много ссылаются. Более формально Дэн Линстедт определяет справочные данные следующим образом:

Любая информация, которая считается необходимой для разрешения описаний из кодов или для перевода ключей в (sic) согласованным образом. Многие из этих полей являются «описательными» по своей природе и описывают определенное состояние другой более важной информации. Таким образом, справочные данные находятся в отдельных таблицах от необработанных таблиц Data Vault . [27]

Справочные таблицы ссылаются на Satellites, но никогда не связываются с физическими внешними ключами. Для справочных таблиц нет предписанной структуры: используйте то, что лучше всего подходит в вашем конкретном случае, от простых таблиц поиска до небольших хранилищ данных или даже звезд. Они могут быть историческими или не иметь никакой истории, но рекомендуется придерживаться естественных ключей и не создавать суррогатных ключей в этом случае. [28] Обычно хранилища данных имеют много справочных таблиц, как и любое другое хранилище данных.

Пример ссылки

Это пример справочной таблицы с категориями риска для водителей транспортных средств. На нее можно ссылаться с любого спутника в хранилище данных. На данный момент мы ссылаемся на нее со спутника S_DRIVER_INSURANCE. Справочная таблица — R_RISK_CATEGORY.

Имя поляОписаниеОбязательный?
R_RISK_CATEGORY_CDКод категории рискаДа
RISK_CATEGORY_DESCОписание категории рискаНет (*)

(*) по крайней мере один атрибут обязателен.

Практика загрузки

ETL для обновления модели хранилища данных довольно прост (см. Data Vault Series 5 – Loading Practices). Сначала вам нужно загрузить все концентраторы, создав суррогатные идентификаторы для любых новых бизнес-ключей. Сделав это, вы теперь можете разрешить все бизнес-ключи в суррогатные идентификаторы, если вы запросите концентратор. Второй шаг – разрешить связи между концентраторами и создать суррогатные идентификаторы для любых новых ассоциаций. В то же время вы также можете создать все сателлиты, которые подключены к концентраторам, поскольку вы можете разрешить ключ в суррогатный идентификатор. После того, как вы создали все новые ссылки с их суррогатными ключами, вы можете добавить сателлиты ко всем ссылкам.

Поскольку хабы не соединены друг с другом, кроме как через ссылки, вы можете загружать все хабы параллельно. Поскольку ссылки не соединены друг с другом напрямую, вы можете загружать все ссылки также параллельно. Поскольку спутники могут быть присоединены только к хабам и ссылкам, вы также можете загружать их параллельно.

ETL довольно прост и легко поддается автоматизации или шаблонизации. Проблемы возникают только со ссылками, относящимися к другим ссылкам, поскольку разрешение бизнес-ключей в ссылке приводит только к другой ссылке, которую также необходимо разрешить. Из-за эквивалентности этой ситуации со ссылкой на несколько концентраторов, этой трудности можно избежать путем ремоделирования таких случаев, и это фактически рекомендуемая практика. [18]

Данные никогда не удаляются из хранилища, если только не возникает техническая ошибка при загрузке данных.

Хранилище данных и пространственное моделирование

Слой, смоделированный хранилищем данных, обычно используется для хранения данных. Он не оптимизирован для производительности запросов, и его нелегко запрашивать с помощью известных инструментов запросов, таких как Cognos , Oracle Business Intelligence Suite Enterprise Edition , SAP Business Objects , Pentaho и др. [ требуется цитата ] Поскольку эти вычислительные инструменты для конечных пользователей ожидают или предпочитают, чтобы их данные содержались в размерной модели , обычно необходимо преобразование.

Для этой цели концентраторы и связанные с ними спутники на этих концентраторах можно рассматривать как измерения, а ссылки и связанные с ними спутники на этих ссылках можно рассматривать как таблицы фактов в размерной модели. Это позволяет быстро прототипировать размерную модель из модели хранилища данных с использованием представлений.

Обратите внимание, что хотя переместить данные из модели хранилища данных в (очищенную) размерную модель относительно просто, обратный процесс не так прост, учитывая денормализованную природу таблиц фактов размерной модели, принципиально отличную от третьей нормальной формы хранилища данных. [29]

Методология

Методология хранилища данных основана на передовых практиках SEI / CMMI Level 5. Она включает в себя несколько компонентов CMMI Level 5 и объединяет их с передовыми практиками Six Sigma , всеобщего управления качеством (TQM) и SDLC. В частности, она ориентирована на гибкую методологию Скотта Эмблера для сборки и развертывания. Проекты хранилища данных имеют короткий, контролируемый по объему цикл выпуска и должны состоять из производственного выпуска каждые 2–3 недели.

Команды, использующие методологию хранилища данных, должны легко адаптироваться к повторяющимся, последовательным и измеримым проектам, которые ожидаются на уровне CMMI 5. Данные, проходящие через систему хранилища данных EDW, начнут следовать жизненному циклу TQM, который долгое время отсутствовал в проектах BI (бизнес-аналитики).

Инструменты

Вот некоторые примеры инструментов: [ требуется пояснение ]

  • 2150 Конструктор хранилищ данных
  • Astera DW Строитель
  • Wherescape
  • Скорость полета
  • АвтоматизированныйDV

Смотрите также

  • Билл Инмон  — американский учёный-компьютерщик
  • Озеро данных  — система или хранилище данных, хранящихся в естественном/сыром формате.
  • Хранилище данных  – Централизованное хранение знаний
  • Жизненный цикл Кимбалла  — последовательность задач высокого уровня, используемая для проектирования, разработки и развертывания хранилища данных или системы бизнес-аналитики Страницы, отображающие описания викиданных в качестве резерва, разработанная Ральфом Кимбаллом  — американским ученым-компьютерщиком и соучредителем хранилища данных.Страницы, отображающие описания викиданных в качестве резерва
  • Зона сбора  – место, где предметы собираются перед использованием.
  • Гибкая бизнес-аналитика

Ссылки

Цитаты

  1. ^ Суперзарядка вашего хранилища данных, стр. 74
  2. ^ Следующее поколение EDW
  3. ^ Создание масштабируемого хранилища данных с помощью Data Vault 2.0, стр. 6
  4. ^ Суперзарядка вашего хранилища данных, стр. 21
  5. ^ Суперзарядка вашего хранилища данных, стр. 76
  6. ^ Порсби, Йохан. «Релаксация для структурирования данных». www.agero.se (на шведском языке) . Проверено 22 февраля 2023 г.
  7. ^ Порсби, Йохан. «Моделист данных для хранилищ данных». www.agero.se (на шведском языке) . Проверено 22 февраля 2023 г.
  8. ^ Создание масштабируемого хранилища данных с помощью Data Vault 2.0, стр. 11
  9. ^ Создание масштабируемого хранилища данных с помощью Data Vault 2.0, стр. xv
  10. ^ "Концепции хранилищ данных: подход Кимбалла против подхода Инмона". Astera . 2020-02-03 . Получено 2024-10-02 .
  11. ^ Новая бизнес-супермодель, глоссарий, стр. 75
  12. ^ Краткое введение в #datavault 2.0
  13. ^ "Создание масштабируемого хранилища данных с помощью Data Vault 2.0[Книга]". www.oreilly.com . Получено 2024-10-02 .
  14. ^ "Data Vault Series 1 – Обзор Data Vault". TDAN.com . 2002-07-01 . Получено 2024-10-02 .
  15. ^ "Data Vault Series 2 – Компоненты Data Vault". TDAN.com . 2003-01-01 . Получено 2024-10-02 .
  16. ^ Data Vault Series 3 – Даты окончания и основные соединения
  17. ^ Data Vault Series 4 – Таблицы ссылок, параграф 2.3
  18. ^ ab Data Vault Series 5 – Практики загрузки
  19. ^ Хранилища данных для чайников, стр. 83
  20. ^ Краткое введение в #datavault 2.0
  21. ^ Анонсировано Data Vault 2.0
  22. ^ Суперзарядка вашего хранилища данных, параграф 5.20, стр. 110
  23. ^ Суперзарядите свое хранилище данных, стр. 61, почему важны бизнес-ключи
  24. ^ ab Форум Data Vault, раздел Стандарты, раздел 3.0 Правила Hub
  25. ^ Спецификация моделирования хранилища данных abc v1.0.9
  26. ^ Эффективность Спутники - dbtvault
  27. ^ Суперзарядка вашего хранилища данных, параграф 8.0, стр. 146
  28. ^ Суперзарядка вашего хранилища данных, параграф 8.0, стр. 149
  29. Мельбурнволт, 16 мая 2023 г.

Источники

  • Линстедт, Дэн (декабрь 2010 г.). Супер зарядите свое хранилище данных . Дэн Линстедт. ISBN 978-0-9866757-1-3.
  • Thomas C. Hammergren; Alan R. Simon (февраль 2009). Data Warehousing for Dummies, 2-е издание . John Wiley & Sons. ISBN 978-0-470-40747-9.
  • Рональд Дамхоф; Лидвин ван Ас (25 августа 2008 г.). «Следующее поколение EDW – Отказ от идеи единой версии истины» (PDF) . Database Magazine (DB/M) . Array Publications BV
  • Линстедт, Дэн. "Data Vault Series 1 – Обзор Data Vault". Data Vault Series . Информационный бюллетень по администрированию данных . Получено 12 сентября 2011 г.
  • Линстедт, Дэн. "Data Vault Series 2 – Data Vault Components". Data Vault Series . Информационный бюллетень по администрированию данных . Получено 12 сентября 2011 г.
  • Линстедт, Дэн. "Data Vault Series 3 – End Dates and Basic Joins". Data Vault Series . Информационный бюллетень по администрированию данных . Получено 12 сентября 2011 г.
  • Линстедт, Дэн. "Data Vault Series 4 – Link Tables". Data Vault Series . Информационный бюллетень по администрированию данных . Получено 12 сентября 2011 г.
  • Линстедт, Дэн. "Data Vault Series 5 – Loading Practices". Data Vault Series . Информационный бюллетень по администрированию данных . Получено 12 сентября 2011 г.
  • Куненборг, Рональд. "Data Vault Rules v1.0.8 Cheat Sheet" (PDF) . Data Vault Rules . Grundsätzlich IT . Получено 26 сентября 2012 г. .Шпаргалка, отражающая правила версии 1.0.8 и дополнительные разъяснения с форумов по правилам версии 1.0.8.
  • Линстедт, Дэн. "Data Vault Modeling Specification v1.0.9". Форум Data Vault . Дэн Линстедт. Архивировано из оригинала 30 ноября 2012 г. Получено 26 сентября 2012 г.
  • Линстедт, Дэн. "Data Vault Loading Specification v1.2". DanLinstedt.com . Дэн Линстедт. Архивировано из оригинала 2014-01-03 . Получено 2014-01-03 .
  • Линстедт, Дэн. "Краткое введение в #datavault 2.0". DanLinstedt.com . Дэн Линстедт. Архивировано из оригинала 2014-01-03 . Получено 2014-01-03 .
  • Линстедт, Дэн. "Data Vault 2.0 анонсирован". DanLinstedt.com . Дэн Линстедт. Архивировано из оригинала 2012-08-21 . Получено 2014-01-03 .
Источники на голландском языке
  • Кетелаарс, MWAM (25 ноября 2005 г.). «Моделирование хранилищ данных и Data Vault». Журнал базы данных (DB/M) (7). Публикации массива BV: 36–40.
  • Верхаген, К.; Врейкорте, Б. (10 июня 2008 г.). «Relationeel против хранилища данных». Журнал базы данных (DB/M) (4). Публикации массива BV: 6–9.

Литература

  • Патрик Куба: Гуру хранилища данных. Практическое руководство по созданию хранилища данных. Издательство Selbstverlag, ohne Ort 2020, ISBN 979-86-9130808-6.
  • Джон Джайлз: Слон в холодильнике. Пошаговые инструкции по успешному использованию хранилища данных путем создания бизнес-ориентированных моделей. Technics, Basking Ridge 2019, ISBN 978-1-63462-489-3.
  • Кент Грациано: Лучшее моделирование данных. Введение в Agile Data Engineering с использованием Data Vault 2.0. Data Warrior, Хьюстон 2015.
  • Ханс Хултгрен: Моделирование гибкого хранилища данных с помощью Data Vault. Брайтон Гамильтон, Денвер и др. 2012, ISBN 978-0-615-72308-2.
  • Дирк Лернер: Data Vault для гибкой архитектуры хранилищ данных. В: Стефан Трахаш, Майкл Циммер (герой): Agile Business Intelligence. Теория и практика. dpunkt.verlag, Гейдельберг, 2016, ISBN 978-3-86490-312-0, S. 83–98.
  • Дэниел Линстедт: Суперзарядите свое хранилище данных. Бесценные правила моделирования данных для реализации вашего хранилища данных. Линстедт, Сент-Олбанс, Вермонт 2011, ISBN 978-1-4637-7868-2.
  • Дэниел Линстедт, Майкл Ольшимке: Создание масштабируемого хранилища данных с помощью Data Vault 2.0. Morgan Kaufmann, Уолтем, Массачусетс 2016, ISBN 978-0-12-802510-9.
  • Дэни Шнайдер, Клаус Джордан, ua: Чертежи хранилища данных. Бизнес-аналитика на практике. Хансер, Мюнхен 2016, ISBN 978-3-446-45075-2, S. 35–37, 161–173.
  • Домашняя страница Дэна Линстедта, изобретателя моделирования Data Vault
Получено с "https://en.wikipedia.org/w/index.php?title=Моделирование_хранилища_данных&oldid=1250247924"