В этой статье указаны источники, но диапазоны ссылок на страницы слишком широкие или неверные . ( Июнь 2018 г. ) |
Многомерное моделирование ( DM ) является частью методологии жизненного цикла бизнес-измерений, разработанной Ральфом Кимбаллом , которая включает в себя набор методов, приемов и концепций для использования при проектировании хранилища данных . [1] : 1258–1260 [2] Подход фокусируется на определении ключевых бизнес-процессов в рамках бизнеса, а также на их моделировании и внедрении в первую очередь перед добавлением дополнительных бизнес-процессов, как подход «снизу вверх» . [1] : 1258–1260 Альтернативный подход от Инмона выступает за проектирование модели всех корпоративных данных сверху вниз с использованием таких инструментов, как моделирование сущности-связи (ER). [1] : 1258–1260
Размерное моделирование всегда использует концепции фактов (мер) и измерений (контекста). Факты обычно (но не всегда) представляют собой числовые значения, которые можно агрегировать, а измерения представляют собой группы иерархий и дескрипторов, которые определяют факты. Например, объем продаж является фактом; временная метка, продукт, номер регистра, номер магазина и т. д. являются элементами измерений. Размерные модели строятся по областям бизнес-процессов, например, продажи в магазине, инвентарь, претензии и т. д. Поскольку различные области бизнес-процессов разделяют некоторые, но не все измерения, эффективность в проектировании, эксплуатации и согласованности достигается с помощью согласованных измерений , т. е. с использованием одной копии общего измерения для всех предметных областей. [ необходима ссылка ]
Многомерное моделирование не обязательно подразумевает реляционную базу данных. Тот же подход к моделированию на логическом уровне может быть использован для любой физической формы, например, многомерной базы данных или даже плоских файлов. Он ориентирован на понятность и производительность. [ необходима цитата ]
Размерная модель строится на основе звездообразной схемы или схемы «снежинка» с размерами, окружающими таблицу фактов. [3] [4] Для построения схемы используется следующая модель проектирования:
Процесс размерного моделирования строится на 4-шаговом методе проектирования, который помогает обеспечить удобство использования размерной модели и использования хранилища данных . Основы проектирования строятся на фактическом бизнес-процессе, который должно охватывать хранилище данных . Поэтому первым шагом в модели является описание бизнес-процесса, на котором строится модель. Это может быть, например, ситуация продаж в розничном магазине. Чтобы описать бизнес-процесс, можно сделать это в виде обычного текста или использовать базовую модель и нотацию бизнес-процесса (BPMN) или другие руководства по проектированию, такие как Unified Modeling Language |UML).
После описания бизнес-процесса следующим шагом в проектировании является объявление зернистости модели. Зернистость модели — это точное описание того, на чем должна фокусироваться размерная модель. Это может быть, например, «Отдельная позиция на квитанции покупателя из розничного магазина». Чтобы прояснить, что означает зернистость, вам следует выбрать центральный процесс и описать его одним предложением. Более того, зернистость (предложение) — это то, из чего вы собираетесь строить свои измерения и таблицу фактов. Возможно, вам понадобится вернуться к этому шагу, чтобы изменить зернистость из-за новой информации, полученной о том, что ваша модель должна предоставлять.
Третий шаг в процессе проектирования — определение измерений модели. Измерения должны быть определены в пределах зерна из второго шага 4-шагового процесса. Измерения являются основой таблицы фактов и местом сбора данных для таблицы фактов. Обычно измерения — это существительные, такие как дата, магазин, инвентарь и т. д. Эти измерения — место, где хранятся все данные. Например, измерение даты может содержать такие данные, как год, месяц и день недели.
После определения измерений следующим шагом в процессе является создание ключей для таблицы фактов. Этот шаг заключается в определении числовых фактов, которые будут заполнять каждую строку таблицы фактов. Этот шаг тесно связан с бизнес-пользователями системы, поскольку именно здесь они получают доступ к данным, хранящимся в хранилище данных . Поэтому большинство строк таблицы фактов являются числовыми, аддитивными показателями, такими как количество или стоимость за единицу и т. д.
Нормализация размеров или снежинка удаляет избыточные атрибуты, которые известны в нормальных выравнивающих ненормализованных измерениях. Измерения строго соединены вместе в подизмерениях.
Снежинка влияет на структуру данных, которая отличается от многих философий хранилищ данных. [4] Одна таблица данных (фактов), окруженная несколькими описательными (измеренийными) таблицами
Разработчики часто не нормализуют размеры по нескольким причинам: [5]
Есть некоторые аргументы о том, почему нормализация может быть полезной. [4] Это может быть преимуществом, когда часть иерархии является общей для более чем одного измерения. Например, географическое измерение может быть повторно используемым, поскольку его используют и измерения клиента, и измерения поставщика.
This section may rely excessively on sources too closely associated with the subject, potentially preventing the article from being verifiable and neutral. (June 2018) |
Преимущества размерной модели следующие: [6]
Мы по-прежнему получаем преимущества размерных моделей на Hadoop и подобных фреймворках больших данных . Однако некоторые функции Hadoop требуют от нас немного адаптировать стандартный подход к размерному моделированию. [ необходима цитата ]