Зона подготовки или зона посадки — это промежуточная область хранения, используемая для обработки данных во время процесса извлечения, преобразования и загрузки (ETL) . Зона подготовки данных находится между источником(ами) данных и целью(ями) данных, которые часто являются хранилищами данных , витринами данных или другими репозиториями данных. [1]
Области подготовки данных часто являются временными по своей природе, их содержимое стирается до запуска процесса ETL или сразу после успешного завершения процесса ETL. Такая область подготовки иногда называется транзитной областью подготовки (TSA).
Однако существуют архитектуры промежуточных областей, которые предназначены для хранения данных в течение длительных периодов времени в целях архивирования или устранения неполадок. Постоянная промежуточная область (PSA) — это тип промежуточной области в хранилище данных, которая отслеживает всю историю изменений исходной таблицы или запроса. [2]
Области подготовки могут быть реализованы в виде таблиц в реляционных базах данных, текстовых плоских файлов (или XML-файлов), хранящихся в файловых системах, или фирменных форматированных двоичных файлов, хранящихся в файловых системах. [3] Архитектуры областей подготовки различаются по сложности от набора простых реляционных таблиц в целевой базе данных до автономных экземпляров баз данных или файловых систем. [4] Хотя исходные и целевые системы, поддерживаемые процессами ETL, часто являются реляционными базами данных, области подготовки, которые находятся между источниками данных и целями, не обязательно также должны быть реляционными базами данных. [5]
Зоны подготовки могут быть спроектированы для предоставления многих преимуществ, но основными мотивами их использования являются повышение эффективности процессов ETL, обеспечение целостности данных и поддержка операций по обеспечению качества данных. Функции зоны подготовки включают в себя следующее:
Одной из основных функций, выполняемых промежуточной областью, является консолидация данных из нескольких исходных систем. [3] При выполнении этой функции промежуточная область действует как большой «ковш», в который данные из нескольких исходных систем могут быть временно помещены для дальнейшей обработки. Обычно данные в промежуточной области помечаются дополнительными метаданными, указывающими источник происхождения, и временными метками, указывающими, когда данные были помещены в промежуточную область.
Выравнивание данных включает стандартизацию справочных данных в нескольких исходных системах и проверку взаимосвязей между записями и элементами данных из разных источников. [3] Выравнивание данных в промежуточной области — это функция, тесно связанная с возможностями управления основными данными и поддерживающая их . [6]
Область подготовки и поддерживаемые ею процессы ETL часто разрабатываются с целью минимизации конфликтов в исходных системах. Копирование требуемых данных из исходных систем в область подготовки за один раз часто более эффективно, чем извлечение отдельных записей (или небольших наборов записей) на одноразовой основе. Первый метод использует преимущества технической эффективности, такие как технологии потоковой передачи данных, снижение накладных расходов за счет минимизации необходимости разрыва и повторного установления соединений с исходными системами и оптимизацию управления блокировкой параллелизма в многопользовательских исходных системах. Копируя исходные данные из исходных систем и ожидая выполнения интенсивной обработки и преобразования в области подготовки, процесс ETL осуществляет большую степень контроля над проблемами параллелизма во время обработки.
Область подготовки может поддерживать размещение данных, которые должны обрабатываться по независимым графикам, и данных, которые должны быть направлены на несколько целей. [3] В некоторых случаях данные могут быть загружены в область подготовки в разное время для хранения и обработки одновременно. Такая ситуация может возникнуть, например, когда обработка на предприятии выполняется в нескольких часовых поясах каждую ночь. В других случаях данные могут быть загружены в область подготовки для обработки в разное время; или область подготовки может использоваться для передачи данных в несколько целевых систем. Например, ежедневные операционные данные могут быть загружены в хранилище операционных данных (ODS) , в то время как те же данные могут быть отправлены в ежемесячной агрегированной форме в хранилище данных.
Зона подготовки поддерживает эффективные операции по обнаружению изменений в отношении целевых систем. Эта функциональность особенно полезна, когда исходные системы не поддерживают надежные формы обнаружения изменений, такие как системная временная метка, отслеживание изменений или сбор данных об изменениях (CDC) .
Очистка данных включает в себя идентификацию и удаление (или обновление) недействительных данных из исходных систем. Процесс ETL, использующий промежуточную область, может использоваться для реализации бизнес-логики для идентификации и обработки «недействительных» данных. Недействительные данные часто определяются посредством комбинации бизнес-правил и технических ограничений. Технические ограничения могут быть дополнительно наложены на структуры промежуточной области (например, ограничения таблиц в реляционной базе данных) для обеспечения соблюдения правил валидности данных. [3]
Предварительный расчет агрегатов, сложные вычисления и применение сложной бизнес-логики могут выполняться в промежуточной области для поддержки высокоэффективных соглашений об уровне обслуживания (SLA) для сводной отчетности в целевых системах. [4]
Архивирование данных может выполняться в промежуточной области или поддерживаться ею. В этом сценарии промежуточная область может использоваться для сохранения исторических записей во время процесса загрузки или для передачи данных в целевую структуру архива. Кроме того, данные могут храниться в промежуточной области в течение длительных периодов времени для поддержки технического устранения неполадок процесса ETL. [4]