Загрузка данных

Загрузка данных , или просто загрузка , является частью обработки данных , при которой данные перемещаются между двумя системами таким образом, чтобы они оказались в промежуточной области в целевой системе.

При традиционном методе извлечения, преобразования и загрузки (ETL) задание по загрузке является последним шагом, а загружаемые данные уже преобразованы. При альтернативном методе извлечения, загрузки и преобразования (ELT) задание по загрузке является средним шагом, а преобразованные данные загружаются в исходном формате для преобразования данных в целевой системе.

Традиционно загрузка заданий на больших системах занимала много времени и, как правило, выполнялась ночью, вне часов работы компании.

Цель

Две основные цели загрузки данных — получить более свежие данные в системах после загрузки и сделать загрузку быстрой, чтобы данные можно было часто обновлять. Для полного обновления данных более быстрой загрузки можно добиться, отключив ссылочную целостность , вторичные индексы и протоколирование , но это обычно не допускается при инкрементальном обновлении или тонкой подаче.

Типы

Загрузка данных может осуществляться либо полным обновлением (немедленно), либо инкрементной загрузкой и обновлением (немедленно), либо тонкой подачей (отложенно). Выбор метода может зависеть от объема данных, которые обновляются, изменяются или добавляются, а также от того, насколько актуальными должны быть данные. Тип данных, предоставляемых исходной системой, и можно ли доверять историческим данным, предоставляемым исходной системой, также являются важными факторами.

Полное обновление

Полное обновление данных означает, что существующие данные в целевой таблице сначала удаляются. Затем все данные из источника загружаются в целевую таблицу, в целевой таблице создаются новые индексы, а для обновленной таблицы рассчитываются новые меры .

Полное обновление легко реализовать, но оно подразумевает перемещение большого количества данных, что может занять много времени и затруднить сохранение исторических данных. ^[1]

Инкрементное обновление

Инкрементальное обновление или инкрементальное обновление означает, что из исходной системы извлекаются только новые или обновленные данные. ^[2]^[3] Затем обновленные данные добавляются к существующим данным в целевой системе, а существующие данные в целевой системе обновляются. Индексы и статистика обновляются соответствующим образом. Инкрементальное обновление может ускорить загрузку и упростить отслеживание истории, но может быть сложным в настройке и обслуживании. ^[1]

Тройная подача

Тройная подача или струйная загрузка означает, что при обновлении исходной системы изменения в целевой системе произойдут практически немедленно. ^[4]^[5]

Загрузка в используемые системы

При загрузке данных в систему, которая в данный момент используется пользователями или другими системами, необходимо решить, когда система должна быть обновлена и что произойдет с таблицами, которые используются в то же время, когда система должна быть обновлена. Одним из возможных решений является использование теневых таблиц . ^[6]^[7]

Смотрите также

Ссылки

^ ab "Инкрементальная загрузка данных против полной загрузки ETL: 4 критических различия - Learn | Hevo". 2022-04-14 . Получено 2023-02-18 .
^ "Инкрементная загрузка" . Получено 2023-02-18 .
^ Митчелл, Тим (2020-07-23). "Что, почему, когда и как в инкрементальных нагрузках" . Получено 2023-02-18 .
^ Zuters, Janis (2011). «Близкое к реальному времени хранение данных с многоступенчатым потоком и переворотом». В Grabis, Janis; Kirikova, Marite (ред.). Перспективы исследований в области деловой информатики . Конспект лекций по обработке деловой информации. Том 90. Springer Berlin Heidelberg. стр. 73– 82. doi :10.1007/978-3-642-24511-4_6. ISBN 978-3-642-24510-7. Хранилище данных обычно представляет собой набор исторических данных, предназначенных для поддержки принятия решений, поэтому оно периодически обновляется из источников, в основном ежедневно. Однако современный бизнес требует более свежих данных. Хранилище в реальном времени является одной из тенденций для достижения этой цели, но существует ряд проблем на пути к настоящему реальному времени. В этой статье предлагается методология «многоэтапного ручейка и переворота» для обновления хранилища данных. Она основана на принципе «ручейка и переворота» и расширена для дальнейшей изоляции действий по загрузке и запросам, что позволяет им быть более эффективными.
^ "Данные о постепенной загрузке" . Получено 2023-02-18 .
^ "Создание теневых таблиц для синхронизации - Управление данными - Центр документации Alibaba Cloud" . Получено 2023-02-18 .
^ "Теневые таблицы". IBM . 2015-08-10 . Получено 2023-02-18 .

[:0-1] "Инкрементальная загрузка данных против полной загрузки ETL: 4 критических различия - Learn | Hevo". 2022-04-14 . Получено 2023-02-18 .

[2] "Инкрементная загрузка" . Получено 2023-02-18 .

[3] Митчелл, Тим (2020-07-23). "Что, почему, когда и как в инкрементальных нагрузках" . Получено 2023-02-18 .

[4] Zuters, Janis (2011). «Близкое к реальному времени хранение данных с многоступенчатым потоком и переворотом». В Grabis, Janis; Kirikova, Marite (ред.). Перспективы исследований в области деловой информатики . Конспект лекций по обработке деловой информации. Том 90. Springer Berlin Heidelberg. стр. 73– 82. doi :10.1007/978-3-642-24511-4_6. ISBN 978-3-642-24510-7. Хранилище данных обычно представляет собой набор исторических данных, предназначенных для поддержки принятия решений, поэтому оно периодически обновляется из источников, в основном ежедневно. Однако современный бизнес требует более свежих данных. Хранилище в реальном времени является одной из тенденций для достижения этой цели, но существует ряд проблем на пути к настоящему реальному времени. В этой статье предлагается методология «многоэтапного ручейка и переворота» для обновления хранилища данных. Она основана на принципе «ручейка и переворота» и расширена для дальнейшей изоляции действий по загрузке и запросам, что позволяет им быть более эффективными.

[5] "Данные о постепенной загрузке" . Получено 2023-02-18 .

[6] "Создание теневых таблиц для синхронизации - Управление данными - Центр документации Alibaba Cloud" . Получено 2023-02-18 .

[7] "Теневые таблицы". IBM . 2015-08-10 . Получено 2023-02-18 .