Apache Iceberg — это высокопроизводительный формат с открытым исходным кодом для больших аналитических таблиц . Iceberg позволяет использовать таблицы SQL для больших данных, одновременно позволяя таким движкам, как Spark , Trino , Flink , Presto , Hive , Impala , StarRocks, Doris и Pig , безопасно работать с теми же таблицами. [1] Iceberg выпускается по лицензии Apache . [2] Iceberg решает проблемы производительности и удобства использования таблиц Apache Hive в больших и требовательных средах озер данных. [3] Поставщики, в настоящее время поддерживающие таблицы Apache Iceberg, включают Buster, [4] CelerData, Cloudera , Crunchy Data, [5] Dremio, IOMETE, Snowflake , Starburst, Tabular, [6] AWS , [7] и Google Cloud . [8]
История
Iceberg был создан в Netflix Райаном Блю и Дэном Уиксом. Hive использовался многими различными службами и движками в инфраструктуре Netflix. Hive никогда не мог гарантировать корректность и не обеспечивал стабильных атомарных транзакций . [3] Многие в Netflix избегали использования этих служб и внесения изменений в данные, чтобы предотвратить непреднамеренные последствия от формата Hive. [3] Райан Блю намеревался решить три проблемы, с которыми столкнулась таблица Hive, создав Iceberg: [3] [9]
Обеспечьте корректность данных и поддержите транзакции ACID .
Повысьте производительность, обеспечив возможность выполнения более мелких операций на уровне файлов для оптимальной записи.
Упростить и абстрагировать общие операции и обслуживание таблиц.
Разработка Iceberg началась в 2017 году. [10] Проект был открыт и передан в дар Apache Software Foundation в ноябре 2018 года. [11] В мае 2020 года проект Iceberg получил статус проекта Apache верхнего уровня. [11]
Iceberg используется многими компаниями, включая Airbnb , [12] Apple , [3] Expedia , [13] LinkedIn , [14] Adobe , [15] Lyft и многими другими. [16]
^ "Apache Iceberg". iceberg.apache.org . Получено 5 октября 2022 г. .
^ "apache/iceberg GitHub License". Apache Software Foundation. 5 октября 2022 г. Получено 5 октября 2022 г.
^ abcde Вуди, Алекс (8 февраля 2021 г.). «Apache Iceberg: The Hub of an Emerging Data Service Ecosystem?». Datanami . Архивировано из оригинала 4 сентября 2024 г. Получено 5 октября 2022 г.
^ "Buster". Архивировано из оригинала 2024-09-09 . Получено 2024-09-09 .
^ Вуди, Алекс (24 июля 2024 г.). «Crunchy Data Goes All-in With Postgres». The Big Data Wire . Архивировано из оригинала 13 сентября 2024 г. Получено 9 ноября 2024 г.
^ «Использование таблиц Apache Iceberg – Amazon Athena». Amazon Web Services, Inc. Архивировано из оригинала 2024-09-04 . Получено 2023-06-16 .
^ "Таблицы Google Cloud BigQuery для Apache Iceberg". Google Cloud, Inc. Архивировано из оригинала 2024-11-22 . Получено 2024-11-21 .
^ «Айсберг в Netflix и дальше с Райаном Блю, ЭПИЗОД 1654 Транскрипт». Software Engineering Daily . 7 марта 2024 г. Архивировано из оригинала 10 ноября 2024 г. Получено 10 ноября 2024 г.
^ "Первоначальный публичный релиз в Apache/Iceberg". GitHub . Архивировано из оригинала 4 сентября 2024 г. Получено 5 октября 2022 г.
^ ab "Шаблон статуса инкубации - Apache Incubator". incubator.apache.org . Архивировано из оригинала 2022-10-05 . Получено 2022-10-05 .
^ Чжу, Ронни (26 сентября 2022 г.). «Обновление инфраструктуры хранилища данных в Airbnb». Технический блог Airbnb .
^ Матисен, Кристин (26 января 2021 г.). «Краткое введение в Apache Iceberg». Expedia Group Technology . Архивировано из оригинала 5 октября 2022 г. . Получено 5 октября 2022 г. .
^ "FastIngest: Low-latency Gobblin с Apache Iceberg и форматом ORC". engineering.linkedin.com . Архивировано из оригинала 2024-09-04 . Получено 2022-10-05 .
^ Бремнер, Джаеми (3 декабря 2020 г.). «Айсберг в Adobe». Medium . Архивировано из оригинала 4 сентября 2024 г. . Получено 5 октября 2022 г. .
^ Council, Data. "Open Source Highlight: Apache Iceberg". www.datacouncil.ai . Архивировано из оригинала 5 октября 2022 г. . Получено 5 октября 2022 г. .