Апач Айсберг

Формат таблицы больших данных
Апач Айсберг
Оригинальный автор(ы)Райан Блю, Дэниел Уикс
Первоначальный выпуск10 августа 2017 г. ; 7 лет назад ( 10 августа 2017 )
Написано вЯва , Питон
Операционная системаКроссплатформенный
ТипХранилище данных , Озеро данных
ЛицензияЛицензия Apache 2.0
Веб-сайт
  • iceberg.apache.org

Apache Iceberg — это высокопроизводительный формат с открытым исходным кодом для больших аналитических таблиц . Iceberg позволяет использовать таблицы SQL для больших данных, одновременно позволяя таким движкам, как Spark , Trino , Flink , Presto , Hive , Impala , StarRocks, Doris и Pig , безопасно работать с теми же таблицами. [1] Iceberg выпускается по лицензии Apache . [2] Iceberg решает проблемы производительности и удобства использования таблиц Apache Hive в больших и требовательных средах озер данных. [3] Поставщики, в настоящее время поддерживающие таблицы Apache Iceberg, включают Buster, [4] CelerData, Cloudera , Crunchy Data, [5] Dremio, IOMETE, Snowflake , Starburst, Tabular, [6] AWS , [7] и Google Cloud . [8]

История

Iceberg был создан в Netflix Райаном Блю и Дэном Уиксом. Hive использовался многими различными службами и движками в инфраструктуре Netflix. Hive никогда не мог гарантировать корректность и не обеспечивал стабильных атомарных транзакций . [3] Многие в Netflix избегали использования этих служб и внесения изменений в данные, чтобы предотвратить непреднамеренные последствия от формата Hive. [3] Райан Блю намеревался решить три проблемы, с которыми столкнулась таблица Hive, создав Iceberg: [3] [9]

  1. Обеспечьте корректность данных и поддержите транзакции ACID .
  2. Повысьте производительность, обеспечив возможность выполнения более мелких операций на уровне файлов для оптимальной записи.
  3. Упростить и абстрагировать общие операции и обслуживание таблиц.

Разработка Iceberg началась в 2017 году. [10] Проект был открыт и передан в дар Apache Software Foundation в ноябре 2018 года. [11] В мае 2020 года проект Iceberg получил статус проекта Apache верхнего уровня. [11]

Iceberg используется многими компаниями, включая Airbnb , [12] Apple , [3] Expedia , [13] LinkedIn , [14] Adobe , [15] Lyft и многими другими. [16]

Смотрите также

Ссылки

  1. ^ "Apache Iceberg". iceberg.apache.org . Получено 5 октября 2022 г. .
  2. ^ "apache/iceberg GitHub License". Apache Software Foundation. 5 октября 2022 г. Получено 5 октября 2022 г.
  3. ^ abcde Вуди, Алекс (8 февраля 2021 г.). «Apache Iceberg: The Hub of an Emerging Data Service Ecosystem?». Datanami . Архивировано из оригинала 4 сентября 2024 г. Получено 5 октября 2022 г.
  4. ^ "Buster". Архивировано из оригинала 2024-09-09 . Получено 2024-09-09 .
  5. ^ Вуди, Алекс (24 июля 2024 г.). «Crunchy Data Goes All-in With Postgres». The Big Data Wire . Архивировано из оригинала 13 сентября 2024 г. Получено 9 ноября 2024 г.
  6. ^ "Поставщики". iceberg.apache.org . Получено 2023-05-05 .
  7. ^ «Использование таблиц Apache Iceberg – Amazon Athena». Amazon Web Services, Inc. Архивировано из оригинала 2024-09-04 . Получено 2023-06-16 .
  8. ^ "Таблицы Google Cloud BigQuery для Apache Iceberg". Google Cloud, Inc. Архивировано из оригинала 2024-11-22 . Получено 2024-11-21 .
  9. ^ «Айсберг в Netflix и дальше с Райаном Блю, ЭПИЗОД 1654 Транскрипт». Software Engineering Daily . 7 марта 2024 г. Архивировано из оригинала 10 ноября 2024 г. Получено 10 ноября 2024 г.
  10. ^ "Первоначальный публичный релиз в Apache/Iceberg". GitHub . Архивировано из оригинала 4 сентября 2024 г. Получено 5 октября 2022 г.
  11. ^ ab "Шаблон статуса инкубации - Apache Incubator". incubator.apache.org . Архивировано из оригинала 2022-10-05 . Получено 2022-10-05 .
  12. ^ Чжу, Ронни (26 сентября 2022 г.). «Обновление инфраструктуры хранилища данных в Airbnb». Технический блог Airbnb .
  13. ^ Матисен, Кристин (26 января 2021 г.). «Краткое введение в Apache Iceberg». Expedia Group Technology . Архивировано из оригинала 5 октября 2022 г. . Получено 5 октября 2022 г. .
  14. ^ "FastIngest: Low-latency Gobblin с Apache Iceberg и форматом ORC". engineering.linkedin.com . Архивировано из оригинала 2024-09-04 . Получено 2022-10-05 .
  15. ^ Бремнер, Джаеми (3 декабря 2020 г.). «Айсберг в Adobe». Medium . Архивировано из оригинала 4 сентября 2024 г. . Получено 5 октября 2022 г. .
  16. ^ Council, Data. "Open Source Highlight: Apache Iceberg". www.datacouncil.ai . Архивировано из оригинала 5 октября 2022 г. . Получено 5 октября 2022 г. .
Взято с "https://en.wikipedia.org/w/index.php?title=Apache_Iceberg&oldid=1263416358"