В вычислительной технике термин «устройство хранилища данных» ( DWA ) был придуман Фостером Хиншоу [1] [2] для компьютерной архитектуры для хранилищ данных (DW), специально предназначенной для анализа и обнаружения больших данных , которая проста в использовании (не является предварительной конфигурацией) и имеет высокую производительность для рабочей нагрузки. DWA включает в себя интегрированный набор серверов, хранилищ, операционных систем и баз данных .
В маркетинге этот термин стал включать в себя предварительно установленное и предварительно оптимизированное оборудование и программное обеспечение, а также аналогичные системы, состоящие только из программного обеспечения [3], которые рекламируются как простые в установке на определенных рекомендуемых конфигурациях оборудования или предварительно настроенные как полная система. [4] [5] Это маркетинговые применения термина, которые не отражают его технического определения.
DWA разработан специально для высокопроизводительной аналитики больших данных и поставляется как простая в использовании упакованная система. Устройства DW продаются для объемов данных в диапазоне от терабайта до петабайта .
Устройство хранилища данных (DWA) имеет несколько характеристик, которые отличают эту архитектуру от аналогичных машин в центре обработки данных , таких как корпоративное хранилище данных (EDW).
Большинство устройств DW используют архитектуры с массивно-параллельной обработкой (MPP) для обеспечения высокой производительности запросов и масштабируемости платформы . Архитектуры MPP состоят из независимых процессоров или серверов, работающих параллельно. Большинство архитектур MPP реализуют « архитектуру без общего доступа », где каждый сервер работает самостоятельно и управляет собственной памятью и диском. Устройства DW распределяют данные на выделенные дисковые хранилища, подключенные к каждому серверу в устройстве. Такое распределение позволяет устройствам DW разрешать реляционные запросы путем параллельного сканирования данных на каждом сервере. Подход «разделяй и властвуй» обеспечивает высокую производительность и линейно масштабируется по мере добавления новых серверов в архитектуру.
«Устройство хранилища данных» — термин, введенный Фостером Хиншоу, [1] [2] основателем Netezza . При создании первого устройства хранилища данных Хиншоу и Netezza использовали основы, разработанные Model 204 , Teradata и другими, чтобы стать пионерами новой категории для эффективного решения потребительской аналитики путем предоставления модульной, масштабируемой, простой в управлении системы баз данных, которая является экономически эффективной.
Архитектуры баз данных MPP имеют долгую родословную. Некоторые считают первоначальный продукт Teradata первым устройством DW — или Britton-Lee . [6] [7] Teradata приобрела Britton Lee — переименованную в ShareBase — в июне 1990 года. [8] Другие не согласны, считая устройства «подрывной технологией» для Teradata [9]
Дополнительные поставщики, включая Tandem Computers и Sequent Computer Systems, также предлагали архитектуры MPP в 1980-х годах. Компоненты вычислений с открытым исходным кодом и общедоступные компоненты способствовали повторному появлению устройств хранения данных MPP. Достижения в области технологий снизили затраты и повысили производительность устройств хранения, многоядерных процессоров и сетевых компонентов. Продукты RDBMS с открытым исходным кодом , такие как Ingres и PostgreSQL , снижают затраты на лицензии на программное обеспечение и позволяют поставщикам устройств DW сосредоточиться на оптимизации, а не на предоставлении базовой функциональности базы данных. Linux с открытым исходным кодом стал общей операционной системой для устройств DW.
Другие поставщики устройств DW используют специализированное оборудование и передовое программное обеспечение вместо архитектур MPP. [10] Netezza анонсировала «устройство данных» в 2003 году и использовала специализированное программируемое вентильное оборудование. [11] Kickfire последовала за ними в 2008 году с тем, что они назвали потоком данных «sql chip». [12] [ необходима цитата ]
В 2009 году появилось больше устройств DW. IBM интегрировала свое хранилище InfoSphere (ранее DB2 Warehouse) со своими собственными серверами и системами хранения, чтобы создать IBM InfoSphere Balanced Warehouse . Netezza представила свою платформу TwinFin на основе товарного оборудования IBM. Другие поставщики устройств DW также сотрудничали с крупными поставщиками оборудования. DATAllegro , до приобретения Microsoft , сотрудничала с EMC Corporation и Dell и реализовала Ingres с открытым исходным кодом на Linux. Greenplum сотрудничала с Sun Microsystems и внедряет базу данных Greenplum (на основе PostgreSQL) на Solaris с использованием файловой системы ZFS . HP Neoview использует HP NonStop SQL .
На рынке также появились пакеты хранилищ данных, в которых поставщики объединяют свое оборудование и программное обеспечение баз данных в качестве платформы хранилища данных. Инициатива Oracle Optimized Warehouse объединяет Oracle Database с оборудованием от различных производителей компьютеров ( Dell , EMC , HP , IBM , SGI и Sun Microsystems ). Оптимизированные хранилища Oracle предлагают предварительно проверенные конфигурации, а программное обеспечение базы данных поставляется предварительно установленным. В сентябре 2008 года Oracle начала предлагать более классическое предложение устройств, HP Oracle Database Machine, совместно разработанную и кобрендовую платформу, которую Oracle продавала и поддерживала, а HP создавала конфигурации специально для Oracle. [13] [14] В сентябре 2009 года Oracle выпустила систему Exadata второго поколения на основе приобретенного оборудования Sun Microsystems . [15]
фактически создала рынок устройств хранения данных четверть века назад, когда она выпустила первое из длинной линейки предварительно настроенных, предварительно оптимизированных решений, объединяющих ЦП, хранилище, программное обеспечение и базу данных для удовлетворения самых строгих требований к аналитике и поддержке принятия решений.
с практической точки зрения первыми двумя значимыми поставщиками "машин баз данных" были Britton-Lee и Teradata. И поскольку Britton-Lee в конечном итоге продался Teradata (после краткого изменения названия на ShareBase), Teradata имеет право на всю историческую славу, которая достается ей от инноваций в категории устройств управления базами данных.
DATAllegro есть сайт в Sears. Sears использует [устройство] в качестве интерфейса к своему хранилищу Teradata для расчета агрегатов. Поэтому, когда они хотят сделать срез и кубик, сколько мы продали, в каких магазинах и какого цвета, они используют устройство... Я думаю, [устройства] могут стать прорывной технологией для Teradata