SAP-IQ

Система программного обеспечения
SAP-IQ
Разработчик(и)САП
Первоначальный выпуск1990
Стабильный релиз
16 / Май 2021 ; 3 года назад ( 2021-05 )
Операционная системаMicrosoft Windows Server , Linux , UNIX
ПлатформаКроссплатформенное программное обеспечение
Доступно вМногоязычный
ТипБизнес-аналитика
Хранилище данных
Аналитика
ЛицензияЗапатентованный
Веб-сайтВеб-сайт SAP IQ

SAP IQ (ранее известный как SAP Sybase IQ или Sybase IQ ; IQ для Intelligent Query ) — это система программного обеспечения для реляционной базы данных на основе столбцов , масштабируемая в петабайтах, используемая для бизнес-аналитики , хранилищ данных и витрин данных. Разработанная Sybase Inc. , теперь компанией SAP , ее основная функция заключается в анализе больших объемов данных в недорогой, высокодоступной среде. SAP IQ часто приписывают [1] как пионера коммерциализации технологии колоночного хранилища.

В основе SAP IQ лежит технология колоночного хранения, которая обеспечивает быстрое сжатие и специальный анализ. SAP IQ имеет открытый интерфейсный подход к своей экосистеме. SAP IQ также интегрирован с портфелем продуктов SAP Business Intelligence для формирования сквозного программного стека бизнес-аналитики и является неотъемлемым компонентом архитектуры SAP In-Memory Data Fabric и платформы управления данными.

История

В начале 1990-х годов компания Expressway Technologies, Inc. из Уолтема, штат Массачусетс, разработала Expressway 103 — оптимизированный для аналитики движок на основе столбцов , который в конечном итоге стал Sybase IQ. Sybase приобрела Expressway и повторно представила продукт в 1995 году как IQ Accelerator, а затем вскоре переименовала его в Sybase IQ, дав ему номер версии 11.0. [2]

Предлагая продукт IQ как часть набора связанных технологий, часто встречающихся в хранилищах данных (включая Sybase Adaptive Server Enterprise , Replication Server, PowerDesigner PowerDesigner и SQL Anywhere ), Sybase стала одной из первых крупных компаний, признавших необходимость специализированных продуктов для рынка хранилищ данных. [3]

В версии 12.0 Sybase заменила слабосвязанный интерфейс запросов Adaptive Server Enterprise на тесную связь с SQL Anywhere.

Версия 16 предлагает переработанное хранилище столбцов для экстремальных петабайтных масштабов, объемов данных и более экстремального сжатия данных. [4]

В 2014 году SAP HANA совместно с партнерами BMMsoft, HP, Intel, NetApp и Red Hat объявили о создании крупнейшего в мире хранилища данных. Команда инженеров из SAP, BMMsoft, HP, Intel, NetApp и Red Hat построила хранилище данных с использованием SAP HANA и SAP IQ 16, с BMMsoft Federated EDMT, работающим на серверах HP DL580 с использованием процессоров Intel Xeon E7-4870 под управлением Red Hat Enterprise Linux 6 и хранилища NetApp FAS6290 и E5460. Разработка и тестирование хранилища данных объемом 12,1 ПБ проводились лабораторией SAP/Intel Petascale в Санта-Кларе, Калифорния, и были проверены InfoSizing, независимым сертифицированным аудитором Transaction Processing Council. [5]

История версий

С выпуском SP08 номера версий были изменены для соответствия номерам версий SAP HANA, чтобы отразить непрерывную интеграцию продукта с SAP HANA. Фактическое название выпуска SP03 является продолжением SP02, охватывая все платформы, не затронутые выпуском.

Структура данных в памяти

Новый подход SAP оптимизирует и упрощает хранилище данных в In-Memory Data Fabric. [6]

Архитектура In-Memory Data Fabric от SAP

SAP IQ с SAP HANA

С появлением больших данных SAP IQ объединился с SAP HANA для предоставления распределенной аналитической платформы в памяти. Существует три основных приложения и варианта использования, которые пытаются извлечь выгоду из сильных сторон SAP IQ в отношении масштабируемости и производительности в качестве EDW и процессора больших данных, используя при этом скорость SAP HANA в памяти для оперативной отчетности:

SAP IQ как ближайшая линейная услуга (NLS) для SAP HANA

Решение SAP-NLS для SAP BW(/4) все версии

SAP HANA для оперативной отчетности с SAP IQ для обработки больших данных (NLS)

В этом сценарии данные SAP Enterprise Resource Planning (ERP) поступают в SAP HANA, которая действует как хранилище операционных данных для немедленного анализа. После анализа данные интегрируются в SAP IQ через механизмы хранения Near-line (как описано выше). Здесь SAP IQ действует как хранилище корпоративных данных, которое получает данные из различных традиционных источников (таких как базы данных OLTP и файловые системы) и SAP HANA Operational Data Store (ODS) [7]

Q — простой установщик для SAP IQ

SAP IQ как корпоративное хранилище данных (EDW) с SAP HANA как гибкая витрина данных

Когда SAP IQ используется как EDW, его также можно дополнить технологией HANA in-memory. Обычное использование включает в себя отчеты по планированию и анализу, где требуется одновременная обработка OLTP. В этом случае данные перетекают из SAP IQ в SAP HANA. [7] SAP BusinessObjects BI можно использовать для достижения видимости на обеих платформах.

Технологии

SAP IQ 16 Engine

Для пользователя SAP IQ выглядит как любая реляционная СУБД с языковым слоем на основе SQL, доступным через драйверы ODBC / JDBC . Однако внутри Sybase IQ — это столбцово-ориентированная СУБД , которая хранит таблицы данных как разделы столбцов данных, а не как строки данных, как большинство транзакционных баз данных.

Архитектура колонного магазина

Ориентация на столбцы имеет ряд преимуществ. [8] Если выполняется поиск элементов, соответствующих определенному значению в столбце данных, необходимо получить доступ только к объектам хранения, соответствующим этому столбцу данных в таблице. Традиционная база данных на основе строк должна была бы прочитать всю таблицу сверху вниз. Еще одно преимущество заключается в том, что при правильной индексации значение, которое должно было бы храниться один раз в каждой строке данных в традиционной базе данных, сохраняется только один раз, а в SAP IQ для доступа к данным используется n-битный индекс. [9] N-битное и многоуровневое индексирование используется для обеспечения повышенного сжатия и быстрой, инкрементной пакетной загрузки.

Кроме того, хранилище на основе столбцов позволяет SAP IQ эффективно сжимать данные «на лету». [10]

Технология индексирования

До SAP IQ 16 каждая страница данных была структурирована как массив ячеек фиксированного размера, поэтому все значения имели один и тот же тип данных. Хотя этот подход к хранению эффективен для структурированных данных и данных фиксированной длины, он не применим к более неструктурированным и переменным данным, которые встречаются сегодня. Для борьбы с неэффективностью хранения и хранения переменных данных с минимальными потерями пространства каждая страница состоит из ячеек переменного размера, которые плотно упакованы вместе; архитектура столбчатого хранилища поддерживает переменное количество ячеек на страницу и различные форматы страниц в столбце. SAP IQ также применяет алгоритмы сжатия Lempel-Ziv-Welch (LZW) [11] к каждой странице данных при ее записи на диск, чтобы значительно сократить объем данных. [12]

Для вторичных индексов используются битовые карты. [11]

Массово-параллельная инфраструктура обработки

SAP IQ имеет платформу массивно-параллельной обработки (MPP), основанную на среде общего доступа, которая поддерживает распределенную обработку запросов. Большинство других продуктов, поддерживающих MPP, как правило, основаны на средах общего доступа . Преимущество общего доступа заключается в том, что он более гибок с точки зрения разнообразия запросов, которые можно оптимизировать, особенно для балансировки потребностей многих одновременных пользователей. Недостатком является то, что в крайних случаях конкуренция между процессорами за доступ к общему пулу хранилища (обычно к сети хранения данных) может привести к конфликту ввода-вывода , что влияет на производительность запросов.[12]

Однако вышеупомянутая архитектура хранения SAP IQ позволяет масштабировать уровни вычислений и хранения независимо друг от друга, а также позволяет предоставлять эти ресурсы по требованию для более эффективного использования без реструктуризации базовой базы данных.

Мультиплексная архитектура

SAP IQ использует кластерную архитектуру сетки, которая состоит из кластеров серверов SAP IQ, или Multiplex. Эти кластеры используются для масштабирования производительности для большого количества одновременных запросов или запросов, которые отличаются большой сложностью. Это построено на архитектуре общего доступа, где все вычислительные узлы взаимодействуют с одним и тем же общим хранилищем, и запросы могут распределяться по всем вычислительным узлам. Multiplex имеет узел-координатор, который управляет каталогом базы данных и координирует транзакционные записи в хранилище. Другие узлы могут быть узлами только для чтения или для чтения и записи, как узел-координатор. Структура хранилища может быть реализована с помощью многочисленных технологий, которые позволяют совместно использовать узлы мультиплекса.

Эта архитектура имеет множество применений, включая балансировку рабочей нагрузки и эластичные виртуальные витрины данных. Балансировка рабочей нагрузки достигается механизмом запросов SAP IQ посредством динамического увеличения/уменьшения параллелизма в ответ на изменения активности сервера. Если узел перестает участвовать в запросе, происходит автоматическое переключение на другой ресурс, и другие узлы берут на себя работу, изначально назначенную отказавшему узлу, чтобы запрос мог быть завершен. На стороне клиента совместимость с внешними балансировками нагрузки гарантирует, что запросы инициируются на физических серверах сбалансированным образом, чтобы исключить узкие места. Физические узлы в Multiplex могут быть сгруппированы в «логические серверы», которые позволяют изолировать рабочие нагрузки друг от друга (в целях безопасности или балансировки ресурсов); машины могут быть добавлены к ним по мере изменения спроса. Цель архитектуры сетки — обеспечить отказоустойчивость даже во время глобальных транзакций.

Загрузка двигателя

SAP IQ Loading Engine может использоваться для инкрементной пакетной загрузки, загрузки с низкой задержкой, параллельной загрузки и массовой загрузки (как с клиентскими, так и с серверными файлами данных). Процесс массовой загрузки позволяет выполнять несколько процессов загрузки одновременно, если загрузки относятся к разным таблицам. Данные можно загружать из других баз данных, а также из файлов. Управление версиями моментальных снимков на уровне страниц позволяет выполнять параллельные загрузки и запросы, при этом блокировка происходит только на уровне таблиц. С SAP Replication Server, который теперь улучшен для оптимизации загрузок в SAP IQ, транзакции компилируются в наименьшее количество наборов операций, а затем выполняются массовые микропакетные загрузки в SAP IQ, что создает видимость непрерывных загрузок в реальном времени.

Теперь массовый загрузчик выполняет все операции параллельно, чтобы полностью использовать все ядра сервера, устранить узкие места и поддерживать производительность всех потоков, вместо сериализации процесса. Процесс загрузки остается двухфазным: сначала считываются необработанные данные и создаются индексы FP, а затем создаются вторичные индексы, но все выполняется параллельно. Индексы High Group, на которые оптимизатор запросов опирается для получения информации о том, какие столбцы/строки содержат какие значения данных, теперь структурированы как набор уровней, увеличивающихся по мере продвижения вниз по пирамиде.

Наконец, SAP IQ представляет оптимизированное для записи хранилище Row Level Versioned (RLV) Delta, которое обеспечивает высокоскоростную загрузку данных и быструю доступность данных для пользователей. Это хранилище минимально индексируется и сжимается, имеет блокировку на уровне строк для параллельной записи и собственный журнал транзакций, а также является только дополнением и действует как дополнение к основному хранилищу, при этом данные загружаются на высокой скорости в хранилище RLV и позже переносятся в основное хранилище, периодически объединяясь с ним. Для пользователя это не выглядит так, как будто работают две отдельные сущности, и запросы работают прозрачно между двумя хранилищами. Чтобы использовать это, пользователи могут указывать определенные «горячие» таблицы базы данных как таблицы RLV.

Фреймворк и клиентские API

SAP IQ предлагает API запросов на основе чистых стандартов ANSI SQL (с небольшими ограничениями), которые включают поддержку OLAP и полнотекстового поиска. Хранимые процедуры поддерживаются как в диалектах ANSI SQL, так и в диалектах Transact-SQL и могут выполняться по расписанию или немедленно. Также имеются драйверы баз данных для различных языков программирования, таких как JAVA, C/C++m PHP, PERL, Python, Ruby и ADO.Net.

Обработка неструктурированных данных

SAP IQ — это аналитический движок, который может запрашивать как структурированные, так и неструктурированные данные и объединять результаты. SAP IQ представил новый текстовый индекс и предложение SQL «contains», чтобы облегчить это путем поиска терминов в блоке неструктурированного текста; партнерские отношения SAP Sybase с поставщиками позволяют вводить различные двоичные формы текстовых файлов в SAP IQ и создавать для них текстовые индексы; эти текстовые индексы подготавливают данные для приложений анализа текста более высокого уровня для выполнения полнотекстового поиска в SAP IQ с помощью операторов SELECT. Синтаксис SELECT может использоваться приложениями, выполняющими токенизацию, категоризацию и дальнейший анализ текста.

Аналитика в базе данных / Расширяемая структура

Аналитика в базе данных основана на фундаментальной концепции сохранения аналитических алгоритмов близко к данным для более высокой производительности. Фреймворк расширяемости, называемый «аналитикой в ​​базе данных», позволяет встраивать аналитические функции в ядро ​​базы данных SAP IQ, перемещая аналитику в базу данных, а не в специализированную среду вне базы данных, что является процессом, подверженным ошибкам и более медленным. Предварительно созданные функции доступны изначально и через партнеров SAP IQ, предоставляющих специализированные библиотеки статистики и интеллектуального анализа данных, которые подключаются к SAP IQ. Этот фреймворк увеличивает возможности SAP IQ по выполнению расширенной обработки и анализа, поскольку данные не нужно перемещать из базы данных в специализированную среду для аналитики. Все полученные данные и результаты могут совместно использоваться через СУБД и могут быть легко получены через интерфейс SQL. С помощью определяемых пользователем функций (UDFS) партнеры могут расширять СУБД с помощью пользовательских вычислений, предоставляя специализированные библиотеки статистики и интеллектуального анализа данных, которые подключаются прямо к SAP IQ для повышения производительности расширенной обработки и анализа.

Безопасность

SAP IQ предоставляет несколько функций, как включенных в базовый продукт, так и лицензируемых отдельно, для защиты безопасности данных пользователя. Новая функция, представленная в IQ 16, — это управление доступом на основе ролей (RBAC), которое обеспечивает разделение обязанностей и поддерживает принцип наименьших привилегий , позволяя разбивать привилегированные операции на мелкозернистые наборы, которые могут быть индивидуально предоставлены пользователям. В состав базового продукта входят: пользователи, группы и разрешения, полномочия администрирования баз данных, политики входа пользователей, шифрование базы данных, безопасность транспортного уровня, IPV6, управление доступом на основе ролей и аудит базы данных. Дополнительные функции являются частью лицензируемой опции, называемой расширенной опцией безопасности: шифрование FIPS, аутентификация Kerberos, аутентификация LDAP и шифрование столбцов базы данных.

Управление жизненным циклом информации (ILM)

Как часть ILM, SAP IQ позволяет пользователям создавать несколько пользовательских DBSpaces (логических единиц хранения/контейнеров для объектов базы данных) для организации данных. Это можно использовать для разделения структурированных или неструктурированных данных, группирования их по возрасту и значению или для разделения данных таблиц. DBSpaces также можно пометить как доступные только для чтения, чтобы включить однократную проверку согласованности и резервное копирование. Другое применение ILM — возможность разделения таблиц и размещения перемещаемых частей по структуре хранения и возможности резервного копирования; это обеспечивает процесс управления хранилищем, при котором данные циклически проходят через многоуровневое хранилище, перемещаясь из более быстрого и дорогого хранилища в более медленное и дешевое хранилище по мере старения, разделяя данные в соответствии со значением.

Высокая доступность и аварийное восстановление

Мультиплексная конфигурация обеспечивает масштабируемость и высокую доступность вычислительных узлов, поскольку узел-координатор мультиплекса может переключаться на альтернативный узел-координатор.

SAP IQ Virtual Backup также позволяет пользователям быстро создавать резервные копии данных, а вместе с технологией репликации хранилища данные непрерывно копируются, поэтому резервное копирование может происходить быстро и «за кулисами». После завершения виртуального резервного копирования их можно проверить с помощью тестирования и восстановления; корпоративные данные можно скопировать для разработки и тестирования. Затем остается только завершить резервное копирование в транзакционно согласованный момент времени. SAP утверждает, что аварийное восстановление становится проще с подходом общего доступа к MPP. Инструмент моделирования SAP Sybase PowerDesigner позволяет пользователям создавать модель ILM, которую можно развернуть с помощью SAP IQ. Типы хранилищ, пространства баз данных и фазы жизненного цикла можно определить в модели ILM, а инструмент можно использовать для создания отчетов и создания сценариев создания и перемещения разделов.

Интеграция Hadoop

SAP IQ обеспечивает федерацию с распределенной файловой системой Hadoop (HDFS), очень популярной структурой для больших данных, так что корпоративные пользователи могут продолжать хранить данные в Hadoop и использовать ее преимущества. Интеграция достигается четырьмя различными способами, в зависимости от потребностей пользователя, через клиентскую федерацию, ETL, данные и федерацию запросов. Клиентская федерация объединяет данные из IQ и Hadoop на уровне клиентского приложения, в то время как федерация ETL позволяет пользователю загружать данные Hadoop в схемы хранилища столбцов IQ. Данные HDFS также могут быть объединены с данными IQ на лету с помощью SQL-запросов из IQ, и, наконец, результаты заданий MapReduce могут быть объединены с данными IQ также на лету.

Центр управления SAP

SAP Control Center заменяет Sybase Central в качестве графического веб-инструмента для администрирования и мониторинга. SAP Control Center можно использовать для мониторинга серверов и ресурсов SAP Sybase (узел, мультиплекс) из любого места, а также для мониторинга производительности и отслеживания тенденций использования. Веб-приложение имеет многоуровневую архитектуру подключаемых модулей, которая состоит из сервера и агентов на основе продуктов, которые возвращают производительность SAP Sybase на сервер Control Center.

Веб-аналитика

SAP IQ поставляется с веб-драйверами приложений, облегчающими доступ к SAP IQ из различных сред программирования и выполнения Web 2.0 (Python, Perl, PHP, .Net, Ruby). Благодаря федерации запросов с другими базами данных разработчики могут создавать приложения, которые взаимодействуют с несколькими источниками данных одновременно (а также с платформами баз данных других поставщиков). Можно создавать таблицы прокси-серверов федерации, которые сопоставляются с таблицами во внешних базах данных; они материализуются как таблицы в памяти, но с ними можно взаимодействовать так, как если бы они находились в SAP IQ. Таким образом, источники данных можно объединять в едином представлении.

Поддерживаемые платформы

SAP IQ также поддерживает подключение внешних алгоритмов, написанных на C++ и Java . SQL-запросы могут вызывать эти алгоритмы, позволяя выполнять аналитику в базе данных, что обеспечивает лучшую производительность и масштабируемость. Кроме того, Sybase IQ также предоставляет драйверы для доступа через такие языки, как PHP , Perl , Python и Ruby on Rails .

SAP IQ поддерживает большинство основных платформ операционных систем, включая:

Клиенты

Sybase утверждает, что Sybase IQ в настоящее время установлен на более чем 2000 сайтах клиентов. Известные клиенты включают comScore Inc. , [13] CoreLogic , Investment Technology Group (ITG), [14] и Налоговую службу США (IRS). [15]

Хотя Sybase IQ широко использовался для целенаправленных развертываний в стиле витрин данных, [16] он также был развернут в качестве корпоративного хранилища данных.

Ссылки

  1. ^ C-Store: столбцово-ориентированная СУБД Архивировано 19 июня 2010 г. в Wayback Machine , Стоунбрейкер и др., Труды 31-й конференции VLDB, Тронхейм, Норвегия, 2005 г.
  2. Коул, Барб (7 ноября 1994 г.), Sybase делает ставку на хранилище данных посредством приобретения, Network World
  3. ^ Мур, Тревор (2010), Sybase IQ Survival Guide , стр. 16, ISBN 978-1-4466-5758-4
  4. ^ "SAP Sybase IQ 16 для аналитики XLDB теперь доступен! - SAP Blogs". scn.sap.com . Апрель 2013 г.
  5. ^ "SAP и партнеры установили новый рекорд по самому большому в мире хранилищу данных". Пресс-релиз . SAP. 5 марта 2014 г. Получено 19 августа 2016 г.
  6. ^ "Решения по хранению данных | Технологии | SAP". Архивировано из оригинала 2014-11-27 . Получено 2014-05-27 .
  7. ^ ab "Как все это работает вместе – BW, BW на HANA, Suite на HANA, HANA Live….. Часть 8 - Блоги SAP". scn.sap.com . 27 ноября 2013 г.
  8. ^ MacNicol, Roger; French, Blaine (август 2004), Sybase IQ Multiplex – Designed For Analytics (PDF) , Труды 31-й конференции VLDB, Тронхейм, Норвегия
  9. ^ Sybase IQ#цитата примечание-Мур-1
  10. ^ "Достижение аналитики, которая является одновременно экономически эффективной и оптимизированной для производительности". Архивировано из оригинала 2014-05-28 . Получено 2014-05-27 .
  11. ^ ab "Обзор SAP Sybase IQ и что нового в версии 16" (PDF) . Архивировано из оригинала (PDF) 2014-05-29.
  12. ^ "Dobler Consulting - Sybase - SQL Server - Oracle - MongoDB" (PDF) . www.doblerconsulting.com . Архивировано из оригинала (PDF) 2014-05-29.
  13. ^ Хеншен, Дуг (24 ноября 2010 г.), Подробности развертывания больших данных ComScore, Information Week
  14. ^ Кларк, Дон (18 ноября 2007 г.), Start-Ups Mine Database Field — Nimble Software Helps Make Sense Of Information Tide (PDF) , Wall Street Journal, архивировано из оригинала (PDF) 16 августа 2011 г.
  15. ^ Лай, Эрик (22 марта 2008 г.), Недавно проходили аудит? Вините огромное, сверхбыстрое хранилище данных IRS, ComputerWorld
  16. ^ Хеншен, Дуг (12 июля 2011 г.), Sybase IQ расширяет возможности анализа, Information Week
  • Веб-сайт SAP IQ
  • Сообщество SAP IQ Wiki
  • Документация SAP IQ
  • Страница поддержки SAP IQ
  • Технические документы на SybaseWiki
Взято с "https://en.wikipedia.org/w/index.php?title=SAP_IQ&oldid=1270068157"