HPCC

Высокопроизводительный вычислительный кластер
HPCC
Разработчик(и)Системы HPCC, решения LexisNexis Risk
Первоначальный выпуск15-06-2011
Стабильный релиз
7.4.18-1 / 13-09-2019
Репозиторийhttps://github.com/hpcc-системы
Написано вC++ , ECL
Операционная системаЛинукс
ЛицензияЛицензия Apache 2.0
Веб-сайтhpccsystems.com

HPCC (High-Performance Computing Cluster), также известный как DAS (Data Analytics Supercomputer), является открытой исходной платформой вычислительной системы с интенсивным использованием данных, разработанной LexisNexis Risk Solutions . Платформа HPCC включает архитектуру программного обеспечения, реализованную на кластерах товарных вычислений для обеспечения высокопроизводительной параллельной обработки данных для приложений, использующих большие данные . [1] Платформа HPCC включает конфигурации системы для поддержки как параллельной пакетной обработки данных (Thor), так и высокопроизводительных приложений онлайн-запросов с использованием индексированных файлов данных (Roxie). [2] Платформа HPCC также включает ориентированный на данные декларативный язык программирования для параллельной обработки данных, называемый ECL . [3]

Публичный релиз HPCC был анонсирован в 2011 году, после десяти лет внутренней разработки (согласно LexisNexis). Это альтернатива Hadoop [4] и другим платформам Big Data . [5]

Архитектура системы

Рисунок 2. Кластер обработки Thor

Архитектура системы HPCC включает в себя две отдельные среды кластерной обработки Thor и Roxie , каждую из которых можно оптимизировать независимо для целей параллельной обработки данных.

Первая из этих платформ называется Thor , очистной центр данных , чьей общей целью является общая обработка огромных объемов необработанных данных любого типа для любых целей, но обычно используется для очистки и гигиены данных, ETL ( извлечение, преобразование, загрузка ) обработки необработанных данных, связывания записей и разрешения сущностей, крупномасштабной специальной сложной аналитики и создания ключевых данных и индексов для поддержки высокопроизводительных структурированных запросов и приложений хранилищ данных. Название очистного центра данных Thor является ссылкой на мифического скандинавского бога грома с большим молотом, символизирующим дробление больших объемов необработанных данных в полезную информацию. Кластер Thor похож по своей функции, среде выполнения, файловой системе и возможностям на платформы Google и Hadoop MapReduce .

На рисунке 2 показано представление физического кластера обработки Thor, который функционирует как механизм выполнения пакетных заданий для масштабируемых вычислительных приложений с интенсивным использованием данных. В дополнение к главному и подчиненным узлам Thor, для реализации полной среды обработки HPCC необходимы дополнительные вспомогательные и общие компоненты.

Рисунок 3. Кластер обработки Roxie

Вторая из параллельных платформ обработки данных называется Roxie и функционирует как механизм быстрой доставки данных . Эта платформа разработана как онлайн-платформа высокопроизводительных структурированных запросов и анализа или хранилище данных, предоставляющее требования к обработке параллельного доступа к данным онлайн-приложений через интерфейсы веб-сервисов, поддерживающие тысячи одновременных запросов и пользователей с временем отклика менее секунды. Roxie использует распределенную индексированную файловую систему для обеспечения параллельной обработки запросов с использованием оптимизированной среды выполнения и файловой системы для высокопроизводительной онлайн-обработки. Кластер Roxie по своим функциям и возможностям похож на ElasticSearch и Hadoop с добавленными возможностями HBase и Hive и обеспечивает предсказуемые задержки запросов в режиме реального времени. Кластеры Thor и Roxie используют язык программирования ECL для реализации приложений, повышая непрерывность и производительность программистов.

На рисунке 3 показано представление физического кластера обработки Roxie, который функционирует как механизм выполнения онлайн-запросов для высокопроизводительных приложений запросов и хранилищ данных. Кластер Roxie включает несколько узлов с серверными и рабочими процессами для обработки запросов; дополнительный вспомогательный компонент, называемый сервером ESP, который предоставляет интерфейсы для внешнего клиентского доступа к кластеру; и дополнительные общие компоненты, которые используются совместно с кластером Thor в среде HPCC. Хотя кластер обработки Thor может быть реализован и использован без кластера Roxie, среда HPCC, включающая кластер Roxie, также должна включать кластер Thor. Кластер Thor используется для создания распределенных файлов индекса, используемых кластером Roxie, и для разработки онлайн-запросов, которые будут развернуты с файлами индекса в кластере Roxie.

Рисунок 4. Архитектура программного обеспечения HPCC

Архитектура программного обеспечения

Архитектура программного обеспечения HPCC включает кластеры Thor и Roxie, а также общие компоненты промежуточного программного обеспечения , внешний коммуникационный уровень, клиентские интерфейсы, которые предоставляют как услуги для конечного пользователя, так и инструменты управления системой, а также вспомогательные компоненты для поддержки мониторинга и упрощения загрузки и хранения данных файловой системы из внешних источников. Обычно среда HPCC включает только кластеры Thor или оба кластера Thor и Roxie, хотя Roxie иногда используется для построения собственных индексов. Общая архитектура программного обеспечения HPCC показана на рисунке 4.

Системы HPCC

HPCC Systems (High Performance Computing Cluster) является частью LexisNexis Risk Solutions и была создана для продвижения и продажи программного обеспечения HPCC. В июне 2011 года было объявлено о предложении программного обеспечения по модели двойной лицензии с открытым исходным кодом. [6] [7] [8] [9]

HPCC Systems предлагает как Community Edition, так и Enterprise Edition. Community Edition можно загрузить бесплатно, он включает исходный код и выпускается под лицензией Apache License 2.0. Enterprise Edition доступен под платной коммерческой лицензией и включает обучение, поддержку, возмещение ущерба и дополнительные модули. В ноябре 2011 года HPCC Systems объявила о доступности своего кластера Thor Data Refinery на Amazon Web Services . [10] В январе 2012 года HPCC Systems анонсировала распределенные алгоритмы машинного обучения . [11]

Смотрите также

Ссылки

  1. ^ Справочник по облачным вычислениям, «Технологии обработки больших объемов данных для облачных вычислений», автор AM Middleton. Справочник по облачным вычислениям. Springer, 2010.
  2. ^ "Системы HPCC: Введение в HPCC (высокопроизводительный вычислительный кластер)". 24 мая 2011 г. CiteSeerX  10.1.1.456.3571 .
  3. ^ Справочник по вычислениям с интенсивным использованием данных, «ECL/HPCC: унифицированный подход к большим данным», автор AM Middleton. Справочник по вычислениям с интенсивным использованием данных. Springer, 2011.
  4. ^ "LexisNexis откроет исходный код своей альтернативы Hadoop для обработки больших данных". ReadWrite . 15 июня 2011 г. Получено 20 ноября 2014 г.
  5. ^ "9 полезных инструментов для больших данных с открытым исходным кодом". EnterpriseAppsToday . 11 ноября 2015 г. Получено 18 ноября 2015 г.
  6. ^ "LexisNexis открывает исходники своего убийцы Hadoop". GigaOM . 15 июня 2011 г. Получено 8 ноября 2014 г.
  7. ^ "LexisNexis откроет исходный код своей альтернативы Hadoop для обработки больших данных". ReadWrite . 15 июня 2011 г. Получено 20 ноября 2014 г.
  8. ^ "HPCC A New/Old Kid In Town To Take On Hadoop". NetworkWorld . 16 июня 2011 г. Получено 2 декабря 2014 г.
  9. ^ "LexisNexis присоединяется к Linux Foundation". Linux Foundation . 17 июня 2011 г. Получено 29 ноября 2014 г.
  10. ^ "HPCC объявляет о доступности ETL-кластера на Amazon Web Services". Cloud Computing Today . 17 декабря 2012 г. Получено 30 ноября 2014 г.
  11. ^ "HPCC Systems Intros Machine Learning Beta". Datanami . 31 января 2012 г. Получено 29 ноября 2014 г.
  • Сандия видит, как проблемы управления данными растут
  • Sandia National Laboratories использует суперкомпьютер для анализа данных (DAS) от LexisNexis Risk & Information Analytics Group, который предлагает революционные высокопроизводительные вычисления для решения задач управления и анализа данных
  • Модели программирования для высокопроизводительного вычислительного кластера LexisNexis
  • Суперкомпьютер LexisNexis Data Analytics
  • Системы HPCC LexisNexis
  • Ссылка на термин BORPS (миллиарды записей в секунду)
  • LexisNexis применяет магию управления данными для обработки научных данных
  • Сертификат по высокопроизводительным вычислительным кластерам (HPCC) и аналитике больших данных — автономный
  • FAU получает грант быстрого реагирования Национального научного фонда на разработку инновационной компьютерной модели распространения лихорадки Эбола
  • CPL Online обеспечивает дополнительную ценность для клиентов с помощью своей платформы больших данных
  • Системы HPCC
Взято с "https://en.wikipedia.org/w/index.php?title=HPCC&oldid=1167001616#HPCC_Systems"