Эта статья содержит рекламный контент . ( Январь 2024 г. ) |
Производитель | Нвидиа |
---|---|
Дата выпуска | 2016 ( 2016 ) |
Nvidia DGX (Deep GPU Xceleration) представляет собой серию серверов и рабочих станций , разработанных Nvidia , в первую очередь ориентированных на улучшение приложений глубокого обучения за счет использования универсальных вычислений на графических процессорах (GPGPU). Эти системы обычно поставляются в стоечном формате с высокопроизводительными серверными процессорами x86 на материнской плате.
Основной особенностью системы DGX является включение от 4 до 8 модулей Nvidia Tesla GPU, которые размещены на независимой системной плате. Эти GPU могут быть подключены либо через версию сокета SXM , либо через слот PCIe x16, что обеспечивает гибкую интеграцию в архитектуру системы. Для управления значительным тепловым выходом блоки DGX оснащены радиаторами и вентиляторами, предназначенными для поддержания оптимальных рабочих температур.
Эта структура делает блоки DGX подходящими для вычислительных задач, связанных с моделями искусственного интеллекта и машинного обучения. [ по мнению кого? ]
Серверы DGX-1 оснащены 8 графическими процессорами на базе дочерних карт Pascal или Volta [1] с общим объемом памяти HBM2 128 ГБ , соединенными с помощью ячеистой сети NVLink . [2] Сервер DGX-1 был анонсирован 6 апреля 2016 года. [3] Все модели основаны на конфигурации с двумя сокетами процессоров Intel Xeon E5 и оснащены следующими функциями.
Линейка продуктов призвана сократить разрыв между графическими процессорами и ускорителями искусственного интеллекта , используя специальные функции для рабочих нагрузок глубокого обучения. [4] Первоначальный DGX-1 на базе Pascal обеспечивал 170 терафлопс обработки половинной точности , [5] в то время как обновление на базе Volta увеличило этот показатель до 960 терафлопс . [6]
DGX-1 был сначала доступен только в конфигурации на базе Pascal с сокетом SXM первого поколения. Более поздняя версия DGX-1 предлагала поддержку карт Volta первого поколения через сокет SXM-2. Nvidia предлагала комплекты обновления, которые позволяли пользователям с DGX-1 на базе Pascal обновиться до DGX-1 на базе Volta. [7] [8]
Разработанная как готовый к использованию настольный суперкомпьютер с искусственным интеллектом, станция DGX представляет собой башенный компьютер, который может работать полностью автономно без типичной инфраструктуры центра обработки данных, такой как охлаждение, резервное питание или 19-дюймовые стойки .
Станция DGX была впервые доступна со следующими характеристиками. [10]
Станция DGX охлаждается водой , чтобы лучше управлять теплом почти 1500 Вт всех компонентов системы, что позволяет ей поддерживать уровень шума ниже 35 дБ под нагрузкой. [12] Это, среди прочих особенностей, сделало эту систему привлекательной покупкой для клиентов без инфраструктуры для работы стоечных систем DGX, которые могут быть громкими, выделять много тепла и занимать большую площадь. Это было первое начинание Nvidia по внедрению высокопроизводительных вычислений на рабочем столе, что с тех пор остается важной маркетинговой стратегией Nvidia. [13]
Nvidia DGX-2, преемник DGX-1, использует шестнадцать карт Volta V100 32 ГБ (второе поколение) в одном устройстве. Он был анонсирован 27 марта 2018 года. [14] DGX-2 обеспечивает 2 петафлопса с 512 ГБ общей памяти для обработки больших наборов данных и использует NVSwitch для высокоскоростной внутренней связи. DGX-2 имеет в общей сложности 512 ГБ памяти HBM2 , в общей сложности 1,5 ТБ DDR4 . Также присутствуют восемь карт InfiniBand 100 Гбит/с и 30,72 ТБ SSD-накопителя, [15] все заключено в массивное шасси для монтажа в стойку 10U и потребляет до 10 кВт при максимальной нагрузке. [16] Первоначальная цена DGX-2 составляла 399 000 долларов США. [17]
DGX-2 отличается от других моделей DGX тем, что содержит две отдельные дочерние платы GPU, каждая с восемью GPU. Эти платы соединены системой NVSwitch, которая обеспечивает полную пропускную способность связи между всеми GPU в системе, без дополнительных задержек между платами. [16]
Также предлагался вариант DGX-2 с более высокой производительностью — DGX-2H. DGX-2H заменил два Intel Xeon Platinum 8168 в DGX-2 на два модернизированных Intel Xeon Platinum 8174. Это обновление не увеличивает количество ядер в системе, поскольку оба ЦП имеют 24 ядра, и не добавляет никаких новых функций в систему, но увеличивает базовую частоту ЦП с 2,7 ГГц до 3,1 ГГц. [18] [19] [20]
Анонсирован и выпущен 14 мая 2020 года. DGX A100 был третьим поколением сервера DGX, включая 8 ускорителей A100 на базе Ampere . [21] Также включены 15 ТБ хранилища PCIe gen 4 NVMe , [22] 1 ТБ оперативной памяти и восемь сетевых карт Mellanox HDR InfiniBand ConnectX-6 200 ГБ/с . DGX A100 находится в гораздо меньшем корпусе, чем его предшественник DGX-2, занимая всего 6 стоечных единиц. [23]
DGX A100 также перешел на 64-ядерный процессор AMD EPYC 7742, первый сервер DGX, не построенный на процессоре Intel Xeon. Первоначальная цена сервера DGX A100 составляла 199 000 долларов. [21]
Как преемник оригинальной станции DGX, станция DGX A100 стремится занять ту же нишу, что и станция DGX, представляя собой тихое, эффективное решение «кластер-в-коробке» под ключ , которое могут приобрести, взять в аренду или арендовать небольшие компании или частные лица, желающие использовать машинное обучение. Она следует многим дизайнерским решениям оригинальной станции DGX, таким как ориентация башни, односокетная материнская плата ЦП , новая система охлаждения на основе хладагента и уменьшенное количество ускорителей по сравнению с соответствующим стоечным DGX A100 того же поколения. [13] Цена на DGX Station A100 320G составляет 149 000 долларов США, а на модель 160G — 99 000 долларов США. Nvidia также предлагает аренду Station за ~9000 долларов США в месяц через партнеров в США (rentacomputer.com) и Европе (iRent IT Systems), чтобы помочь сократить расходы на внедрение этих систем в небольших масштабах. [24] [25]
Станция DGX A100 поставляется с двумя различными конфигурациями встроенного A100.
Анонсированный 22 марта 2022 г. [26] и запланированный к выпуску в третьем квартале 2022 г. [27], DGX H100 — это четвертое поколение серверов DGX, построенное на базе 8 ускорителей H100 на базе Hopper , с общей производительностью 32 ПФЛОПС вычислений FP8 AI и 640 ГБ памяти HBM3, что является обновлением по сравнению с 640 ГБ памяти HBM2 у DGX A100.
Это обновление также увеличивает пропускную способность VRAM до 3 ТБ/с. [28] DGX H100 увеличивает размер стойки до 8U для размещения 700 Вт TDP каждой карты H100 SXM. DGX H100 также имеет два 1,92 ТБ SSD для хранения операционной системы и 30,72 ТБ твердотельного хранилища для данных приложений.
Еще одним заметным дополнением является наличие двух DPU Nvidia Bluefield 3 , [29] и обновление до 400 Гбит/с InfiniBand через Mellanox ConnectX-7 NIC , удваивая пропускную способность DGX A100. DGX H100 использует новые карты «Cedar Fever», каждая с четырьмя контроллерами ConnectX-7 400 ГБ/с, и две карты на систему. Это дает DGX H100 3,2 Тбит/с пропускной способности структуры через Infiniband. [30]
DGX H100 имеет два масштабируемых процессора Xeon Platinum 8480C (кодовое название Sapphire Rapids ) [31] и 2 терабайта системной памяти . [32]
На момент выпуска стоимость DGX H100 составляла 379 000 фунтов стерлингов или ~482 000 долларов США. [33]
Анонсированный в мае 2023 года, DGX GH200 объединяет 32 суперчипа Nvidia Hopper в один суперчип, который состоит в общей сложности из 256 графических процессоров H100, 32 72-ядерных процессоров Grace Neoverse V2, 32 однопортовых OSFT ConnectX-7 VPI с 400 Гбит/с InfiniBand и 16 двухпортовых BlueField-3 VPI с 200 Гбит/с Mellanox [1] [2]. Nvidia DGX GH200 предназначен для обработки моделей терабайтного класса для массивных рекомендательных систем, генеративного ИИ и графической аналитики, предлагая 19,5 ТБ общей памяти с линейной масштабируемостью для гигантских моделей ИИ. [34]
Анонсированный в мае 2023 года суперкомпьютер DGX Helios оснащен 4 системами DGX GH200. Каждая из них соединена с сетью Nvidia Quantum-2 InfiniBand для повышения пропускной способности данных при обучении больших моделей ИИ. Helios включает 1024 графических процессора H100.
Анонсированный в марте 2024 года, GB200 NVL72 объединяет 36 72-ядерных ЦП Grace Neoverse V2 и 72 графических процессора B100 в стоечном исполнении. GB200 NVL72 — это жидкостноохлаждаемое стоечное решение, которое может похвастаться доменом NVLink из 72 ГП, который действует как один массивный ГП [3]. Nvidia DGX GB200 предлагает 13,5 ТБ HBM3e общей памяти с линейной масштабируемостью для гигантских моделей ИИ, что меньше, чем у его предшественника DGX GH200.
DGX Superpod — это высокопроизводительная готовая суперкомпьютерная система, предоставляемая Nvidia с использованием оборудования DGX. [35] Она объединяет вычислительные узлы DGX с быстрым хранилищем и высокоскоростной сетью для предоставления решения для высокозатратных рабочих нагрузок машинного обучения. Суперкомпьютер Selene в Аргоннской национальной лаборатории является одним из примеров системы на базе DGX SuperPod.
Selene, построенный из 280 узлов DGX A100, занял 5-е место в списке TOP500 самых мощных суперкомпьютеров на момент его завершения в июне 2020 года [36] и продолжает оставаться высокопроизводительным [ требуется ссылка ] . Эта же интеграция доступна любому клиенту с минимальными усилиями с его стороны, и новый SuperPod на базе Hopper может масштабироваться до 32 узлов DGX H100, что в общей сложности составляет 256 графических процессоров H100 и 64 процессора x86. Это дает всему SuperPod 20 ТБ памяти HBM3, 70,4 ТБ/с пропускной способности бисекций и до 1 ExaFLOP вычислений FP8 AI. [37] Затем эти SuperPods можно дополнительно объединить для создания более крупных суперкомпьютеров.
Суперкомпьютер Eos, спроектированный, построенный и эксплуатируемый компанией Nvidia, [38] [39] [40] был построен из 18 SuperPods на базе H100, в общей сложности 576 систем DGX H100, 500 коммутаторов Quantum-2 InfiniBand и 360 коммутаторов NVLink, которые позволяют Eos обеспечивать 18 EFLOP вычислений FP8 и 9 EFLOP вычислений FP16, что делает Eos 5-м по скорости суперкомпьютером ИИ в мире, согласно TOP500 (издание за ноябрь 2023 г.).
Поскольку Nvidia не производит никаких устройств или систем хранения данных, Nvidia SuperPods полагаются на партнеров для обеспечения высокопроизводительного хранения. Текущие партнеры по хранению для Nvidia Superpods: Dell EMC , DDN , HPE , IBM , NetApp , Pavilion Data и VAST Data . [41]
Сравнение ускорителей, используемых в DGX: [42] [43] [44]
Модель | Архитектура | Гнездо | Ядра FP32 CUDA | Ядра FP64 (без тензора) | Смешанные ядра INT32/FP32 | Ядра INT32 | Увеличить тактовую частоту | Часы памяти | Ширина шины памяти | Пропускная способность памяти | Видеопамять | Одинарная точность (FP32) | Двойная точность (FP64) | INT8 (не тензорный) | INT8 плотный тензор | INT32 | Плотный тензор FP4 | FP16 | Плотный тензор FP16 | bfloat16 плотный тензор | TensorFloat-32 (TF32) плотный тензор | Плотный тензор FP64 | Межсоединение (NVLink) | ГПУ | Кэш L1 | Кэш L2 | ТДП | Размер матрицы | Количество транзисторов | Процесс | Запущен |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
100р. | Паскаль | СХМ/СХМ2 | Н/Д | 1792 | 3584 | Н/Д | 1480 МГц | 1,4 Гбит/с HBM2 | 4096-бит | 720 ГБ/сек | 16 ГБ HBM2 | 10,6 терафлопс | 5.3 ТФЛОПС | Н/Д | Н/Д | Н/Д | Н/Д | 21,2 терафлопс | Н/Д | Н/Д | Н/Д | Н/Д | 160 ГБ/сек | ГП100 | 1344 КБ (24 КБ × 56) | 4096 КБ | 300 Вт | 610 мм 2 | 15.3 Б | TSMC 16FF+ | 2 квартал 2016 г. |
V100 16 ГБ | Вольта | СХМ2 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 16 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 300 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | 3 квартал 2017 г. |
V100 32 ГБ | Вольта | SXM3 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 32 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 350 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | |
А100 40ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 2,4 Гбит/с HBM2 | 5120-бит | 1,52 ТБ/сек | 40 ГБ HBM2 | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | 1 квартал 2020 г. |
А100 80ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 3,2 Гбит/с HBM2e | 5120-бит | 1,52 ТБ/сек | 80 ГБ HBM2e | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | |
H100 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 5,2 Гбит/с HBM3 | 5120-бит | 3,35 ТБ/сек | 80 ГБ HBM3 | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 700 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2022 г. |
H200 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 6,3 Гбит/с HBM3e | 6144-бит | 4,8 ТБ/сек | 141 ГБ HBM3e | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 1000 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2023 г. |
Б100 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 3.5 ПОПС | Н/Д | 7 ПФЛОПС | Н/Д | 1,98 ПФЛОПС | 1,98 ПФЛОПС | 989 ТФЛОПС | 30 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 700 Вт | Н/Д | 208 Б | TSMC 4NP | 4 квартал 2024 г. (ожидается) |
Б200 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 4.5 ПОПС | Н/Д | 9 ПФЛОПС | Н/Д | 2,25 ПФЛОПС | 2,25 ПФЛОПС | 1,2 ПФЛОПС | 40 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 1000 Вт | Н/Д | 208 Б | TSMC 4NP |
Гибридная кубическая сетка с восемью графическими процессорами и NVLink
NVIDIA DGX-1 обеспечивает в 75 раз более быстрое обучение... Примечание: Тест Caffe с AlexNet, обучение 1,28 млн изображений с 90 эпохами
{{cite web}}
: |last=
имеет общее название ( помощь ){{cite web}}
: |last=
имеет общее название ( помощь )