This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these messages)
|
SXM (Server PCI Express Module) [1] — это решение с высокой пропускной способностью для подключения ускорителей вычислений Nvidia к системе. Каждое поколение Nvidia Tesla, начиная с моделей P100, серии компьютеров DGX и плат HGX, поставляется с типом сокета SXM, который реализует высокую пропускную способность, подачу питания и многое другое для соответствующих дочерних карт GPU. [2] Nvidia предлагает эти комбинации в качестве продукта для конечного пользователя, например, в своих моделях серии систем DGX . Текущие поколения сокетов — это SXM для графических процессоров на базе Pascal , SXM2 и SXM3 для графических процессоров на базе Volta , SXM4 для графических процессоров на базе Ampere и SXM5 для графических процессоров на базе Hopper . Эти сокеты используются для определенных моделей этих ускорителей и обеспечивают более высокую производительность на карту, чем эквиваленты PCIe . [2] Система DGX-1 была первой, оснащенной сокетами SXM-2, и, таким образом, первой, которая имела совместимые по форм-фактору модули SXM с графическими процессорами P100, а позднее было объявлено, что она может быть обновлена до модулей SXM2 с графическими процессорами V100 (или предварительно оснащена ими). [3] [4]
Платы SXM обычно построены с четырьмя или восемью слотами GPU, хотя некоторые решения, такие как Nvidia DGX-2, соединяют несколько плат для обеспечения высокой производительности. Хотя существуют сторонние решения для плат SXM, большинство системных интеграторов, таких как Supermicro, используют готовые платы Nvidia HGX, которые поставляются в четырех- или восьмисокетных конфигурациях. [5] Это решение значительно снижает стоимость и сложность серверов GPU на базе SXM и обеспечивает совместимость и надежность для всех плат одного поколения.
Модули SXM, например, на платах HGX, особенно последних поколений, могут иметь коммутаторы NVLink для обеспечения более быстрой связи между графическими процессорами. Это дополнительно уменьшает узкие места, которые обычно накладываются ограничениями ЦП и PCIe . [2] [6] Графические процессоры на дочерних картах используют NVLink в качестве основного протокола связи [ необходимо разъяснение ] . Например, графический процессор H100 SXM5 на базе Hopper может использовать до 900 ГБ/с пропускной способности по 18 каналам NVLink 4, каждый из которых обеспечивает пропускную способность 50 ГБ/с; [7] Напротив, PCIe 5.0 может обрабатывать до 64 ГБ/с пропускной способности в слоте x16. [8] Эта высокая пропускная способность также означает, что графические процессоры могут совместно использовать память по шине NVLink, позволяя всей плате HGX представляться хост-системе как один массивный графический процессор. [9]
Подача питания также осуществляется через разъем SXM, что исключает необходимость во внешних кабелях питания, таких как те, которые требуются в картах-эквивалентах PCIe. Это, в сочетании с горизонтальным монтажом, обеспечивает более эффективные механизмы охлаждения, которые, в свою очередь, позволяют графическим процессорам на базе SXM работать с гораздо более высоким TDP . Например, Hopper-based H100 может потреблять до 700 Вт только из разъема SXM. [10] Отсутствие кабелей также значительно упрощает сборку и ремонт больших систем, а также сокращает количество возможных точек отказа. [2]
Ранняя оценочная плата Nvidia Tegra , предназначенная для автомобильной промышленности, «Drive PX2», имела два разъема MXM (Mobile PCI Express Module) с обеих сторон карты; эту конструкцию с двумя MXM можно считать предшественником реализации разъема SXM в Nvidia Tesla.
Сравнение ускорителей, используемых в DGX: [11] [12] [13]
Модель | Архитектура | Гнездо | Ядра FP32 CUDA | Ядра FP64 (без тензора) | Смешанные ядра INT32/FP32 | Ядра INT32 | Увеличить тактовую частоту | Часы памяти | Ширина шины памяти | Пропускная способность памяти | Видеопамять | Одинарная точность (FP32) | Двойная точность (FP64) | INT8 (не тензорный) | INT8 плотный тензор | INT32 | Плотный тензор FP4 | FP16 | Плотный тензор FP16 | bfloat16 плотный тензор | TensorFloat-32 (TF32) плотный тензор | Плотный тензор FP64 | Межсоединение (NVLink) | ГПУ | Кэш L1 | Кэш L2 | ТДП | Размер матрицы | Количество транзисторов | Процесс | Запущен |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
100р. | Паскаль | СХМ/СХМ2 | Н/Д | 1792 | 3584 | Н/Д | 1480 МГц | 1,4 Гбит/с HBM2 | 4096-бит | 720 ГБ/сек | 16 ГБ HBM2 | 10,6 терафлопс | 5.3 ТФЛОПС | Н/Д | Н/Д | Н/Д | Н/Д | 21,2 терафлопс | Н/Д | Н/Д | Н/Д | Н/Д | 160 ГБ/сек | ГП100 | 1344 КБ (24 КБ × 56) | 4096 КБ | 300 Вт | 610 мм 2 | 15.3 Б | TSMC 16FF+ | 2 квартал 2016 г. |
V100 16 ГБ | Вольта | СХМ2 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 16 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 300 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | 3 квартал 2017 г. |
V100 32 ГБ | Вольта | SXM3 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 32 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 350 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | |
А100 40ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 2,4 Гбит/с HBM2 | 5120-бит | 1,52 ТБ/сек | 40 ГБ HBM2 | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | 1 квартал 2020 г. |
А100 80ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 3,2 Гбит/с HBM2e | 5120-бит | 1,52 ТБ/сек | 80 ГБ HBM2e | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | |
H100 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 5,2 Гбит/с HBM3 | 5120-бит | 3,35 ТБ/сек | 80 ГБ HBM3 | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 700 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2022 г. |
H200 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 6,3 Гбит/с HBM3e | 6144-бит | 4,8 ТБ/сек | 141 ГБ HBM3e | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 1000 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2023 г. |
Б100 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 3.5 ПОПС | Н/Д | 7 ПФЛОПС | Н/Д | 1,98 ПФЛОПС | 1,98 ПФЛОПС | 989 ТФЛОПС | 30 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 700 Вт | Н/Д | 208 Б | TSMC 4NP | 4 квартал 2024 г. (ожидается) |
Б200 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 4.5 ПОПС | Н/Д | 9 ПФЛОПС | Н/Д | 2,25 ПФЛОПС | 2,25 ПФЛОПС | 1,2 ПФЛОПС | 40 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 1000 Вт | Н/Д | 208 Б | TSMC 4NP |