SXM (гнездо)

Высокопроизводительный вычислительный сокет
Вычислительный узел суперкомпьютера TSUBAME 3.0 с четырьмя модулями NVIDIA Tesla P100 SXM
Голые разъемы SXM рядом с разъемами с установленными графическими процессорами

SXM (Server PCI Express Module) [1] — это решение с высокой пропускной способностью для подключения ускорителей вычислений Nvidia к системе. Каждое поколение Nvidia Tesla, начиная с моделей P100, серии компьютеров DGX и плат HGX, поставляется с типом сокета SXM, который реализует высокую пропускную способность, подачу питания и многое другое для соответствующих дочерних карт GPU. [2] Nvidia предлагает эти комбинации в качестве продукта для конечного пользователя, например, в своих моделях серии систем DGX . Текущие поколения сокетов — это SXM для графических процессоров на базе Pascal , SXM2 и SXM3 для графических процессоров на базе Volta , SXM4 для графических процессоров на базе Ampere и SXM5 для графических процессоров на базе Hopper . Эти сокеты используются для определенных моделей этих ускорителей и обеспечивают более высокую производительность на карту, чем эквиваленты PCIe . [2] Система DGX-1 была первой, оснащенной сокетами SXM-2, и, таким образом, первой, которая имела совместимые по форм-фактору модули SXM с графическими процессорами P100, а позднее было объявлено, что она может быть обновлена ​​до модулей SXM2 с графическими процессорами V100 (или предварительно оснащена ими). ​​[3] [4]

Платы SXM обычно построены с четырьмя или восемью слотами GPU, хотя некоторые решения, такие как Nvidia DGX-2, соединяют несколько плат для обеспечения высокой производительности. Хотя существуют сторонние решения для плат SXM, большинство системных интеграторов, таких как Supermicro, используют готовые платы Nvidia HGX, которые поставляются в четырех- или восьмисокетных конфигурациях. [5] Это решение значительно снижает стоимость и сложность серверов GPU на базе SXM и обеспечивает совместимость и надежность для всех плат одного поколения.

Модули SXM, например, на платах HGX, особенно последних поколений, могут иметь коммутаторы NVLink для обеспечения более быстрой связи между графическими процессорами. Это дополнительно уменьшает узкие места, которые обычно накладываются ограничениями ЦП и PCIe . [2] [6] Графические процессоры на дочерних картах используют NVLink в качестве основного протокола связи [ необходимо разъяснение ] . Например, графический процессор H100 SXM5 на базе Hopper может использовать до 900 ГБ/с пропускной способности по 18 каналам NVLink 4, каждый из которых обеспечивает пропускную способность 50 ГБ/с; [7] Напротив, PCIe 5.0 может обрабатывать до 64 ГБ/с пропускной способности в слоте x16. [8] Эта высокая пропускная способность также означает, что графические процессоры могут совместно использовать память по шине NVLink, позволяя всей плате HGX представляться хост-системе как один массивный графический процессор. [9]

Подача питания также осуществляется через разъем SXM, что исключает необходимость во внешних кабелях питания, таких как те, которые требуются в картах-эквивалентах PCIe. Это, в сочетании с горизонтальным монтажом, обеспечивает более эффективные механизмы охлаждения, которые, в свою очередь, позволяют графическим процессорам на базе SXM работать с гораздо более высоким TDP . Например, Hopper-based H100 может потреблять до 700 Вт только из разъема SXM. [10] Отсутствие кабелей также значительно упрощает сборку и ремонт больших систем, а также сокращает количество возможных точек отказа. [2]

Ранняя оценочная плата Nvidia Tegra , предназначенная для автомобильной промышленности, «Drive PX2», имела два разъема MXM (Mobile PCI Express Module) с обеих сторон карты; эту конструкцию с двумя MXM можно считать предшественником реализации разъема SXM в Nvidia Tesla.

Сравнение ускорителей, используемых в DGX: [11] [12] [13]

МодельАрхитектураГнездоЯдра FP32
CUDA
Ядра FP64
(без тензора)
Смешанные ядра
INT32/FP32

Ядра INT32
Увеличить
тактовую частоту

Часы памяти

Ширина шины памяти

Пропускная способность памяти
ВидеопамятьОдинарная
точность
(FP32)
Двойная
точность
(FP64)
INT8
(не тензорный)
INT8
плотный тензор
INT32
Плотный тензор FP4
FP16
Плотный тензор FP16
bfloat16
плотный тензор
TensorFloat-32
(TF32)
плотный тензор

Плотный тензор FP64
Межсоединение
(NVLink)
ГПУКэш L1Кэш L2ТДПРазмер матрицы
Количество транзисторов
ПроцессЗапущен
100р.ПаскальСХМ/СХМ2Н/Д17923584Н/Д1480 МГц1,4 Гбит/с HBM24096-бит720 ГБ/сек16 ГБ HBM210,6 терафлопс5.3 ТФЛОПСН/ДН/ДН/ДН/Д21,2 терафлопсН/ДН/ДН/ДН/Д160 ГБ/секГП1001344 КБ (24 КБ × 56)4096 КБ300 Вт610 мм 215.3 БTSMC 16FF+2 квартал 2016 г.
V100 16 ГБВольтаСХМ251202560Н/Д51201530 МГц1,75 Гбит/с HBM24096-бит900 ГБ/сек16 ГБ HBM215,7 терафлопс7,8 терафлопс62 ТОПН/Д15.7 ТОПОВН/Д31,4 терафлопс125 терафлопсН/ДН/ДН/Д300 ГБ/секГВ10010240 КБ (128 КБ × 80)6144 КБ300 Вт815 мм 221.1 БTSMC 12FFN3 квартал 2017 г.
V100 32 ГБВольтаSXM351202560Н/Д51201530 МГц1,75 Гбит/с HBM24096-бит900 ГБ/сек32 ГБ HBM215,7 терафлопс7,8 терафлопс62 ТОПН/Д15.7 ТОПОВН/Д31,4 терафлопс125 терафлопсН/ДН/ДН/Д300 ГБ/секГВ10010240 КБ (128 КБ × 80)6144 КБ350 Вт815 мм 221.1 БTSMC 12FFN
А100 40ГБАмперSXM4691234566912Н/Д1410 МГц2,4 Гбит/с HBM25120-бит1,52 ТБ/сек40 ГБ HBM219,5 терафлопс9,7 терафлопсН/Д624 ТОП19.5 ТОПОВН/Д78 терафлопс312 ТФЛОПС312 ТФЛОПС156 терафлопс19,5 терафлопс600 ГБ/секGA10020736 КБ (192 КБ × 108)40960 КБ400 Вт826 мм 254,2 БTSMC N71 квартал 2020 г.
А100 80ГБАмперSXM4691234566912Н/Д1410 МГц3,2 Гбит/с HBM2e5120-бит1,52 ТБ/сек80 ГБ HBM2e19,5 терафлопс9,7 терафлопсН/Д624 ТОП19.5 ТОПОВН/Д78 терафлопс312 ТФЛОПС312 ТФЛОПС156 терафлопс19,5 терафлопс600 ГБ/секGA10020736 КБ (192 КБ × 108)40960 КБ400 Вт826 мм 254,2 БTSMC N7
H100ХопперSXM516896460816896Н/Д1980 МГц5,2 Гбит/с HBM35120-бит3,35 ТБ/сек80 ГБ HBM367 терафлопс34 терафлопсН/Д1,98 ПОПСН/ДН/ДН/Д990 терафлопс990 терафлопс495 терафлопс67 терафлопс900 ГБ/секGH10025344 КБ (192 КБ × 132)51200 КБ700 Вт814 мм 280 БTSMC 4N3 квартал 2022 г.
H200ХопперSXM516896460816896Н/Д1980 МГц6,3 Гбит/с HBM3e6144-бит4,8 ТБ/сек141 ГБ HBM3e67 терафлопс34 терафлопсН/Д1,98 ПОПСН/ДН/ДН/Д990 терафлопс990 терафлопс495 терафлопс67 терафлопс900 ГБ/секGH10025344 КБ (192 КБ × 132)51200 КБ1000 Вт814 мм 280 БTSMC 4N3 квартал 2023 г.
Б100БлэквеллSXM6Н/ДН/ДН/ДН/ДН/Д8 Гбит/с HBM3e8192-бит8 ТБ/сек192 ГБ HBM3eН/ДН/ДН/Д3.5 ПОПСН/Д7 ПФЛОПСН/Д1,98 ПФЛОПС1,98 ПФЛОПС989 ТФЛОПС30 терафлопс1,8 ТБ/секГБ100Н/ДН/Д700 ВтН/Д208 БTSMC 4NP4 квартал 2024 г. (ожидается)
Б200БлэквеллSXM6Н/ДН/ДН/ДН/ДН/Д8 Гбит/с HBM3e8192-бит8 ТБ/сек192 ГБ HBM3eН/ДН/ДН/Д4.5 ПОПСН/Д9 ПФЛОПСН/Д2,25 ПФЛОПС2,25 ПФЛОПС1,2 ПФЛОПС40 терафлопс1,8 ТБ/секГБ100Н/ДН/Д1000 ВтН/Д208 БTSMC 4NP

Ссылки

  1. ^ Майкл Браун, В.; и др. (2012). «Оценка производительности молекулярной динамики на гибридном суперкомпьютере Cray XK6». Procedia Computer Science . 9 : 186–195 . doi : 10.1016/j.procs.2012.04.020 .
  2. ^ abcd Proud, Matt. "Достижение максимальной вычислительной пропускной способности: PCIe против SXM2". Следующая платформа . Получено 2022-03-31 .
  3. ^ Архитектура Volta whitepaper nvidia.com
  4. ^ Руководство пользователя DGX 1 nvidia.com
  5. ^ servethehome (2020-05-14). "Платформа NVIDIA A100 4x GPU HGX Redstone". ServeTheHome . Получено 2022-03-31 .
  6. ^ "NVLink и NVSwitch для расширенной многопроцессорной связи". NVIDIA .
  7. ^ "Nvidia's H100 – Что это такое, что оно делает и почему это важно". Data Center Knowledge | Новости и аналитика для индустрии центров обработки данных . 2022-03-23 ​​. Получено 2022-03-31 .
  8. ^ «Стоит ли PCIe 5.0 того? Преимущества PCIe 5.0 (2022)». www.techreviewer.com . Получено 2022-03-31 .
  9. ^ "NVIDIA HGX A100: на базе графических процессоров A100 и NVSwitch". NVIDIA . Получено 2022-03-31 .
  10. ^ "Полные сведения о графическом процессоре NVIDIA H100: TSMC N4, HBM3, PCIe 5.0, 700 Вт TDP и т. д.". TweakTown . 2022-03-23 ​​. Получено 2022-03-31 .
  11. ^ Смит, Райан (22 марта 2022 г.). «Анонсирована архитектура графического процессора NVIDIA Hopper и ускоритель H100: работа умнее и сложнее». AnandTech.
  12. ^ Смит, Райан (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель». AnandTech.
  13. ^ "Протестирована NVIDIA Tesla V100: почти невероятная мощность графического процессора". TweakTown . 17 сентября 2017 г.
  • Страница Национального центра высокопроизводительных вычислений в Эрлангене, посвященная высокопроизводительным вычислениям с 4 и 8 процессорами A100 на компьютерный узел, а также показывающая дампы топологии коммутаторов.
Retrieved from "https://en.wikipedia.org/w/index.php?title=SXM_(socket)&oldid=1263808701"