Запущен | 20 сентября 2022 г. ( 2022-09-20 ) |
---|---|
Разработано | Нвидиа |
Изготовлено | |
Процесс изготовления | TSMC N4 |
Серия продуктов | |
Сервер/центр обработки данных |
|
Технические характеристики | |
Кэш L1 | 256 КБ (на SM) |
кэш L2 | 50 МБ |
Поддержка памяти | HBM3 |
поддержка PCIe | PCI-Express 5.0 |
Медиа-движок | |
Поддерживаемые кодировщики | НВЕНК |
История | |
Предшественник | Ампер |
Вариант | Ада Лавлейс (потребитель и профессионал) |
Преемник | Блэквелл |
Hopper — это микроархитектура графического процессора (GPU) , разработанная компанией Nvidia . Она предназначена для центров обработки данных и используется вместе с микроархитектурой Lovelace . Это последнее поколение линейки продуктов, ранее известных как Nvidia Tesla , а теперь — Nvidia Data Centre GPUs.
Названная в честь компьютерного ученого и контр-адмирала ВМС США Грейс Хоппер , архитектура Hopper была обнародована в ноябре 2019 года и официально представлена в марте 2022 года. Она превосходит своих предшественников, микроархитектуры Turing и Ampere , и включает в себя новый потоковый мультипроцессор , более быструю подсистему памяти и трансформаторный ускоритель.
Графический процессор Nvidia Hopper H100 реализован с использованием процесса TSMC N4 с 80 миллиардами транзисторов. Он состоит из 144 потоковых мультипроцессоров . [1] Благодаря увеличенной пропускной способности памяти, обеспечиваемой сокетом SXM5, Nvidia Hopper H100 обеспечивает лучшую производительность при использовании в конфигурации SXM5, чем в типичном сокете PCIe. [2]
Потоковые мультипроцессоры для Hopper улучшают микроархитектуры Turing и Ampere , хотя максимальное количество одновременных варпов на потоковый мультипроцессор (SM) остается одинаковым для архитектур Ampere и Hopper, 64. [3] Архитектура Hopper предоставляет тензорный ускоритель памяти (TMA), который поддерживает двунаправленную асинхронную передачу памяти между общей памятью и глобальной памятью. [4] В TMA приложения могут передавать до 5D тензоров. При записи из общей памяти в глобальную память могут использоваться поэлементное сокращение и побитовые операторы, избегая регистров и инструкций SM, при этом позволяя пользователям писать специализированные коды варпов. TMA предоставляется через cuda::memcpy_async
. [5]
При распараллеливании приложений разработчики могут использовать кластеры блоков потоков . Блоки потоков могут выполнять атомарные операции в общей памяти других блоков потоков в пределах своего кластера, иначе называемой распределенной общей памятью . Распределенная общая память может использоваться SM одновременно с кэшем L2 ; при использовании для передачи данных между SM это может использовать объединенную полосу пропускания распределенной общей памяти и L2. Максимальный размер переносимого кластера составляет 8, хотя Nvidia Hopper H100 может поддерживать размер кластера 16 с помощью этой cudaFuncAttributeNonPortableClusterSizeAllowed
функции, потенциально за счет уменьшения количества активных блоков. [6] С многоадресной рассылкой L2 и распределенной общей памятью требуемая полоса пропускания для чтения и записи динамической памяти с произвольным доступом уменьшается. [7]
Hopper отличается улучшенной пропускной способностью формата с плавающей точкой одинарной точности (FP32) с вдвое большим количеством операций FP32 за цикл на SM, чем у его предшественника. Кроме того, архитектура Hopper добавляет поддержку новых инструкций, включая алгоритм Смита-Уотермана . [6] Как и Ampere, поддерживается арифметика TensorFloat-32 (TF-32). Шаблон отображения для обеих архитектур идентичен. [8]
Nvidia Hopper H100 поддерживает память HBM3 и HBM2e до 80 ГБ; система памяти HBM3 поддерживает 3 ТБ/с, что на 50% больше, чем 2 ТБ/с у Nvidia Ampere A100. По всей архитектуре были увеличены емкость кэша L2 и пропускная способность. [9]
Hopper позволяет вычислительным ядрам CUDA использовать автоматическое встроенное сжатие, в том числе при индивидуальном выделении памяти, что позволяет получать доступ к памяти с более высокой пропускной способностью. Эта функция не увеличивает объем памяти, доступной приложению, поскольку данные (и, следовательно, их сжимаемость ) могут быть изменены в любое время. Компрессор автоматически выберет между несколькими алгоритмами сжатия. [9]
Nvidia Hopper H100 увеличивает емкость объединенного кэша L1, текстурного кэша и общей памяти до 256 КБ. Как и его предшественники, он объединяет кэши L1 и текстур в единый кэш, разработанный как объединяющий буфер. Атрибут cudaFuncAttributePreferredSharedMemoryCarveout
может использоваться для определения вырезания кэша L1. Hopper представляет усовершенствования NVLink посредством нового поколения с более быстрой общей пропускной способностью связи. [10]
Некоторые приложения CUDA могут испытывать помехи при выполнении операций ограждения или сброса из-за упорядочивания памяти. Поскольку графический процессор не может знать, какие записи гарантированы, а какие видны по случайному времени, он может ожидать ненужных операций памяти, тем самым замедляя операции ограждения или сброса. Например, когда ядро выполняет вычисления в памяти графического процессора, а параллельное ядро выполняет связь с одноранговым узлом, локальное ядро будет сбрасывать свои записи, что приведет к более медленной записи NVLink или PCIe . В архитектуре Hopper графический процессор может уменьшить net cast с помощью операции ограждения. [11]
Интерфейс прикладного программирования математики архитектуры Hopper (API) предоставляет функции в SM, такие как __viaddmin_s16x2_relu
, который выполняет per- halfword . В алгоритме Смита-Уотермана может использоваться трехсторонний минимум или максимум с последующим ограничением до нуля. [12] Аналогично, Hopper ускоряет реализацию алгоритма Needleman-Wunsch . [13]__vimax3_s16x2_relu
Архитектура Hopper была первой архитектурой Nvidia, в которой был реализован движок transformer. [14] Трансформаторный движок ускоряет вычисления, динамически уменьшая их с более высокой числовой точности (например, FP16) до более низкой точности, которая выполняется быстрее (например, FP8), когда потеря точности считается приемлемой. [14] Трансформаторный движок также способен динамически выделять биты в выбранной точности либо мантиссе, либо экспоненте во время выполнения, чтобы максимизировать точность. [5]
Форм-фактор SXM5 H100 имеет тепловую расчетную мощность (TDP) 700 Вт . Что касается асинхронности, архитектура Hopper может достигать высокой степени использования и, таким образом, иметь лучшую производительность на ватт. [15]
Разработано | Нвидиа |
---|---|
Изготовлено | |
Процесс изготовления | TSMC 4N |
Кодовое имя(я) | Грейс Хоппер |
Технические характеристики | |
Вычислить | Графический процессор: 132 процессора Hopper SM. ЦП: 72 ядра Neoverse V2. |
Тактовая частота шейдера | 1980 МГц |
Поддержка памяти | Графический процессор: 96 ГБ HBM3 или 144 ГБ HBM3e Центральный процессор: 480 ГБ LPDDR5X |
GH200 объединяет графический процессор H100 на базе Hopper с 72-ядерным центральным процессором на базе Grace в одном модуле. Общая потребляемая мощность модуля составляет до 1000 Вт. Центральный процессор и графический процессор соединены через NVLink, что обеспечивает согласованность памяти между центральным процессором и графическим процессором. [16]
В ноябре 2019 года известный аккаунт Twitter опубликовал твит, в котором говорилось, что следующая архитектура после Ampere будет называться Hopper, в честь компьютерного учёного и контр-адмирала ВМС США Грейс Хоппер , одного из первых программистов Harvard Mark I. В аккаунте говорилось, что Hopper будет основан на многочиповой модульной конструкции, что приведёт к повышению производительности при меньших потерях. [17]
Во время Nvidia GTC 2022 года Nvidia официально анонсировала Hopper. [18] К 2023 году, во время бума ИИ , H100 пользовались большим спросом. Ларри Эллисон из Oracle Corporation сказал в том году, что на ужине с генеральным директором Nvidia Дженсеном Хуангом он и Илон Маск из Tesla, Inc. и xAI «умоляли» о H100, «Я думаю, это лучший способ описать это. Час суши и умоляния». [19]
В январе 2024 года аналитики Raymond James Financial подсчитали, что Nvidia продавала графические процессоры H100 по цене от 25 000 до 30 000 долларов за штуку, в то время как на eBay отдельные H100 стоили более 40 000 долларов. [20] По сообщениям, по состоянию на февраль 2024 года Nvidia поставляла графические процессоры H100 в центры обработки данных в бронированных автомобилях. [21]
Сравнение ускорителей, используемых в DGX: [22] [23] [24]
Модель | Архитектура | Гнездо | Ядра FP32 CUDA | Ядра FP64 (без тензора) | Смешанные ядра INT32/FP32 | Ядра INT32 | Увеличить тактовую частоту | Часы памяти | Ширина шины памяти | Пропускная способность памяти | Видеопамять | Одинарная точность (FP32) | Двойная точность (FP64) | INT8 (не тензорный) | INT8 плотный тензор | INT32 | Плотный тензор FP4 | FP16 | Плотный тензор FP16 | bfloat16 плотный тензор | TensorFloat-32 (TF32) плотный тензор | Плотный тензор FP64 | Межсоединение (NVLink) | ГПУ | Кэш L1 | Кэш L2 | ТДП | Размер матрицы | Количество транзисторов | Процесс | Запущен |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
100р. | Паскаль | СХМ/СХМ2 | Н/Д | 1792 | 3584 | Н/Д | 1480 МГц | 1,4 Гбит/с HBM2 | 4096-бит | 720 ГБ/сек | 16 ГБ HBM2 | 10,6 терафлопс | 5.3 ТФЛОПС | Н/Д | Н/Д | Н/Д | Н/Д | 21,2 терафлопс | Н/Д | Н/Д | Н/Д | Н/Д | 160 ГБ/сек | ГП100 | 1344 КБ (24 КБ × 56) | 4096 КБ | 300 Вт | 610 мм 2 | 15.3 Б | TSMC 16FF+ | 2 квартал 2016 г. |
V100 16 ГБ | Вольта | СХМ2 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 16 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 300 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | 3 квартал 2017 г. |
V100 32 ГБ | Вольта | SXM3 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 32 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 350 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | |
А100 40ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 2,4 Гбит/с HBM2 | 5120-бит | 1,52 ТБ/сек | 40 ГБ HBM2 | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | 1 квартал 2020 г. |
А100 80ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 3,2 Гбит/с HBM2e | 5120-бит | 1,52 ТБ/сек | 80 ГБ HBM2e | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | |
H100 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 5,2 Гбит/с HBM3 | 5120-бит | 3,35 ТБ/сек | 80 ГБ HBM3 | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 700 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2022 г. |
H200 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 6,3 Гбит/с HBM3e | 6144-бит | 4,8 ТБ/сек | 141 ГБ HBM3e | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 1000 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2023 г. |
Б100 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 3.5 ПОПС | Н/Д | 7 ПФЛОПС | Н/Д | 1,98 ПФЛОПС | 1,98 ПФЛОПС | 989 ТФЛОПС | 30 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 700 Вт | Н/Д | 208 Б | TSMC 4NP | 4 квартал 2024 г. (ожидается) |
Б200 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 4.5 ПОПС | Н/Д | 9 ПФЛОПС | Н/Д | 2,25 ПФЛОПС | 2,25 ПФЛОПС | 1,2 ПФЛОПС | 40 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 1000 Вт | Н/Д | 208 Б | TSMC 4NP |