Запущен | 14 мая 2020 г. ( 2020-05-14 ) |
---|---|
Разработано | Нвидиа |
Изготовлено | |
Процесс изготовления | TSMC N7 (профессиональный) Samsung 8N (потребительский) |
Кодовое имя(я) | GA10x |
Серия продуктов | |
Рабочий стол | |
Профессионал/рабочая станция |
|
Сервер/центр обработки данных |
|
Технические характеристики | |
Кэш L1 | 192 КБ на SM (профессиональный) 128 КБ на SM (потребительский) |
кэш L2 | 2 МБ - 6 МБ |
Поддержка памяти | |
поддержка PCIe | PCIe4.0 |
Поддерживаемые графические API | |
DirectX | DirectX 12 Ultimate (уровень возможностей 12_2) |
Direct3D | Direct3D 12.0 |
Модель шейдера | Модель шейдера 6.8 |
OpenCL | OpenCL3.0 |
OpenGL | OpenGL4.6 |
CUDA | Вычислительная мощность 8.6 |
Вулкан | Вулкан 1.3 |
Медиа-движок | |
Кодировать кодеки | |
Декодировать кодеки | |
Глубина цвета в битах |
|
Поддерживаемые кодировщики | НВЕНК |
Выходы дисплея | |
История | |
Предшественник | Turing (потребительский) Volta (профессиональный) |
Преемник | Эйда Лавлейс (потребитель) Хоппер (центр обработки данных) |
Статус поддержки | |
Поддерживается |
Ampere — кодовое название микроархитектуры графического процессора (GPU), разработанной Nvidia в качестве преемника архитектур Volta и Turing . Она была официально анонсирована 14 мая 2020 года и названа в честь французского математика и физика Андре-Мари Ампера . [1] [2]
Nvidia анонсировала потребительские графические процессоры GeForce 30-й серии с архитектурой Ampere на специальном мероприятии GeForce 1 сентября 2020 года. [3] [4] Nvidia анонсировала графический процессор A100 80 ГБ на SC20 16 ноября 2020 года. [5] Мобильные видеокарты RTX и RTX 3060 на базе архитектуры Ampere были представлены 12 января 2021 года. [6]
Nvidia анонсировала преемника Ampere, Hopper , на GTC 2022 и «Ampere Next Next» ( Blackwell ), выпуск которого запланирован на 2024 год, на конференции GPU Technology Conference 2021.
Архитектурные усовершенствования архитектуры Ampere включают в себя следующее:
Сравнение вычислительных возможностей: GP100 против GV100 против GA100 [12]
Возможности графического процессора | Nvidia Тесла P100 | Nvidia Тесла V100 | Nvidia А100 |
---|---|---|---|
Кодовое имя графического процессора | ГП100 | ГВ100 | GA100 |
Архитектура графического процессора | Паскаль | Вольта | Ампер |
Вычислительная мощность | 6.0 | 7.0 | 8.0 |
Нити / основа | 32 | 32 | 32 |
Макс. варпы / SM | 64 | 64 | 64 |
Макс. кол-во нитей/SM | 2048 | 2048 | 2048 |
Макс. кол-во блоков ниток / SM | 32 | 32 | 32 |
Макс. 32-битные регистры/SM | 65536 | 65536 | 65536 |
Макс. количество регистров/блок | 65536 | 65536 | 65536 |
Макс. число регистров/поток | 255 | 255 | 255 |
Максимальный размер блока нити | 1024 | 1024 | 1024 |
Ядра FP32 / SM | 64 | 64 | 64 |
Соотношение регистров SM и ядер FP32 | 1024 | 1024 | 1024 |
Размер разделяемой памяти / SM | 64 КБ | Возможность настройки до 96 КБ | Возможность настройки до 164 КБ |
Сравнение матрицы поддержки точности [13] [14]
Поддерживаемые точности ядра CUDA | Поддерживаемые точности тензорных ядер | |||||||||||||||
FP16 | ФП32 | ФП64 | ИНТ1 | ИНТ4 | ИНТ8 | ТФ32 | БФ16 | FP16 | ФП32 | ФП64 | ИНТ1 | ИНТ4 | ИНТ8 | ТФ32 | БФ16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Nvidia Тесла P4 | Нет | Да | Да | Нет | Нет | Да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
Nvidia P100 | Да | Да | Да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
Nvidia Вольта | Да | Да | Да | Нет | Нет | Да | Нет | Нет | Да | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
Nvidia Тьюринг | Да | Да | Да | Нет | Нет | Нет | Нет | Нет | Да | Нет | Нет | Да | Да | Да | Нет | Нет |
Nvidia А100 | Да | Да | Да | Нет | Нет | Да | Нет | Да | Да | Нет | Да | Да | Да | Да | Да | Да |
Легенда:
Сравнение производительности декодирования
Одновременные потоки | Декодирование H.264 (1080p30) | Декодирование H.265 (HEVC) (1080p30) | Декодирование VP9 (1080p30) |
---|---|---|---|
В100 | 16 | 22 | 22 |
А100 | 75 | 157 | 108 |
Умереть | ГА100 [15] | ГА102 [16] | ГА103 [17] | ГА104 [18] | ГА106 [19] | ГА107 [20] | ГА10Б [21] | ГА10Ф |
---|---|---|---|---|---|---|---|---|
Размер матрицы | 826 мм 2 | 628 мм 2 | 496 мм 2 | 392 мм 2 | 276 мм 2 | 200 мм 2 | 448 мм 2 | ? |
Транзисторы | 54.2Б | 28.3Б | 22Б | 17.4Б | 12Б | 8.7Б | 21Б | ? |
Плотность транзисторов | 65,6 МТр/мм 2 | 45,1 МТр/мм 2 | 44,4 МТр/мм 2 | 44,4 МТр/мм 2 | 43,5 МТр/мм 2 | 43,5 МТр/мм 2 | 46,9 МТр/мм 2 | ? |
Графические кластеры обработки | 8 | 7 | 6 | 6 | 3 | 2 | 2 | 1 |
Потоковые мультипроцессоры | 128 | 84 | 60 | 48 | 30 | 20 | 16 | 12 |
Ядра CUDA | 12288 | 10752 | 7680 | 6144 | 3840 | 2560 | 2048 | 1536 |
Модули текстурного наложения | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
Единицы вывода рендеринга | 192 | 112 | 96 | 96 | 48 | 32 | 32 | 16 |
Тензорные ядра | 512 | 336 | 240 | 192 | 120 | 80 | 64 | 48 |
Ядра RT | Н/Д | 84 | 60 | 48 | 30 | 20 | 8 | 12 |
Кэш L1 | 24 МБ | 10,5 МБ | 7,5 МБ | 6 МБ | 3 МБ | 2,5 МБ | 3 МБ | 1,5 МБ |
192 КБ на SM | 128 КБ на SM | 192 КБ на SM | 128 КБ на SM | |||||
кэш L2 | 40 МБ | 6 МБ | 4 МБ | 4 МБ | 3 МБ | 2 МБ | 4 МБ | ? |
Ускоритель A100 на базе Ampere был анонсирован и выпущен 14 мая 2020 года. [9] A100 имеет производительность FP32 19,5 терафлопс, 6912 ядер CUDA FP32/INT32, 3456 ядер CUDA FP64, 40 ГБ графической памяти и пропускную способность графической памяти 1,6 ТБ/с. [22] Первоначально ускоритель A100 был доступен только в третьем поколении серверов DGX , включая 8 A100. [9] В DGX A100 также включены 15 ТБ хранилища PCIe gen 4 NVMe , [22] два 64-ядерных процессора AMD Rome 7742, 1 ТБ оперативной памяти и межсоединение HDR InfiniBand на базе Mellanox . Первоначальная цена DGX A100 составляла 199 000 долларов. [9]
Сравнение ускорителей, используемых в DGX: [23] [24] [25]
Модель | Архитектура | Гнездо | Ядра FP32 CUDA | Ядра FP64 (без тензора) | Смешанные ядра INT32/FP32 | Ядра INT32 | Увеличить тактовую частоту | Часы памяти | Ширина шины памяти | Пропускная способность памяти | Видеопамять | Одинарная точность (FP32) | Двойная точность (FP64) | INT8 (не тензорный) | INT8 плотный тензор | INT32 | Плотный тензор FP4 | FP16 | Плотный тензор FP16 | bfloat16 плотный тензор | TensorFloat-32 (TF32) плотный тензор | Плотный тензор FP64 | Межсоединение (NVLink) | ГПУ | Кэш L1 | Кэш L2 | ТДП | Размер матрицы | Количество транзисторов | Процесс | Запущен |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
100р. | Паскаль | СХМ/СХМ2 | Н/Д | 1792 | 3584 | Н/Д | 1480 МГц | 1,4 Гбит/с HBM2 | 4096-бит | 720 ГБ/сек | 16 ГБ HBM2 | 10,6 терафлопс | 5.3 ТФЛОПС | Н/Д | Н/Д | Н/Д | Н/Д | 21,2 терафлопс | Н/Д | Н/Д | Н/Д | Н/Д | 160 ГБ/сек | ГП100 | 1344 КБ (24 КБ × 56) | 4096 КБ | 300 Вт | 610 мм 2 | 15.3 Б | TSMC 16FF+ | 2 квартал 2016 г. |
V100 16 ГБ | Вольта | СХМ2 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 16 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 300 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | 3 квартал 2017 г. |
V100 32 ГБ | Вольта | SXM3 | 5120 | 2560 | Н/Д | 5120 | 1530 МГц | 1,75 Гбит/с HBM2 | 4096-бит | 900 ГБ/сек | 32 ГБ HBM2 | 15,7 терафлопс | 7,8 терафлопс | 62 ТОП | Н/Д | 15.7 ТОПОВ | Н/Д | 31,4 терафлопс | 125 терафлопс | Н/Д | Н/Д | Н/Д | 300 ГБ/сек | ГВ100 | 10240 КБ (128 КБ × 80) | 6144 КБ | 350 Вт | 815 мм 2 | 21.1 Б | TSMC 12FFN | |
А100 40ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 2,4 Гбит/с HBM2 | 5120-бит | 1,52 ТБ/сек | 40 ГБ HBM2 | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | 1 квартал 2020 г. |
А100 80ГБ | Ампер | SXM4 | 6912 | 3456 | 6912 | Н/Д | 1410 МГц | 3,2 Гбит/с HBM2e | 5120-бит | 1,52 ТБ/сек | 80 ГБ HBM2e | 19,5 терафлопс | 9,7 терафлопс | Н/Д | 624 ТОП | 19.5 ТОПОВ | Н/Д | 78 терафлопс | 312 ТФЛОПС | 312 ТФЛОПС | 156 терафлопс | 19,5 терафлопс | 600 ГБ/сек | GA100 | 20736 КБ (192 КБ × 108) | 40960 КБ | 400 Вт | 826 мм 2 | 54,2 Б | TSMC N7 | |
H100 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 5,2 Гбит/с HBM3 | 5120-бит | 3,35 ТБ/сек | 80 ГБ HBM3 | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 700 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2022 г. |
H200 | Хоппер | SXM5 | 16896 | 4608 | 16896 | Н/Д | 1980 МГц | 6,3 Гбит/с HBM3e | 6144-бит | 4,8 ТБ/сек | 141 ГБ HBM3e | 67 терафлопс | 34 терафлопс | Н/Д | 1,98 ПОПС | Н/Д | Н/Д | Н/Д | 990 терафлопс | 990 терафлопс | 495 терафлопс | 67 терафлопс | 900 ГБ/сек | GH100 | 25344 КБ (192 КБ × 132) | 51200 КБ | 1000 Вт | 814 мм 2 | 80 Б | TSMC 4N | 3 квартал 2023 г. |
Б100 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 3.5 ПОПС | Н/Д | 7 ПФЛОПС | Н/Д | 1,98 ПФЛОПС | 1,98 ПФЛОПС | 989 ТФЛОПС | 30 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 700 Вт | Н/Д | 208 Б | TSMC 4NP | 4 квартал 2024 г. (ожидается) |
Б200 | Блэквелл | SXM6 | Н/Д | Н/Д | Н/Д | Н/Д | Н/Д | 8 Гбит/с HBM3e | 8192-бит | 8 ТБ/сек | 192 ГБ HBM3e | Н/Д | Н/Д | Н/Д | 4.5 ПОПС | Н/Д | 9 ПФЛОПС | Н/Д | 2,25 ПФЛОПС | 2,25 ПФЛОПС | 1,2 ПФЛОПС | 40 терафлопс | 1,8 ТБ/сек | ГБ100 | Н/Д | Н/Д | 1000 Вт | Н/Д | 208 Б | TSMC 4NP |
Тип | ГА10Б | ГА107 | GA106 | ГА104 | ГА103 | ГА102 | GA100 |
---|---|---|---|---|---|---|---|
Серия GeForce MX | — | GeForce MX570 (мобильный) | — | — | — | — | — |
GeForce 20 серии | — | GeForce RTX 2050 (мобильная) | — | — | — | — | — |
GeForce 30 серии | — | Ноутбук GeForce RTX 3050 GeForce RTX 3050 Ноутбук GeForce RTX 3050 Ti | GeForce RTX 3050 GeForce RTX 3060 Ноутбук GeForce RTX 3060 | GeForce RTX 3060 GeForce RTX 3060 Ti GeForce RTX 3070 Ноутбук GeForce RTX 3070 GeForce RTX 3070 Ti Ноутбук GeForce RTX 3070 Ti GeForce RTX 3080 Ноутбук | GeForce RTX 3060 Ti GeForce RTX 3080 Ti Ноутбук | GeForce RTX 3070 Ti GeForce RTX 3080 GeForce RTX 3080 Ti GeForce RTX 3090 GeForce RTX 3090 Ti | — |
Графические процессоры Nvidia для рабочих станций | — | RTX A1000 (мобильный) | RTX A2000 (мобильный) RTX A2000 | RTX A3000 (мобильный) RTX A4000 (мобильный) RTX A4000 RTX A5000 (мобильный) | RTX A5500 (мобильный) | RTX A4500 RTX A5000 RTX A5500 RTX A6000 | — |
Графические процессоры Nvidia Data Center | — | Нвидиа А2 Нвидиа А16 | — | — | — | Нвидиа А10 Нвидиа А40 | Nvidia A30 Nvidia A100 |
Tegra SoC | AGX Орин Орин NX Орин Нано | — | — | — | — | — | — |