TensorFloat-32

Формат нумерации в оборудовании Nvidia

TensorFloat-32 или TF32 — это числовой формат с плавающей точкой , разработанный для Tensor Core, работающего на некоторых графических процессорах Nvidia .

Формат

Двоичный формат:

1 знаковый бит
8 бит экспоненты
10 бит дробной части (также называемых мантиссой или битами точности)

Все 19 бит умещаются в двойном слове (32 бита), и хотя ему не хватает точности по сравнению с обычным 32-битным числом с плавающей точкой IEEE 754 , вычисления выполняются гораздо быстрее, до 8 раз на A100 (по сравнению с V100, использующим FP32 ). ^[1]

Смотрите также

IEEE 754

Ссылки

^ https://deeprec.readthedocs.io/en/latest/NVIDIA-TF32.html, доступ 23 мая 2024 г.

Внешние ссылки

Эта статья по компьютерной инженерии — заглушка . Вы можете помочь Википедии, расширив ее.

[1] ttps://deeprec.readthedocs.io/en/latest/NVIDIA-TF32.html, доступ 23 мая 2024 г.