TensorFloat-32

Формат нумерации в оборудовании Nvidia

TensorFloat-32 или TF32 — это числовой формат с плавающей точкой , разработанный для Tensor Core, работающего на некоторых графических процессорах Nvidia .

Формат

Двоичный формат:

  • 1 знаковый бит
  • 8 бит экспоненты
  • 10 бит дробной части (также называемых мантиссой или битами точности)

Все 19 бит умещаются в двойном слове (32 бита), и хотя ему не хватает точности по сравнению с обычным 32-битным числом с плавающей точкой IEEE 754 , вычисления выполняются гораздо быстрее, до 8 раз на A100 (по сравнению с V100, использующим FP32 ). [1]

Смотрите также

Ссылки

  1. ^ https://deeprec.readthedocs.io/en/latest/NVIDIA-TF32.html, доступ 23 мая 2024 г.

Взято с "https://en.wikipedia.org/w/index.php?title=TensorFloat-32&oldid=1265459310"