多数据类型的总体支持机制
关键硬件与指令机制
典型数据类型与用途概览
| 数据类型 | 主要用途 | 关键特性/说明 |
|---|---|---|
| FP8 E4M3 / E5M2 | 训练/推理的矩阵乘累加 | 两种编码(范围/精度取舍),支持FP32/BF16累加;在 Transformer 引擎下动态启用,吞吐相对 16 位可提升约2倍 |
| FP16 / BF16 | 主流深度学习训练与部分推理 | 通用性与数值稳定性兼顾;在 Hopper 上 MMA 速率较 A100 有显著提升 |
| TF32 | 兼容 FP32 训练路径的加速 | 作为 Ampere 引入的格式在 Hopper 上继续支持,平滑迁移 FP32 工作负载 |
| FP64 | HPC 双精度计算 | 面向科学计算;Hopper 提供显著的每 SM吞吐改进 |
| INT8 | 推理量化加速 | 支持 MMA,常用于低延迟部署场景的整数量化路径 |
软件生态与编程要点