Hopper架构如何支持多种数据类型 - GPU

多数据类型的总体支持机制

第四代张量核心（Tensor Core）原生覆盖多种数值格式，用于矩阵乘累加（MMA）：浮点包括FP8（E4M3/E5M2）、FP16、BF16、TF32、FP64，整型包括INT8。其中FP8提供两种编码以在范围与精度间取舍，并支持FP32/BF16累加器以提升数值稳定性。与上一代相比，Hopper 在等效数据类型上的 MMA 速率显著提升，且在FP8上可达 A100 的约4倍；同时提供面向 HPC 的IEEE FP64/FP32吞吐增强。配套的Transformer 引擎在训练与推理中动态选择FP8/FP16等精度，自动完成层间重投射与缩放，兼顾性能与准确性。

关键硬件与指令机制

Transformer 引擎：结合专用 Hopper Tensor Core 与软件启发式，按层动态选择8位/16位计算，自动处理FP8↔FP16的重投射与缩放，在大型语言模型上实现显著的训练/推理加速（如训练最高可达9倍、推理最高可达30倍）。这使得同一模型可在不同层、不同算子间灵活使用最优精度，而无需人工逐层改写。
线程块集群与分布式共享内存（DSMEM）：新增线程块集群层级，使多个 block 在同一 GPC 内多 SM 协同；集群内所有 SM 的共享内存被逻辑聚合为DSMEM，支持SM↔SM 直接加载/存储/原子操作，显著降低跨 SM 数据交换的延迟与带宽开销，便于在多种数据类型间组织高效的数据通路与布局转换。
张量存储加速器（TMA）与异步事务屏障：TMA以张量维度/块坐标描述大块数据传输，支持1D–5D张量布局与多种访问模式，作为类似“DMA”的硬件单元将地址生成与搬运卸载，释放线程去执行计算；配合异步事务屏障，可实现高效的数据到达等待与“单边拷贝”，提升不同数据类型批量搬运与计算的重叠效率。

典型数据类型与用途概览

数据类型	主要用途	关键特性/说明
FP8 E4M3 / E5M2	训练/推理的矩阵乘累加	两种编码（范围/精度取舍），支持FP32/BF16累加；在 Transformer 引擎下动态启用，吞吐相对 16 位可提升约2倍
FP16 / BF16	主流深度学习训练与部分推理	通用性与数值稳定性兼顾；在 Hopper 上 MMA 速率较 A100 有显著提升
TF32	兼容 FP32 训练路径的加速	作为 Ampere 引入的格式在 Hopper 上继续支持，平滑迁移 FP32 工作负载
FP64	HPC 双精度计算	面向科学计算；Hopper 提供显著的每 SM吞吐改进
INT8	推理量化加速	支持 MMA，常用于低延迟部署场景的整数量化路径

软件生态与编程要点

在框架侧启用Transformer 引擎的混合精度策略，通常只需少量配置即可在训练/推理中自动利用FP8/FP16等格式；推理阶段可直接以FP8运行经相应训练的模型，减少数据格式转换开销。
在 CUDA 侧结合线程块集群 + DSMEM + TMA + 异步事务屏障组织内核：用集群管理更大粒度的数据局部性，用 DSMEM 做 SM 间高速共享，用 TMA 批量搬运不同数据类型的大块张量，并用异步屏障重叠计算与传输，从而在不同数据类型间获得稳定且高效的数据供给与同步。