• 首页 > 
  • AI技术 > 
  • Hopper架构如何支持多种数据类型

Hopper架构如何支持多种数据类型

GPU
小华
2025-11-21

多数据类型的总体支持机制

  • 第四代张量核心(Tensor Core)原生覆盖多种数值格式,用于矩阵乘累加(MMA):浮点包括FP8(E4M3/E5M2)FP16BF16TF32FP64,整型包括INT8。其中FP8提供两种编码以在范围与精度间取舍,并支持FP32/BF16累加器以提升数值稳定性。与上一代相比,Hopper 在等效数据类型上的 MMA 速率显著提升,且在FP8上可达 A100 的约4倍;同时提供面向 HPC 的IEEE FP64/FP32吞吐增强。配套的Transformer 引擎在训练与推理中动态选择FP8/FP16等精度,自动完成层间重投射与缩放,兼顾性能与准确性。

关键硬件与指令机制

  • Transformer 引擎:结合专用 Hopper Tensor Core 与软件启发式,按层动态选择8位/16位计算,自动处理FP8↔FP16的重投射与缩放,在大型语言模型上实现显著的训练/推理加速(如训练最高可达9倍、推理最高可达30倍)。这使得同一模型可在不同层、不同算子间灵活使用最优精度,而无需人工逐层改写。
  • 线程块集群与分布式共享内存(DSMEM):新增线程块集群层级,使多个 block 在同一 GPC 内多 SM 协同;集群内所有 SM 的共享内存被逻辑聚合为DSMEM,支持SM↔SM 直接加载/存储/原子操作,显著降低跨 SM 数据交换的延迟与带宽开销,便于在多种数据类型间组织高效的数据通路与布局转换。
  • 张量存储加速器(TMA)与异步事务屏障TMA张量维度/块坐标描述大块数据传输,支持1D–5D张量布局与多种访问模式,作为类似“DMA”的硬件单元将地址生成与搬运卸载,释放线程去执行计算;配合异步事务屏障,可实现高效的数据到达等待与“单边拷贝”,提升不同数据类型批量搬运与计算的重叠效率。

典型数据类型与用途概览

数据类型主要用途关键特性/说明
FP8 E4M3 / E5M2训练/推理的矩阵乘累加两种编码(范围/精度取舍),支持FP32/BF16累加;在 Transformer 引擎下动态启用,吞吐相对 16 位可提升约2倍
FP16 / BF16主流深度学习训练与部分推理通用性与数值稳定性兼顾;在 Hopper 上 MMA 速率较 A100 有显著提升
TF32兼容 FP32 训练路径的加速作为 Ampere 引入的格式在 Hopper 上继续支持,平滑迁移 FP32 工作负载
FP64HPC 双精度计算面向科学计算;Hopper 提供显著的每 SM吞吐改进
INT8推理量化加速支持 MMA,常用于低延迟部署场景的整数量化路径

软件生态与编程要点

  • 在框架侧启用Transformer 引擎的混合精度策略,通常只需少量配置即可在训练/推理中自动利用FP8/FP16等格式;推理阶段可直接以FP8运行经相应训练的模型,减少数据格式转换开销。
  • 在 CUDA 侧结合线程块集群 + DSMEM + TMA + 异步事务屏障组织内核:用集群管理更大粒度的数据局部性,用 DSMEM 做 SM 间高速共享,用 TMA 批量搬运不同数据类型的大块张量,并用异步屏障重叠计算与传输,从而在不同数据类型间获得稳定且高效的数据供给与同步。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序