Hopper 架构的性能短板
总体结论
在同类高端 GPU 中,Hopper(以 H100/H200 为代表)的短板主要体现在:对超大规模 LLM 训练/微调的每 GPU 效率不及下一代 Blackwell(B200/GB200);传统 HPC 的 FP64 原始算力在代际间提升有限;当模型规模超过单卡容量时,需要更大的 NVLink 域与更多 GPU 才能维持每 GPU 性能,集群扩展成本上升。
关键短板
在 MLPerf Training v4.1 中,Blackwell 在 GPT-3 预训练实现每 GPU 2× 提升、Llama 2 70B LoRA 微调 2.2×;同时 Blackwell 凭借更大的 HBM3e 容量/带宽,GPT-3 175B 基准可在 64 张 GPU 上跑出每 GPU 最佳性能,而 H100 要达到同等每 GPU 性能需 256 张 GPU。这意味着 Hopper 在 LLM 场景的单位算力经济性逊于 Blackwell。
行业权威在 SC25 指出,从 Hopper 到 Blackwell 的 FP64 性能没有实质改进;H100/H200 的 FP64 约为 34 TFLOPS、FP64 Tensor Core 约为 67 TFLOPS,而后续 Blackwell 的 FP64/FP64 TC 均低于 H200。对依赖 64 位精度的传统仿真/建模,Hopper 虽仍是强力选项,但代际提升并不显著。
H100 提供 80/96 GB HBM3,带宽 3.35/3.9 TB/s;H200 升级为 141 GB HBM3e、带宽 4.8 TB/s,在不改计算核心的前提下带来明显增益。这说明 Hopper 代在计算/内存平衡上仍偏计算侧,内存侧改进需要依赖后续内存规格升级(H200)来补齐。
Blackwell 通过 TMA(Tensor Memory Accelerator)、更高效的 GEMM/注意力内核与通信-计算重叠,把 HBM 带宽与 Tensor Core 吞吐更充分转化为端到端性能;Hopper 可受益于这些库与内核优化,但要想充分吃到 Blackwell 那类“架构+软件”联动红利,通常需要升级到新平台。