Hopper架构性能差在哪 - GPU

Hopper 架构的性能短板
总体结论
在同类高端 GPU 中，Hopper（以 H100/H200 为代表）的短板主要体现在：对超大规模 LLM 训练/微调的每 GPU 效率不及下一代 Blackwell（B200/GB200）；传统 HPC 的 FP64 原始算力在代际间提升有限；当模型规模超过单卡容量时，需要更大的 NVLink 域与更多 GPU 才能维持每 GPU 性能，集群扩展成本上升。
关键短板

LLM 每 GPU 效率落后 Blackwell

在 MLPerf Training v4.1 中，Blackwell 在 GPT-3 预训练实现每 GPU 2× 提升、Llama 2 70B LoRA 微调 2.2×；同时 Blackwell 凭借更大的 HBM3e 容量/带宽，GPT-3 175B 基准可在 64 张 GPU 上跑出每 GPU 最佳性能，而 H100 要达到同等每 GPU 性能需 256 张 GPU。这意味着 Hopper 在 LLM 场景的单位算力经济性逊于 Blackwell。

HPC 的 FP64 原始性能提升有限

行业权威在 SC25 指出，从 Hopper 到 Blackwell 的 FP64 性能没有实质改进；H100/H200 的 FP64 约为 34 TFLOPS、FP64 Tensor Core 约为 67 TFLOPS，而后续 Blackwell 的 FP64/FP64 TC 均低于 H200。对依赖 64 位精度的传统仿真/建模，Hopper 虽仍是强力选项，但代际提升并不显著。

内存容量/带宽仍是瓶颈，需靠 H200 的 HBM3e 补强

H100 提供 80/96 GB HBM3，带宽 3.35/3.9 TB/s；H200 升级为 141 GB HBM3e、带宽 4.8 TB/s，在不改计算核心的前提下带来明显增益。这说明 Hopper 代在计算/内存平衡上仍偏计算侧，内存侧改进需要依赖后续内存规格升级（H200）来补齐。

软件栈对新一代硬件特性的利用尚在演进

Blackwell 通过 TMA（Tensor Memory Accelerator）、更高效的 GEMM/注意力内核与通信-计算重叠，把 HBM 带宽与 Tensor Core 吞吐更充分转化为端到端性能；Hopper 可受益于这些库与内核优化，但要想充分吃到 Blackwell 那类“架构+软件”联动红利，通常需要升级到新平台。