Llama3的能耗表现如何

AI技术
小华
2025-12-07

Llama 3 能耗表现概览
训练能耗

  • 下表汇总了公开测评中按模型规模与精度给出的能耗数据(已计入数据中心 PUE),便于横向比较:
模型与规模精度集群规模能耗折算说明
Llama 3 405BBF162,304×H1008.8 焦耳/Token4.4B Token/家庭年;训练 15T Token ≈ 3,400 个家庭年
Llama 3 405BFP82,304×H100(未直接给出)参考同规模 FP8 MFU≈43%,能耗高于 BF16
Llama 3 70BFP864→2,048×H100(随规模上升)64 卡:约 440 个家庭年;2,048 卡:约 472 个家庭年;规模扩大能耗上升约 10%
Llama 3 70BBF1664→2,048×H100(随规模微升)MFU 仅降 1–2%,能耗增幅显著小于 FP8
参考基线(非 Llama 3)FP8/BF16128×H1002.46 / 3.63 焦耳/Token用于对比不同精度与规模下的能耗级别
  • 关键观察:
  • 在相近规模下,BF16 的能耗通常高于 FP8(例如 405B 的 BF16 为 8.8 焦耳/Token;同规模 FP8 的 MFU 更低,意味着单位 Token 能耗更高)。
  • 随集群从 64→2,048 张 H100 扩展,70B FP8 能耗上升约 10%,而 70B BF16 几乎持平,说明 BF16 在大规模弱扩展下能效更稳定。
  • 参考基线显示,精度从 FP8 升到 BF16 会带来约 32%–48% 的能耗增加(2.46→3.63 焦耳/Token),精度选择与能耗强相关。

推理能耗

  • 第三方在 昇腾 NPU 910B 上的对比显示,模型更小通常能效更高(以 token/s/W 计):
  • Llama 3.2 1B:约 133.3 token/s/W
  • Llama 3.2 3B:约 37.9 token/s/W
  • 启示:在推理侧,参数规模对能效影响显著;在满足任务效果的前提下,选择更小的模型通常能获得更低的能耗/延迟。上述数据基于特定硬件与实现,跨平台结论需结合目标环境实测。

影响能耗的关键因素

  • 精度格式:FP8 通常比 BF16 更省能(同模型同规模下),但需关注数值稳定性与框架支持度。
  • 集群规模与并行策略:弱扩展时,GPU 越多,MFU 越低,导致单位 Token 能耗上升;例如 70B FP8 从 64→2,048 卡能耗 +10%,而 BF16 几乎不变
  • 上下文长度与并行:扩展到超长上下文(如 131,072 tokens)会引入上下文并行,MFU 下降(405B 由 41%→38%),从而抬高能耗。
  • 软件栈与内核优化:仅通过 CUDA 栈与 NCCL 集体通信的软件改进,BF16 MFU 从 34%→54%(吞吐 +57%),同等进度下显著降低能耗/成本。

快速估算方法

  • 若已知“每 Token 能耗 E(焦耳/Token)”与“年 Token 量 T”,可用下式粗估家庭年能耗:
  • 家庭年能耗(个)≈ E × T ÷(美国家庭年均能耗 3.88×10^9 焦耳)
  • 示例:以 405B BF168.8 焦耳/Token 计,15T Token 需要约 3,400 个家庭年;同模型 70B FP864 卡规模约 440 个家庭年,扩展到 2,048 卡472 个家庭年
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序