Llama 3 能耗表现概览
训练能耗
| 模型与规模 | 精度 | 集群规模 | 能耗 | 折算说明 |
|---|---|---|---|---|
| Llama 3 405B | BF16 | 2,304×H100 | 8.8 焦耳/Token | 约 4.4B Token/家庭年;训练 15T Token ≈ 3,400 个家庭年 |
| Llama 3 405B | FP8 | 2,304×H100 | (未直接给出) | 参考同规模 FP8 MFU≈43%,能耗高于 BF16 |
| Llama 3 70B | FP8 | 64→2,048×H100 | (随规模上升) | 64 卡:约 440 个家庭年;2,048 卡:约 472 个家庭年;规模扩大能耗上升约 10% |
| Llama 3 70B | BF16 | 64→2,048×H100 | (随规模微升) | MFU 仅降 1–2%,能耗增幅显著小于 FP8 |
| 参考基线(非 Llama 3) | FP8/BF16 | 128×H100 | 2.46 / 3.63 焦耳/Token | 用于对比不同精度与规模下的能耗级别 |
推理能耗
影响能耗的关键因素
快速估算方法