Llama3的能耗表现如何

AI技术

小华

2025-12-07

Llama 3 能耗表现概览
训练能耗

下表汇总了公开测评中按模型规模与精度给出的能耗数据（已计入数据中心 PUE），便于横向比较：

模型与规模	精度	集群规模	能耗	折算说明
Llama 3 405B	BF16	2,304×H100	8.8 焦耳/Token	约 4.4B Token/家庭年；训练 15T Token ≈ 3,400 个家庭年
Llama 3 405B	FP8	2,304×H100	（未直接给出）	参考同规模 FP8 MFU≈43%，能耗高于 BF16
Llama 3 70B	FP8	64→2,048×H100	（随规模上升）	64 卡：约 440 个家庭年；2,048 卡：约 472 个家庭年；规模扩大能耗上升约 10%
Llama 3 70B	BF16	64→2,048×H100	（随规模微升）	MFU 仅降 1–2%，能耗增幅显著小于 FP8
参考基线（非 Llama 3）	FP8/BF16	128×H100	2.46 / 3.63 焦耳/Token	用于对比不同精度与规模下的能耗级别

关键观察：
在相近规模下，BF16 的能耗通常高于 FP8（例如 405B 的 BF16 为 8.8 焦耳/Token；同规模 FP8 的 MFU 更低，意味着单位 Token 能耗更高）。
随集群从 64→2,048 张 H100 扩展，70B FP8 能耗上升约 10%，而 70B BF16 几乎持平，说明 BF16 在大规模弱扩展下能效更稳定。
参考基线显示，精度从 FP8 升到 BF16 会带来约 32%–48% 的能耗增加（2.46→3.63 焦耳/Token），精度选择与能耗强相关。

推理能耗

第三方在 昇腾 NPU 910B 上的对比显示，模型更小通常能效更高（以 token/s/W 计）：
Llama 3.2 1B：约 133.3 token/s/W
Llama 3.2 3B：约 37.9 token/s/W
启示：在推理侧，参数规模对能效影响显著；在满足任务效果的前提下，选择更小的模型通常能获得更低的能耗/延迟。上述数据基于特定硬件与实现，跨平台结论需结合目标环境实测。

影响能耗的关键因素

精度格式：FP8 通常比 BF16 更省能（同模型同规模下），但需关注数值稳定性与框架支持度。
集群规模与并行策略：弱扩展时，GPU 越多，MFU 越低，导致单位 Token 能耗上升；例如 70B FP8 从 64→2,048 卡能耗 +10%，而 BF16 几乎不变。
上下文长度与并行：扩展到超长上下文（如 131,072 tokens）会引入上下文并行，MFU 下降（405B 由 41%→38%），从而抬高能耗。
软件栈与内核优化：仅通过 CUDA 栈与 NCCL 集体通信的软件改进，BF16 MFU 从 34%→54%（吞吐 +57%），同等进度下显著降低能耗/成本。

快速估算方法

若已知“每 Token 能耗 E（焦耳/Token）”与“年 Token 量 T”，可用下式粗估家庭年能耗：
家庭年能耗（个）≈ E × T ÷（美国家庭年均能耗 3.88×10^9 焦耳）
示例：以 405B BF16 的 8.8 焦耳/Token 计，15T Token 需要约 3,400 个家庭年；同模型 70B FP8 在 64 卡规模约 440 个家庭年，扩展到 2,048 卡约 472 个家庭年。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。