Llama3成本构成及具体范围
Llama3的成本主要分为训练成本(由Meta等开发方承担,用户无需直接支付)、部署与使用成本(用户需承担的核心成本),具体如下:
一、训练成本(开发方视角)
Llama3的训练成本随模型规模增大而显著上升,主要包括算力租赁、电力消耗及研发人力等间接成本:
- 8B参数模型:训练需在NVLink域内每对GPU进行上下文并行,使用数据并行扩展。虽无直接公开总成本,但推测远低于70B及以上模型。
- 70B参数模型:
- 集群规模:需2000块H100 GPU(BF16精度);
- 单百万token成本:约1.95美元(基于2025年H100集群的软件优化效率);
- 总训练成本:约2910万美元(15万亿token量级)。
- 405B参数模型:
- 集群规模:需2000块以上H100 GPU(BF16精度);
- 单百万token成本:约为70B模型的5.4倍(因FLOPs与参数量线性相关);
- 总训练成本:推测超过1.5亿美元(远高于混合专家模型如DeepSeek的500万美元训练成本)。
二、部署与使用成本(用户视角)
用户使用Llama3的成本主要集中在算力租赁(本地部署需购买硬件)、API调用(若使用云端服务)及维护费用:
- 算力租赁(云端):
- 主流配置:NVIDIA H800(8卡)约6.99元/卡/时(潞晨云限时补贴价)、A800(8卡)约5.99元/卡/时、4090(8卡)约1.39元/卡/时;
- 示例:8卡H800集群部署Llama3 70B微调,月成本约6.99元/卡/时×8卡×720小时≈3.9万元(未含软件优化成本)。
- API调用(云端):
- 目前Llama3未推出官方API,但类似开源模型(如MiniCPM-Llama3-V-2.5)的API调用成本约为0.01-0.1元/千token(参考GPT-4-turbo的0.03元/千token、Claude-3-sonnet的0.02元/千token)。
- 本地部署(硬件):
- 硬件要求:70B模型需至少8张H100/A800 GPU(单张约8万元),总硬件成本约64万元;
- 维护成本:包括机房电力(约1万元/月)、运维人员工资(约1-2万元/月)。
三、其他隐性成本
- 软件优化:Llama3的训练依赖CUDA栈、NCCL等软件优化(如2024-2025年软件优化使训练吞吐量提升57%),企业若自行优化需投入研发人力;
- 数据成本:Llama3的训练数据达15万亿token,若用户需自定义数据,需承担数据收集、清洗及标注成本。
综上,Llama3的成本差异极大:训练成本由开发方承担(70B模型约2910万美元,405B模型超1.5亿美元);用户使用成本则根据部署方式(云端/本地)和模型规模(8B/70B/405B)波动,云端微调月成本约数万元,本地部署硬件成本约数十万元。