DeepSeek-R1训练成本概览
从已公开披露的数据看,若只看后训练(R1-Zero 与 R1 两阶段),其训练费用约为29.4万美元;若把作为基座的DeepSeek-V3预训练也计入,整体约为600万美元 + 29.4万美元 ≈ 629.4万美元。这在当前主流大模型动辄数千万美元的训练投入中,属于较低水平。
成本构成与关键数字
- 训练资源与时间
- R1-Zero:64×8 张 H800,约198 小时
- R1:64×8 张 H800,约80 小时
- 构建 SFT 数据集:约5,000 GPU Hours
- 费用测算假设
- 以H800 租赁价 $2/小时计
- 费用拆分
- R1-Zero:约$202,000
- SFT 数据集:约$10,000
- R1:约$82,000
- 合计:约$294,000(29.4 万美元)
- 基座模型
- DeepSeek-V3 预训练约$6,000,000**;R1 在其上做后训练(上述**$294,000)
以上数字来自论文与官方披露的补充材料。
为何能做到相对较低
- 强化学习策略更高效:采用GRPO(群组相对策略优化),无需单独的价值模型,直接基于组内相对优势估计,显著降低内存与计算开销。
- 奖励与流程设计简化:以规则化奖励(准确率、格式)配合简洁模板,先产出“思考过程”再给答案,提升训练稳定性与可扩展性。
- 训练流程创新:R1-Zero 先通过纯强化学习涌现推理能力,再引入少量冷启动数据与多阶段 RL/SFT,减少昂贵的人工标注依赖。
这些设计与算法选择共同压低了后训练阶段的算力与资金门槛。
口径差异说明
- 有媒体按不同集群规模与周期给出“R1 预训练约557.6万美元、在2048 块 H800上运行55天”的说法;该口径与上文“后训练约29.4万美元”并不矛盾,差异主要来自统计范围(是否包含基座预训练、集群规模与计价口径等)。
- 业内常见口径是“基座预训练成本 + 后训练成本”的合计来评估大模型总训练投入;按此口径,R1 约629.4万美元仍显著低于许多头部闭源模型。