DeepSeekR1训练成本高吗

AI技术

小华

2026-01-04

DeepSeek-R1训练成本概览

从已公开披露的数据看，若只看后训练（R1-Zero 与 R1 两阶段），其训练费用约为29.4万美元；若把作为基座的DeepSeek-V3预训练也计入，整体约为600万美元 + 29.4万美元 ≈ 629.4万美元。这在当前主流大模型动辄数千万美元的训练投入中，属于较低水平。

成本构成与关键数字

训练资源与时间
R1-Zero：64×8 张 H800，约198 小时
R1：64×8 张 H800，约80 小时
构建 SFT 数据集：约5,000 GPU Hours
费用测算假设
以H800 租赁价 $2/小时计
费用拆分
R1-Zero：约$202,000
SFT 数据集：约$10,000
R1：约$82,000
合计：约$294,000（29.4 万美元）
基座模型
DeepSeek-V3 预训练约$6,000,000**；R1 在其上做后训练（上述**$294,000）

以上数字来自论文与官方披露的补充材料。

为何能做到相对较低

强化学习策略更高效：采用GRPO（群组相对策略优化），无需单独的价值模型，直接基于组内相对优势估计，显著降低内存与计算开销。
奖励与流程设计简化：以规则化奖励（准确率、格式）配合简洁模板，先产出“思考过程”再给答案，提升训练稳定性与可扩展性。
训练流程创新：R1-Zero 先通过纯强化学习涌现推理能力，再引入少量冷启动数据与多阶段 RL/SFT，减少昂贵的人工标注依赖。

这些设计与算法选择共同压低了后训练阶段的算力与资金门槛。

口径差异说明

有媒体按不同集群规模与周期给出“R1 预训练约557.6万美元、在2048 块 H800上运行55天”的说法；该口径与上文“后训练约29.4万美元”并不矛盾，差异主要来自统计范围（是否包含基座预训练、集群规模与计价口径等）。
业内常见口径是“基座预训练成本 + 后训练成本”的合计来评估大模型总训练投入；按此口径，R1 约629.4万美元仍显著低于许多头部闭源模型。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。