DeepSeek-R1训练时长概览
已公开的训练时长
- 下表汇总了权威披露的各阶段训练时长与资源配置(以H800为主):
| 阶段 | GPU 数量 | 时长 | 说明 |
|---|
| R1‑Zero | 64×8 = 512 张 H800 | 约 198 小时 | 纯强化学习驱动推理能力涌现 |
| R1 | 64×8 = 512 张 H800 | 约 80 小时(≈4 天) | 在 R1‑Zero 基础上继续强化学习 |
| SFT 数据集构建 | — | 约 5,000 GPU‑hours | 用于指令微调的数据准备,非模型训练主阶段 |
上述时长为论文与权威媒体报道中一致披露的数据,用于反映 R1 系列在核心强化学习阶段的实际耗时量级。
为何有时会看到“约 55 天”的说法
- 早期媒体报道曾提到“在2048 块 H800上预训练约 55 天”,这是指 R1 所依托的基座模型 DeepSeek‑V3的预训练时长,并非 R1 本身的强化学习阶段;R1 的研究论文与后续报道聚焦的是 R1/R1‑Zero 的训练流程与时长(见上表)。此外,论文补充材料还给出按$2/小时租赁价估算的成本:R1‑Zero 20.2 万美元、R1 8.2 万美元、SFT 1 万美元,合计约29.4 万美元(不含基座训练成本)。
影响训练时长的关键因素
- GPU 型号与数量:如 H800 与 A100 的算力、显存与通信差异会直接影响单步速度与可并行规模。
- 并行效率与集群通信:MoE 等架构在专家并行下通信开销较高,集群规模、网络拓扑与通信库实现都会影响整体效率。
- 训练阶段设置:是否跳过/缩短 SFT、RL 的迭代轮数与样本规模、奖励设计与模板约束等,都会改变训练步数与收敛速度。
- 数据与实现细节:数据质量、去污染流程、混合精度(如 FP8)与训练稳定性策略等,也会对时长产生间接影响。