DeepSeekR1训练需要多久 - AI技术

DeepSeek-R1训练时长概览
已公开的训练时长

阶段	GPU 数量	时长	说明
R1‑Zero	64×8 = 512 张 H800	约 198 小时	纯强化学习驱动推理能力涌现
R1	64×8 = 512 张 H800	约 80 小时（≈4 天）	在 R1‑Zero 基础上继续强化学习
SFT 数据集构建	—	约 5,000 GPU‑hours	用于指令微调的数据准备，非模型训练主阶段

上述时长为论文与权威媒体报道中一致披露的数据，用于反映 R1 系列在核心强化学习阶段的实际耗时量级。
为何有时会看到“约 55 天”的说法

早期媒体报道曾提到“在2048 块 H800上预训练约 55 天”，这是指 R1 所依托的基座模型 DeepSeek‑V3的预训练时长，并非 R1 本身的强化学习阶段；R1 的研究论文与后续报道聚焦的是 R1/R1‑Zero 的训练流程与时长（见上表）。此外，论文补充材料还给出按$2/小时租赁价估算的成本：R1‑Zero 20.2 万美元、R1 8.2 万美元、SFT 1 万美元，合计约29.4 万美元（不含基座训练成本）。

影响训练时长的关键因素