DeepSeek R1的训练步骤主要包括以下几个阶段:
1. 初始监督微调(SFT)阶段
- 目标:使强化学习(RL)训练的前期阶段变得稳定,并进一步增强推理能力。
- 数据构成:使用数千个高质量的示例(长链推理cot高质量,可读性强且人工double-check)。
- 数据量级:千级别。
- 来源:DeepSeek-R1-ZeRo格式。
2. 强化学习(RL)训练阶段
- 目标:获得涌现的推理能力。
- 创新点:在DeepSeek-V3-Base上仅使用RL,就可以得到推理能力非常强的模型DeepSeek-R1-Zero。
3. 能力迁移与再训练阶段
- 目标:将推理能力迁移到其他模型,并进行进一步的优化。
- 过程:
- 使用拒绝采样等策略产生大量高质量的Cot数据。
- 在训练基座V3模型的数据中挑选出非推理数据。
- 使用准备好的数据对base模型V3进行微调,得到Pre-DeepSeek-R1模型。
4. 最终强化学习训练阶段
- 目标:考虑全场景,与人的偏好进一步对齐,消除有毒有害内容。
- 过程:
- 使用全场景多样化prompt数据进行最终强化学习。
- 对齐人类偏好,消除有毒有害内容,得到满血版DeepSeek R1。
以上步骤展示了DeepSeek R1从初始监督微调到最终强化学习的完整训练流程,确保了模型在推理能力和可读性方面的显著提升。