DeepSeekR1训练步骤有哪些

AI技术
小华
2025-04-21

DeepSeek R1的训练步骤主要包括以下几个阶段:

1. 初始监督微调(SFT)阶段

  • 目标:使强化学习(RL)训练的前期阶段变得稳定,并进一步增强推理能力。
  • 数据构成:使用数千个高质量的示例(长链推理cot高质量,可读性强且人工double-check)。
  • 数据量级:千级别。
  • 来源:DeepSeek-R1-ZeRo格式。

2. 强化学习(RL)训练阶段

  • 目标:获得涌现的推理能力。
  • 创新点:在DeepSeek-V3-Base上仅使用RL,就可以得到推理能力非常强的模型DeepSeek-R1-Zero。

3. 能力迁移与再训练阶段

  • 目标:将推理能力迁移到其他模型,并进行进一步的优化。
  • 过程
  • 使用拒绝采样等策略产生大量高质量的Cot数据。
  • 在训练基座V3模型的数据中挑选出非推理数据。
  • 使用准备好的数据对base模型V3进行微调,得到Pre-DeepSeek-R1模型。

4. 最终强化学习训练阶段

  • 目标:考虑全场景,与人的偏好进一步对齐,消除有毒有害内容。
  • 过程
  • 使用全场景多样化prompt数据进行最终强化学习。
  • 对齐人类偏好,消除有毒有害内容,得到满血版DeepSeek R1。

以上步骤展示了DeepSeek R1从初始监督微调到最终强化学习的完整训练流程,确保了模型在推理能力和可读性方面的显著提升。

亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序