DeepSeekR1训练步骤有哪些

AI技术

小华

2025-04-21

DeepSeek R1的训练步骤主要包括以下几个阶段：

1. 初始监督微调（SFT）阶段

目标：使强化学习（RL）训练的前期阶段变得稳定，并进一步增强推理能力。
数据构成：使用数千个高质量的示例（长链推理cot高质量，可读性强且人工double-check）。
数据量级：千级别。
来源：DeepSeek-R1-ZeRo格式。

2. 强化学习（RL）训练阶段

目标：获得涌现的推理能力。
创新点：在DeepSeek-V3-Base上仅使用RL，就可以得到推理能力非常强的模型DeepSeek-R1-Zero。

3. 能力迁移与再训练阶段

目标：将推理能力迁移到其他模型，并进行进一步的优化。
过程：
使用拒绝采样等策略产生大量高质量的Cot数据。
在训练基座V3模型的数据中挑选出非推理数据。
使用准备好的数据对base模型V3进行微调，得到Pre-DeepSeek-R1模型。

4. 最终强化学习训练阶段

目标：考虑全场景，与人的偏好进一步对齐，消除有毒有害内容。
过程：
使用全场景多样化prompt数据进行最终强化学习。
对齐人类偏好，消除有毒有害内容，得到满血版DeepSeek R1。

以上步骤展示了DeepSeek R1从初始监督微调到最终强化学习的完整训练流程，确保了模型在推理能力和可读性方面的显著提升。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。