• 首页 > 
  • AI技术 > 
  • DeepSeekR1训练方法有哪些关键步骤

DeepSeekR1训练方法有哪些关键步骤

AI技术
小华
2025-08-09

DeepSeek R1训练方法的关键步骤如下:

  1. 预备阶段:以基础模型为起点,用基于规则的奖励模型和近端策略优化算法(PPO)进行强化学习,提升长篇推理能力,但此阶段输出可能存在可读性问题。
  2. 冷启动微调:用少量高质量“长链思维”数据进行监督微调,让模型输出形成规范格式,提升可读性和结构性。
  3. 第一阶段强化学习:在冷启动微调后的模型上,采用PPO和基于规则的奖励模型,加入“语言一致性”奖励,进一步优化推理任务表现。
  4. 数据生成与筛选:利用训练好的模型生成大量推理数据,通过拒绝采样筛选出高质量数据,为后续微调提供支持。
  5. 第二阶段微调:使用筛选后的数据再次进行监督微调,混合推理和非推理数据,改善多任务表现,平衡推理能力与易读性。
  6. 最终强化学习优化:再次使用PPO,结合基于规则和结果的奖励模型,提升模型在各类任务中的有效性、安全性和输出质量。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序