• 首页 > 
  • AI技术 > 
  • DeepSeekR1训练中正则化技术有哪些

DeepSeekR1训练中正则化技术有哪些

AI技术
小华
2026-01-11

DeepSeek-R1训练中的正则化技术概览
一 强化学习阶段的正则化

  • KL 散度约束(KL Penalty):在策略优化中显式加入参考模型(如π_ref)的 KL 散度惩罚项 β·DKL(π_θ||π_ref),限制策略更新幅度,既鼓励探索又保持与参考策略的一致性,提升训练稳定性。该项是 GRPO 损失中的核心正则化成分。
  • 组内相对优势归一化(Group Relative Advantage):对每个提示采样G 个输出,用组内均值与标准差进行归一化得到优势 A_i,天然起到“方差正则”的作用,降低异常样本对更新的影响,使优化更稳健。
  • 策略更新裁剪(Clipping-like Surrogate Objective):在 GRPO 的目标函数中采用类似 PPO 的“裁剪/最小值”机制,对概率比进行区间限制,抑制过大的策略更新步长,属于典型的策略更新正则化。
  • 奖励塑造中的格式与语言一致性约束:在 RL 阶段引入格式奖励语言一致性奖励(如鼓励 CoT 中目标语言占比),从行为层面约束输出结构与语言风格,减少语言混合与格式混乱,提升可读性与可控性。

二 监督微调与数据层面的正则化

  • 拒绝采样(Rejection Sampling):在 RL 收敛后,从检查点采样多条推理轨迹,仅保留正确答案/高质量轨迹进入 SFT,等价于对训练分布进行“硬筛选”,抑制错误模式复现,提升数据质量与泛化。
  • 冷启动 SFT 与高质量 CoT 数据:在 RL 前以数千条长链推理(Chain-of-Thought)的冷启动数据进行监督微调,规范推理结构与可读性,为后续 RL 提供稳定起点,降低早期训练的不稳定性。
  • 多阶段数据配比与分布控制:SFT 阶段混合约60 万推理数据与约20 万通用数据(写作、事实问答等),通过数据分布“正则”平衡推理能力与通用性,避免过拟合到单一任务或风格。

三 训练流程层面的稳定性与泛化控制

  • 多阶段退火与场景覆盖:RL 训练分为“推理导向 RL → 全场景 RL”两阶段,先在推理密集任务上强化能力,再在全场景引入帮助性/无害性等人类偏好奖励,逐步退火约束,避免在非推理场景出现过拟合或偏移。
  • 参考模型锚定与策略约束:全程以参考模型为锚(SFT 起点与 KL 参考),配合组归一化与裁剪,形成“探索—约束”的动态平衡,稳定训练并提升泛化。

四 与 PPO 等方法的对比要点

  • 去价值模型 + 组归一化优势:GRPO 不依赖单独的价值模型,改用组内相对优势,减少方差与资源开销,同时降低因价值估计误差带来的训练不稳定风险。
  • KL 正则化位置变化:PPO 常将 KL 作为奖励项,GRPO 将 KL 直接纳入损失函数,便于以β精细调控策略偏离幅度,提升可控性与稳定性。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序