DeepSeek R1的训练方法优化模型主要通过以下方式:
- 强化学习(RL)训练:采用GRPO算法,通过组内样本平均奖励估算优势函数,减少内存占用与计算成本,分阶段引入推理导向和全场景任务优化能力。
- 监督微调(SFT):在RL阶段后,用高质量数据集进行微调,改善输出可读性与结构性,如通过few-shot提示和思维链示例引导模型。
- 拒绝采样与数据扩充:从RL生成的检查点筛选高质量样本,补充多样化任务数据(如写作、翻译),扩展模型应用范围。
- 模型蒸馏:将大模型推理模式蒸馏到小模型(如Qwen、Llama系列),降低复杂度,提升部署效率。
- 动态量化:推出动态量化版本,减少模型大小和计算需求,同时保持较高准确性。