DeepSeek-R1的训练涉及多个阶段和数据来源,具体如下:
训练阶段和数据量
- 推理数据:通过强化学习训练生成大约60万个思维链(CoT)示例数据。
- 非推理数据:使用V3基础模型生成大约20万个通用知识的示例数据。
- 总数据量:因此,DeepSeek-R1的训练总共使用了约80万条数据。
数据来源和类型
- 公开文本数据:包括书籍、百科、新闻、论坛等大规模公开文本。
- 代码数据:来自开源代码库(如GitHub),用于增强模型的逻辑推理和编程能力。
- 人工标注与合成数据:通过专业人员标注的指令微调数据(SFT)和模型合成数据。
- 领域特定数据:如教科书、学术论文及解题过程数据(CoT)用于数学与科学数据,多角色对话数据用于特定风格的对话。
这些数据共同构成了DeepSeek-R1训练的基础,使其在推理能力和语言处理方面表现出色。