DeepSeek-R1的训练数据体系以“规模庞大+结构化分层+高质量筛选”为核心,兼顾通用能力与推理专项能力的构建,具体数据规模及构成如下:
DeepSeek-R1的基础数据层采用100B tokens的通用文本语料(涵盖书籍、网页、百科等),用于建立模型的基础语言理解与生成能力。这类数据是模型获取通用语义知识的基石,确保其对自然语言的理解符合人类常识。
为强化模型的推理能力,训练数据中包含5B tokens的推理专项数据,聚焦数学证明、代码调试、科学推理等结构化任务。这类数据通过明确的逻辑步骤设计,引导模型学习“分步思考-验证-调整”的推理模式。
通过“教师-学生”自生成模式扩展长尾场景数据(如需要多次假设验证的物理问题)。教师模型生成复杂问题,学生模型尝试解决,教师再提供反馈,这种机制使训练数据量指数级增长,覆盖更罕见的推理场景。
DeepSeek-R1的训练数据进一步细化为四大类具体任务,数据规模明确:
为提升模型的“有用性”与“无害性”,训练中引入两类辅助数据:
综上,DeepSeek-R1的训练数据体系通过“通用基础+专项推理+合成扩展+结构化任务”的组合,实现了数据规模与质量的平衡,为其强大的推理能力提供了数据支撑。