DeepSeekR1训练需要多少数据

AI技术

小华

2025-07-18

DeepSeek-R1的训练涉及多个阶段和数据来源，具体如下：

训练阶段和数据量

推理数据：通过强化学习训练生成大约60万个思维链（CoT）示例数据。
非推理数据：使用V3基础模型生成大约20万个通用知识的示例数据。
总数据量：因此，DeepSeek-R1的训练总共使用了约80万条数据。

数据来源和类型

公开文本数据：包括书籍、百科、新闻、论坛等大规模公开文本。
代码数据：来自开源代码库（如GitHub），用于增强模型的逻辑推理和编程能力。
人工标注与合成数据：通过专业人员标注的指令微调数据（SFT）和模型合成数据。
领域特定数据：如教科书、学术论文及解题过程数据（CoT）用于数学与科学数据，多角色对话数据用于特定风格的对话。

这些数据共同构成了DeepSeek-R1训练的基础，使其在推理能力和语言处理方面表现出色。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。