Llama3模型的训练数据来源

AI技术
小华
2026-01-12

llama3训练数据来源与构成

  • 来源范围与规模:全部来自公开来源的混合文本数据,未使用私有或付费数据;预训练规模超过15万亿 tokens,整体数据量约为 llama 2 的7倍,其中代码数据约为4倍。多语言方面包含30+种语言,非英语占比>5%。基础上下文窗口为8k tokens(后续迭代如 llama 3.1 扩展了上下文)。
  • 典型数据类别与示例:涵盖网页、书籍、维基百科、新闻、代码库等通用文本与代码语料;官方未逐一公布具体数据集名称,但行业报道与研究解读通常将其与 llama 2 时期常用的公开来源类比,如common crawl、c4、github、wikipedia、arxiv等(属于“公开在线数据的新组合”,并非官方清单)。
  • 数据过滤与质量控制:构建了多阶段数据清洗与去重流程,包括启发式过滤器、nsfw 过滤、语义重复数据删除、文本质量分类器;并借助llama 2训练的质量分类器来提升数据纯度,同时对不同来源的混合比例进行了大量实验以优化“数据配方”。
  • 合成数据的使用(后训练与特定任务):在后训练与部分任务(如代码执行反馈、编程语言的翻译、文档反向翻译、长文本问答与摘要、代码库推理)中,确有使用由模型生成的合成数据;但这类数据并非预训练语料主体,预训练仍以公开文本为主。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序