Llama3模型的训练数据来源 - AI技术

llama3训练数据来源与构成

来源范围与规模：全部来自公开来源的混合文本数据，未使用私有或付费数据；预训练规模超过15万亿 tokens，整体数据量约为 llama 2 的7倍，其中代码数据约为4倍。多语言方面包含30+种语言，非英语占比>5%。基础上下文窗口为8k tokens（后续迭代如 llama 3.1 扩展了上下文）。
典型数据类别与示例：涵盖网页、书籍、维基百科、新闻、代码库等通用文本与代码语料；官方未逐一公布具体数据集名称，但行业报道与研究解读通常将其与 llama 2 时期常用的公开来源类比，如common crawl、c4、github、wikipedia、arxiv等（属于“公开在线数据的新组合”，并非官方清单）。
数据过滤与质量控制：构建了多阶段数据清洗与去重流程，包括启发式过滤器、nsfw 过滤、语义重复数据删除、文本质量分类器；并借助llama 2训练的质量分类器来提升数据纯度，同时对不同来源的混合比例进行了大量实验以优化“数据配方”。
合成数据的使用（后训练与特定任务）：在后训练与部分任务（如代码执行反馈、编程语言的翻译、文档反向翻译、长文本问答与摘要、代码库推理）中，确有使用由模型生成的合成数据；但这类数据并非预训练语料主体，预训练仍以公开文本为主。