Llama3模型的准确率有多高

AI技术
小华
2026-01-05

Llama 3准确率与关键基准成绩
总体说明

  • Llama 3 的“准确率”并非单一数值,通常按具体任务与数据集报告,如 MMLU、GPQA、HumanEval、GSM-8K、MATH 等,不同模型规模(如 8B、70B)与版本(如后续 Llama 3.1)分数会有差异。Meta 在官方评估中给出了一系列代表性成绩,用于反映模型在知识、推理与代码等维度的综合能力。

代表性成绩

  • 下表汇总了公开报道中常用作“准确率”参考的核心基准分数(越高越好;不同数据集口径不同,不宜横向直接比较):
基准指标口径Llama 3 70BLlama 3 8B说明
MMLU5-shot 准确率82.066.6综合多任务语言理解
GPQA准确率39.5高难度问答/专家知识
HumanEvalpass@1 准确率81.7代码生成功能正确性
GSM-8K准确率93.0小学数学推理
MATH准确率50.4竞赛级数学题
  • 以上分数为 Meta 官方评估披露的要点;其中 8B 的 MMLU 66.670B 的 HumanEval 81.7 等被广泛引用。整体来看,70B 在多数基准上显著强于 8B,并在若干任务上超过同级别闭源模型(如 Claude 3 SonnetGemini Pro 1.5)。

评测口径与注意事项

  • 多数成绩为少样本(如5-shot)设置下的准确率pass@1,不同论文/报告在提示词、采样与数据版本上存在差异,严格对比需对齐设置。
  • 模型在不同多选题设置(如标签顺序、标签分布、提示格式)下具有一定鲁棒性,这会影响“准确率”的稳定性;Meta 在鲁棒性评估中给出了相应分析。
  • 后续迭代(如 Llama 3.1)在多语言长上下文(NTK-aware 插值扩展至百万 token)等方面有增强,实际表现可能随版本与上下文长度而变化。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序