Llama3模型的准确率有多高

AI技术

小华

2026-01-05

Llama 3准确率与关键基准成绩
总体说明

Llama 3 的“准确率”并非单一数值，通常按具体任务与数据集报告，如 MMLU、GPQA、HumanEval、GSM-8K、MATH 等，不同模型规模（如 8B、70B）与版本（如后续 Llama 3.1）分数会有差异。Meta 在官方评估中给出了一系列代表性成绩，用于反映模型在知识、推理与代码等维度的综合能力。

代表性成绩

下表汇总了公开报道中常用作“准确率”参考的核心基准分数（越高越好；不同数据集口径不同，不宜横向直接比较）：

基准	指标口径	Llama 3 70B	Llama 3 8B	说明
MMLU	5-shot 准确率	82.0	66.6	综合多任务语言理解
GPQA	准确率	39.5	—	高难度问答/专家知识
HumanEval	pass@1 准确率	81.7	—	代码生成功能正确性
GSM-8K	准确率	93.0	—	小学数学推理
MATH	准确率	50.4	—	竞赛级数学题

以上分数为 Meta 官方评估披露的要点；其中 8B 的 MMLU 66.6 与 70B 的 HumanEval 81.7 等被广泛引用。整体来看，70B 在多数基准上显著强于 8B，并在若干任务上超过同级别闭源模型（如 Claude 3 Sonnet、Gemini Pro 1.5）。

评测口径与注意事项

多数成绩为少样本（如5-shot）设置下的准确率或pass@1，不同论文/报告在提示词、采样与数据版本上存在差异，严格对比需对齐设置。
模型在不同多选题设置（如标签顺序、标签分布、提示格式）下具有一定鲁棒性，这会影响“准确率”的稳定性；Meta 在鲁棒性评估中给出了相应分析。
后续迭代（如 Llama 3.1）在多语言与长上下文（NTK-aware 插值扩展至百万 token）等方面有增强，实际表现可能随版本与上下文长度而变化。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。