OpenELM模型的准确率有多高

AI技术

小华

2025-12-24

OpenELM准确率与关键对比
核心结论

在约11亿参数规模下，OpenELM 相比 12亿参数 OLMo 在三类评测框架中的准确率分别高出1.28%、2.36% 与 1.72%，且使用的预训练 token 约为 OLMo 的一半。这体现其在小体量模型上的高效参数分配带来的精度优势。
经过指令微调后，OpenELM 在多个评测框架上的平均准确率提升约 1–2 个百分点，说明其在指令遵循与任务对齐方面具备良好可塑性。
在代表性基准 MMLU（5-shot） 上，OpenELM-3B 的准确率不到 30%，与同体量领先的 Phi-3（约 70%） 存在明显差距，提示其在通用知识型任务上的上限仍受模型规模限制。

主要基准成绩概览

模型与规模	评测任务与设置	准确率或提升	备注
OpenELM-1.1B vs OLMo-1.2B	三类评测框架（表4a/4b/4c）	+1.28% / +2.36% / +1.72%	使用约2×更少预训练 token
OpenELM（指令微调后）	多框架平均	+1–2 个百分点	使用 UltraFeedback 60k 提示
OpenELM-3B	MMLU（5-shot）	< 30%	同期报道 Phi-3 ≈ 70%
OpenELM-3B	HellaSwag / PIQA / ARC-c	未统一公布具体百分比	论文与媒体以相对提升与对比为主

上述数据来自苹果论文与多家技术媒体的评测解读，涵盖零样本/少样本与指令微调两类设置，便于横向理解其精度水平与定位。
评测口径与解读

OpenELM 的评测覆盖三大套件：① 7 个标准常识推理任务（ARC-e/ch、BoolQ、HellaSwag、PIQA、SciQ、WinoGrande）；② OpenLLM 排行榜 5 任务（ARC-c、HellaSwag、MMLU、TruthfulQA、WinoGrande）；③ LLM360 排行榜 7 任务（含 CrowS-Pairs、RACE 等）。不同套件的“准确率”口径不同，不宜直接横向对比，更合理的做法是在同一套件内比较相对提升。
论文采用权重平均（最后 5 个检查点平均）作为主结果，通常较最终迭代点更稳；指令微调使用 SFT + 偏好优化/拒绝采样 的组合，带来稳定的1–2 个百分点平均增益。

影响准确率的因素

训练数据与规模：使用约1.8 万亿 token的公开数据混合预训练；在相同参数预算下，更高效的参数分配（逐层缩放）带来更好的精度/数据比。
模型与实现细节：采用 RMSNorm + RoPE + GQA + SwiGLU + FlashAttention 等现代组件；但研究中自实现的 RMSNorm 带来较多小内核启动，成为推理吞吐瓶颈（替换为 Apex 实现后吞吐显著提升），提示后续优化仍有空间。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。