OpenELM模型的准确率有多高

AI技术
小华
2025-12-24

OpenELM准确率与关键对比
核心结论

  • 在约11亿参数规模下,OpenELM 相比 12亿参数 OLMo 在三类评测框架中的准确率分别高出1.28%2.36%1.72%,且使用的预训练 token 约为 OLMo 的一半。这体现其在小体量模型上的高效参数分配带来的精度优势。
  • 经过指令微调后,OpenELM 在多个评测框架上的平均准确率提升约 1–2 个百分点,说明其在指令遵循与任务对齐方面具备良好可塑性。
  • 在代表性基准 MMLU(5-shot) 上,OpenELM-3B 的准确率不到 30%,与同体量领先的 Phi-3(约 70%) 存在明显差距,提示其在通用知识型任务上的上限仍受模型规模限制。

主要基准成绩概览

模型与规模评测任务与设置准确率或提升备注
OpenELM-1.1B vs OLMo-1.2B三类评测框架(表4a/4b/4c)+1.28% / +2.36% / +1.72%使用约2×更少预训练 token
OpenELM(指令微调后)多框架平均+1–2 个百分点使用 UltraFeedback 60k 提示
OpenELM-3BMMLU(5-shot)< 30%同期报道 Phi-3 ≈ 70%
OpenELM-3BHellaSwag / PIQA / ARC-c未统一公布具体百分比论文与媒体以相对提升与对比为主

上述数据来自苹果论文与多家技术媒体的评测解读,涵盖零样本/少样本与指令微调两类设置,便于横向理解其精度水平与定位。
评测口径与解读

  • OpenELM 的评测覆盖三大套件:① 7 个标准常识推理任务(ARC-e/ch、BoolQ、HellaSwag、PIQA、SciQ、WinoGrande);② OpenLLM 排行榜 5 任务(ARC-c、HellaSwag、MMLU、TruthfulQA、WinoGrande);③ LLM360 排行榜 7 任务(含 CrowS-Pairs、RACE 等)。不同套件的“准确率”口径不同,不宜直接横向对比,更合理的做法是在同一套件内比较相对提升。
  • 论文采用权重平均(最后 5 个检查点平均)作为主结果,通常较最终迭代点更稳;指令微调使用 SFT + 偏好优化/拒绝采样 的组合,带来稳定的1–2 个百分点平均增益。

影响准确率的因素

  • 训练数据与规模:使用约1.8 万亿 token的公开数据混合预训练;在相同参数预算下,更高效的参数分配(逐层缩放)带来更好的精度/数据比。
  • 模型与实现细节:采用 RMSNorm + RoPE + GQA + SwiGLU + FlashAttention 等现代组件;但研究中自实现的 RMSNorm 带来较多小内核启动,成为推理吞吐瓶颈(替换为 Apex 实现后吞吐显著提升),提示后续优化仍有空间。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序