OpenELM准确率与关键对比
核心结论
- 在约11亿参数规模下,OpenELM 相比 12亿参数 OLMo 在三类评测框架中的准确率分别高出1.28%、2.36% 与 1.72%,且使用的预训练 token 约为 OLMo 的一半。这体现其在小体量模型上的高效参数分配带来的精度优势。
- 经过指令微调后,OpenELM 在多个评测框架上的平均准确率提升约 1–2 个百分点,说明其在指令遵循与任务对齐方面具备良好可塑性。
- 在代表性基准 MMLU(5-shot) 上,OpenELM-3B 的准确率不到 30%,与同体量领先的 Phi-3(约 70%) 存在明显差距,提示其在通用知识型任务上的上限仍受模型规模限制。
主要基准成绩概览
| 模型与规模 | 评测任务与设置 | 准确率或提升 | 备注 |
|---|
| OpenELM-1.1B vs OLMo-1.2B | 三类评测框架(表4a/4b/4c) | +1.28% / +2.36% / +1.72% | 使用约2×更少预训练 token |
| OpenELM(指令微调后) | 多框架平均 | +1–2 个百分点 | 使用 UltraFeedback 60k 提示 |
| OpenELM-3B | MMLU(5-shot) | < 30% | 同期报道 Phi-3 ≈ 70% |
| OpenELM-3B | HellaSwag / PIQA / ARC-c | 未统一公布具体百分比 | 论文与媒体以相对提升与对比为主 |
上述数据来自苹果论文与多家技术媒体的评测解读,涵盖零样本/少样本与指令微调两类设置,便于横向理解其精度水平与定位。
评测口径与解读
- OpenELM 的评测覆盖三大套件:① 7 个标准常识推理任务(ARC-e/ch、BoolQ、HellaSwag、PIQA、SciQ、WinoGrande);② OpenLLM 排行榜 5 任务(ARC-c、HellaSwag、MMLU、TruthfulQA、WinoGrande);③ LLM360 排行榜 7 任务(含 CrowS-Pairs、RACE 等)。不同套件的“准确率”口径不同,不宜直接横向对比,更合理的做法是在同一套件内比较相对提升。
- 论文采用权重平均(最后 5 个检查点平均)作为主结果,通常较最终迭代点更稳;指令微调使用 SFT + 偏好优化/拒绝采样 的组合,带来稳定的1–2 个百分点平均增益。
影响准确率的因素
- 训练数据与规模:使用约1.8 万亿 token的公开数据混合预训练;在相同参数预算下,更高效的参数分配(逐层缩放)带来更好的精度/数据比。
- 模型与实现细节:采用 RMSNorm + RoPE + GQA + SwiGLU + FlashAttention 等现代组件;但研究中自实现的 RMSNorm 带来较多小内核启动,成为推理吞吐瓶颈(替换为 Apex 实现后吞吐显著提升),提示后续优化仍有空间。