OpenELM模型的训练过程是怎样的

AI技术
小华
2025-12-24

OpenELM训练流程概览

  • 训练范式:仅解码器的Transformer语言模型,采用逐层缩放(layer-wise scaling)在层间非均匀分配参数(调整每层的注意力头数与FFN宽度),以提升参数利用效率。配套发布了完整流程与配方,便于复现与二次开发。训练使用苹果开源的CoreNet库完成。训练规模覆盖270M、450M、1.1B、3B四个参数档位。

数据与分词

  • 语料构成:来自公开数据的混合语料,包含RefinedWeb去重的PILERedPajama子集Dolma v1.6子集,合计约1.8万亿 tokens
  • 数据处理:采用即时分词与过滤(on-the-fly tokenization & filtering),便于快速更换分词器与原型迭代。使用与Llama相同的分词器。
  • 过滤规则:为剔除过短序列,设置字符级阈值200与token级阈值256,任一低于阈值即丢弃该序列。

训练配置与优化

  • 训练框架与硬件:基于CoreNet训练;大规模训练在128 张 A100/H100 GPU上进行,最大模型约训练13天
  • 优化器与调度:使用AdamW优化器,配合余弦学习率调度;训练总步数为350k步。
  • 归一化与注意力:采用RMSNorm预归一化、RoPE位置编码、GQA分组查询注意力、SwiGLU前馈网络与FlashAttention以加速与稳定训练。
  • 正则与稳定化:使用权重衰减梯度裁剪等常见稳定化手段(训练配方公开)。

评估与微调

  • 评估基准:覆盖标准零样本常识推理(如ARC-e/ch、BoolQ、HellaSwag、PIQA、SciQ、WinoGrande)、OpenLLMLLM360榜单任务,采用LM Evaluation Harness统一评测。
  • 检查点与平均:训练中每5000步保存检查点,最终报告采用最后5个检查点的权重平均,以抑制噪声、提升稳健性。
  • 指令微调:使用经清理的UltraFeedback数据(约60k提示),基于Alignment Handbook进行指令对齐,平均带来约+1–2%准确率提升。
  • 参数高效微调(PEFT):在常识推理设置下,使用8个数据集合计约170k样本,基于LoRA/DoRA8×NVIDIA H100上训练3个epoch,验证PEFT在OpenELM上的有效性。

复现与资源

  • 开源内容:提供模型权重训练日志多档检查点预训练与微调配置CoreNet训练代码MLX推理代码;模型亦可在Hugging Face(apple/OpenELM)获取。上述资源支持从零复现训练与评测全流程。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序