OpenELM模型的训练过程是怎样的

AI技术

小华

2025-12-24

OpenELM训练流程概览

训练范式：仅解码器的Transformer语言模型，采用逐层缩放（layer-wise scaling）在层间非均匀分配参数（调整每层的注意力头数与FFN宽度），以提升参数利用效率。配套发布了完整流程与配方，便于复现与二次开发。训练使用苹果开源的CoreNet库完成。训练规模覆盖270M、450M、1.1B、3B四个参数档位。

数据与分词

语料构成：来自公开数据的混合语料，包含RefinedWeb、去重的PILE、RedPajama子集与Dolma v1.6子集，合计约1.8万亿 tokens。
数据处理：采用即时分词与过滤（on-the-fly tokenization & filtering），便于快速更换分词器与原型迭代。使用与Llama相同的分词器。
过滤规则：为剔除过短序列，设置字符级阈值200与token级阈值256，任一低于阈值即丢弃该序列。

训练配置与优化

训练框架与硬件：基于CoreNet训练；大规模训练在128 张 A100/H100 GPU上进行，最大模型约训练13天。
优化器与调度：使用AdamW优化器，配合余弦学习率调度；训练总步数为350k步。
归一化与注意力：采用RMSNorm预归一化、RoPE位置编码、GQA分组查询注意力、SwiGLU前馈网络与FlashAttention以加速与稳定训练。
正则与稳定化：使用权重衰减与梯度裁剪等常见稳定化手段（训练配方公开）。

评估与微调

评估基准：覆盖标准零样本常识推理（如ARC-e/ch、BoolQ、HellaSwag、PIQA、SciQ、WinoGrande）、OpenLLM与LLM360榜单任务，采用LM Evaluation Harness统一评测。
检查点与平均：训练中每5000步保存检查点，最终报告采用最后5个检查点的权重平均，以抑制噪声、提升稳健性。
指令微调：使用经清理的UltraFeedback数据（约60k提示），基于Alignment Handbook进行指令对齐，平均带来约+1–2%准确率提升。
参数高效微调（PEFT）：在常识推理设置下，使用8个数据集合计约170k样本，基于LoRA/DoRA在8×NVIDIA H100上训练3个epoch，验证PEFT在OpenELM上的有效性。

复现与资源

开源内容：提供模型权重、训练日志、多档检查点、预训练与微调配置、CoreNet训练代码与MLX推理代码；模型亦可在Hugging Face（apple/OpenELM）获取。上述资源支持从零复现训练与评测全流程。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。