OpenELM模型的核心技术包括逐层缩放策略和高效的模型架构设计。具体如下:
- 逐层缩放策略:该策略使Transformer模型每层的注意力头数和前馈网络维度等配置不同,实现参数在层间的非均匀分配,让模型在相同参数量下,通过优化参数分布来提升精度。
- 高效的模型架构设计:采用decoder-only的Transformer架构,全连接层不使用可学习偏置参数,用RMSNorm进行预归一化,旋转位置嵌入编码位置信息,用分组查询注意力代替多头注意力,用SwiGLU FFN替换前馈网络,使用flash注意力计算点积注意力,还沿用了LLama的分词器。