目前没有找到关于“OpenELM对电源有何要求”的明确信息。不过,我可以为您提供苹果公司开源的OpenELM模型的相关信息:
模型架构与创新技术
- 架构:OpenELM采用只有解码器的transformer架构,不在任何全连接层中使用可学习的偏差参数。
- 预标准化:使用RMSNorm进行预标准化。
- 位置编码:使用ROPE用于编码位置信息。
- 注意力机制:使用分组查询注意力(GQA)代替多头注意力(MHA)。
- 前馈网络:用SwiGLU FFN替换前馈网络(FFN)。
- 缩放点积注意力:使用flash Attention来计算可缩放的dot-product attention。
- 分词器:使用与LLama相同的分词器。
训练资源与自定义微调
- 预训练模型:采用128片A100或者H100,训练时间在3天-13天。
- 指令微调:用8卡的A100,基本上都在小时级别。
希望以上信息对您有所帮助。