目前没有找到关于“OpenELM硬件兼容性问题”的具体信息。不过,我可以为您提供关于OpenELM模型本身的相关信息,具体如下:
模型设计
- linear层:都没有使用biaspre-norm + RMSNorm。
- RoPE:使用QASwiGLU FFN和LLAMA相同的tokenizer。
- 其他设计:比较常规,参考了《Delight: Deep and light-weight transformer》,在OpenELM采用了layer-wise scaling的设计。这种设计通过对每层的超参进行scaling,以优化参数量的分配并发挥这些参数的效果。
数据预训练
- 数据来源:RefinedWeb、deduplicated PILE、a subset of RedPajamaa、a subset of Dolma v1.6,总共1.8T token。
训练
- 训练超参:总共约350k step,使用AdamW optimizer、cosine learning rate schedule,warmup=5k、weight decay = 0.1、gradient clipping = 1.0。
由于硬件兼容性问题通常涉及特定硬件与软件之间的相互作用,而OpenELM软件模型,其硬件兼容性问题可能并不直接显现,而是更多体现在运行时性能、资源消耗以及在不同硬件平台上的部署可行性等方面。如果您需要了解OpenELM在特定硬件上的表现,建议参考相关的技术文档或在实际硬件环境中进行测试。