OpenELM是苹果公司最新推出的专为终端设备设计的小模型,其性能表现如下:
性能表现
- 与OLMo的对比:在大约10亿参数规模下,OpenELM的准确率比OLMo提高了2.36%,同时所需的预训练token数量减少了2倍。
- 零样本和少样本设置:OpenELM的变体相比于12亿参数的OLMo模型,在准确率上分别提高了1.28%、2.36%和1.72%。
- 指令微调:在不同的评估框架中,指令微调都能将OpenELM的平均准确率提高1-2%。
- 参数高效微调:PEFT方法适用于OpenELM,而LoRA和DoRA在给定的CommonSense推理数据集中,提供了类似的平均准确度。
运行平台
- 笔记本电脑:配备英特尔i9-13900KF CPU、RTX 4090 GPU,24GB内存。
- M2 MacBook Pro:64GiB内存。
技术特点
- 分层扩展技术策略:有效地在模型的每一层中分配参数,使得OpenELM转换器能够具有不同的配置和参数,从而提高准确性。
- 模型架构:采用decoder-only架构,并遵循最新的大语言模型(LLM)的设计,包括使用RMSNorm进行预归一化,旋转位置嵌入(ROPE)来编码位置信息等。
尽管OpenELM在多个方面表现出色,但由于其复杂的实现和较大的模型规模,可能在某些情况下比使用优化LayerNorm的模型慢。