4月24日,苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似,是一款专门针对手机等移动设备的模型。
以下是一些重点信息的摘要:
1. 开源OpenELM: 苹果公司开源了一个名为OpenELM的大语言模型,这与微软开源的Phi-3 Mini类似,是专为移动设备设计的模型。
2. 模型参数: OpenELM提供了四种不同参数规模的模型,分别是2.7亿、4.5亿、11亿和30亿参数。
3. 功能: 该模型能够执行生成文本、代码、翻译、总结摘要等功能。
4. 预训练数据: 尽管最小的模型只有2.7亿参数,但苹果使用了1.8万亿tokens的数据进行预训练,这是其小参数下仍能表现出色的原因之一。
5. 深度神经网络库CoreNet: 苹果同时开源了用于训练OpenELM的深度神经网络库CoreNet,该库在开源后不久就在GitHub上获得了超过1100个星标。
6. 苹果的开源策略: 苹果通常在手机领域采取闭源策略,但此次开源可能是为了吸引用户,未来可能会推出闭源产品实现商业化。
7. 技术贡献: 苹果不仅发布了模型权重和推理代码,还发布了完整的训练和评估框架,包括数据准备、模型训练、微调和评估流程,以及多个预训练检查点和训练日志。
8. OpenELM架构: OpenELM的架构,包括其技术创新点,如无编码器的transformer架构、层级缩放策略、不使用全连接层中的可学习偏置参数等。
9. 训练流程与数据集: 苹果使用CoreNet作为训练框架,Adam优化算法,以及动态分词和数据过滤的方法。
开源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com
CoreNet地址:https://github.com/apple/corenet?ref=maginative.com
论文地址:https://arxiv.org/abs/2404.14619