苹果发布开源人工智能模型

🤖 由 文心大模型 生成的文章摘要

苹果发布了几个开源大型语言模型(LLM),这些模型旨在运行于设备,而不是通过云服务器运行。苹果LLM称为OpenELM(开源高效语言模型),可在Hugging Face Hub(一个共享AI代码的社区)上获取。

正如OpenELM PDF所述,共有八个OpenELM模型,其中四个是使用CoreNet库进行预训练的,另外四个是指令调整模型。苹果采用分层缩放策略,旨在提高准确性和效率。

苹果提供了代码、训练日志和多个版本,而不仅仅是最终的训练模型,该项目背后的研究人员希望这能在自然语言人工智能领域带来更快的进展和“更值得信赖的结果”。

OpenELM,一种最先进的开放语言模型。 OpenELM使用分层缩放策略来有效分配变压器模型每一层内的参数,从而提高准确性。例如,在参数预算约为10亿个参数的情况下,OpenELM 与OLMo相比,精度提高了2.36%,同时需要的预训练令牌减少了2倍。

与之前仅提供模型权重和推理代码以及在私有数据集上进行预训练的做法不同,该版本包括在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。

苹果表示,正在发布OpenELM模型,以通过最先进的语言模型“增强和丰富开放研究社区”。共享开源模型为研究人员提供了一种调查风险、数据和模型偏差的方法,开发者和企业可以按原样使用模型或进行修改。

苹果尚未将此类人工智能功能引入其设备,但iOS 18预计将包含许多新的人工智能功能,并且有传言称苹果正计划出于隐私目的在设备上运行其大型语言模型。

「93913原创内容,转载请注明出处」