随着人工智能的迅猛发展,如今已需要三条不同的定律来阐释以不同方式运用计算资源对模型性能产生的影响。这三条人工智能扩展定律,即训练前扩展、训练后扩展以及测试时扩展(也被称作长期思考),它们充分反映出人工智能领域如何伴随着技术的进步而不断演变,以便在各类愈发复杂的人工智能应用场景中有效利用额外的计算资源。
近期,测试时间扩展(即在推理阶段投入更多计算资源以提升准确性)的兴起,使得人工智能推理模型得以实现。这是一种新型的大型语言模型(LLM),它能够通过执行多次推理来解决复杂问题,并且在解决过程中详细描述完成任务所需的步骤。然而,测试时间扩展需要大量的计算资源来支撑人工智能推理,这无疑会进一步加大对加速计算的需求。
预训练扩展是人工智能发展最初遵循的规律。该定律指出,通过增加训练数据集的规模、模型参数的数量以及计算资源的投入,开发人员可以预期模型的智能程度和准确性将获得可预测的提升。
这三个要素,即数据、模型大小以及计算,它们之间相互关联。依据本研究论文所概述的预训练扩展定律,当更大规模的模型输入更多的数据时,模型的整体性能将会得到提高。为了达成这一目标,开发人员必须扩充自身的计算能力,这就迫切需要强大的加速计算资源来运行那些更为庞大的训练任务。
正是这种预训练扩展原则催生出了具备突破性能力的大型模型。同时,它也有力地推动了模型架构的重大创新,其中包括拥有十亿乃至万亿参数的转换器模型的兴起、专家模型的混合运用以及全新的分布式训练技术。而所有这些创新,都对计算资源有着极大的需求。
预训练缩放定律的重要性依旧在持续显现。随着人类持续产生数量越来越多的多模态数据,这些由文本、图像、音频、视频和传感器信息构成的丰富资源,未来将被用于训练更为强大的人工智能模型。
不过,预训练大型基础模型并非适用于所有组织或个人。它需要巨额的投资、专业熟练的专家以及优质的数据集。但是,一旦某个组织完成预训练并发布模型,便会降低人工智能的应用门槛,使得其他组织或个人能够将其预训练模型作为基础,来适配自身的应用场景。
这一训练后过程,在企业以及更广泛的开发者社区中,引发了对加速计算额外的累积性需求。热门的开源模型或许会衍生出数百甚至数千个不同的衍生模型,这些衍生模型会在众多领域展开训练。据估算,为各类用例开发这种衍生模型生态系统所需的计算量,大概要比预训练原始基础模型多30倍左右。