Google AI研究实验室Google DeepMind发布了一项关于训练AI模型的新研究,声称该研究将大大提高模型训练速度和能效,比其他方案的性能高出13倍,能效高出10倍。随着有关 AI数据中心对环境影响的讨论日益升温,新的JEST训练方法的出现可谓恰逢其时。
DeepMind方案被称为JEST或联合示例选择,以一种简单的方式打破了传统AI模型训练技术。典型的训练方案侧重于单个数据点进行训练和学习,而JEST则基于整个批次进行训练。JEST方案首先创建一个较小的AI模型,该模型将对来自极高质量来源的数据质量进行评级,并按质量对批次进行排序;然后,将该评级与较大、质量较低的数据集进行比较;小型JEST 模型确定最适合训练的批次,然后根据较小模型的结果训练大型模型。
DeepMind研究人员在论文中明确指出,这种“引导数据选择过程向较小、精心策划的数据集分布的能力”对于JEST方案的成功至关重要。谷歌声称“我们的方案超越了最先进的模型,迭代次数减少了13 倍,计算量减少了10倍。”
当然,该系统完全依赖于其训练数据的质量,因为如果没有最高质量的人工数据集,引导技术就会失效。这使得业余爱好者或业余人工智能开发者的大多数其他方案更难与JEST相媲美,因为他们可能需要专家级的研究技能来策划最初的最高等级的训练数据。
JEST研究可谓赶上好时机,如今科技行业和世界各国政府已经开始讨论人工智能的极端电力需求。2023年,人工智能工作负载约占4.3 GW,几乎与塞浦路斯全国的年电力消耗相当。而且,电力消耗速度绝对不会减缓:单个ChatGPT请求的耗电量是谷歌搜索的10倍,Arm首席执行官估计,到2030年,人工智能耗电量将占据美国电网的四分之一。
至于JEST方案是否会被AI领域的主要参与者采用以及如何采用还有待观察。据报道,GPT-4o 的训练成本为1亿美元,未来更大的模型可能很快就会达到10亿美元训练成本大关,为些各大企业都在寻找在节省开支的方案。有行业人士认为,JEST方案致力于在更低的功耗下保持当前的训练生产率,从而降低AI成本。然而,更有可能的是,资本机器将保持全速,采用JEST方案将功耗保持在最大水平,以实现超快速的训练输出。成本节约与产出规模,谁会赢?