Meta下一代Llama AI模型正在GPU集群上进行训练

🤖 由 文心大模型 生成的文章摘要

Meta首席执行官马克·扎克伯格在生成式人工智能训练方面迈出了最新一步,他表示,公司Llama AI模型下一个重要版本正在一个gpu集群上进行训练,该gpu集群的规模“比以往任何时候都大”。

扎克伯格在财报电话会议上告诉投资者和分析师,“Llama 4”的开发进展顺利,预计将于明年初发布。扎克伯格说:“我们正在一个超过10万个h100的集群上训练Llama 4模型,或者比我所见过的其他集群都要大。”他指的是用于训练人工智能系统的英伟达芯片。“我预计较小的Llama 4型号将首先准备好。”

人们普遍认为,通过更多的算力和数据来增加人工智能训练的规模,是开发更有能力的人工智能模型的关键。虽然Meta现在处于领先地位,但该领域的大多数大公司可能都在致力于使用拥有超过10万个高级芯片的计算集群。今年3月,Meta和英伟达分享了用于开发Llama 3的约2.5万个h100集群的详细信息。今年7月,马斯克吹嘘xAI已与英伟达合作,建立了10万台h100。“这是世界上最强大的人工智能训练集群!”马斯克彼时在X平台表示。

扎克伯格拒绝透露Llama 4潜在先进能力的细节,但模糊提到了“新模式”、“更强推理能力”和“效率快得多”。

Meta人工智能方案被证明是企业争夺主导地位的一张不确定牌。Llama模型完全免费下载,而OpenAI、谷歌和大多数其他大公司开发的模型只能通过API访问。事实证明,Llama在初创公司和研究人员中非常受欢迎,他们希望完全控制自己的模型、数据和计算成本。

虽然Meta将其吹捧为“开源”,但Llama许可证确实对该模型的商业用途施加了一些限制。Meta也没有披露模型训练的细节,这限制了外界探究其工作原理。Meta在2023年7月发布了Llama的第一个版本,并于今年9月发布了最新版本Llama 3.2。

管理如此庞大的芯片阵列来开发Llama 4将会带来工程挑战,并需要大量的能源。

据估计,一个由10万个H100芯片组成的集群需要150兆瓦电力。相比之下,美国最大的国家实验室超级计算机El Capitan需30兆瓦电力。Meta预计今年将花费高达400亿美元资金提供数据中心和其他基础设施,投资比2023年增加42%以上。Meta预计,明年这方面的支出将更强劲增长。

尽管Meta总运营成本今年增长了约9%,不过总销售额(主要来自广告业务,飙升了22%以上),这使得该公司有更多的资金投入“Llama”项目。

「93913原创内容,转载请注明出处」