马斯克旗下人工智能公司xAI已完成了一个拥有100000张显卡的人工智能训练系统的组装。
马斯克周一宣布了这一里程碑,该系统被xAI称为Colossus,并于上周末上线。
马斯克去年创办了xAI,旨在与OpenAI竞争,这家初创公司开发了一系列名为Grok的大型语言模型。今年5月,xAI以240亿美元的估值融资了60亿美元。
马斯克将新推出的Colossus描述为“世界上最强大的AI训练系统”。这意味着该系统比美国能源部的Aurora系统更快,后者是世界上最快的AI超级计算机。在5月份的基准测试中,Aurora在87%的硬件处于活动状态时达到了10.6 exaflops的最高速度。
马斯克详细介绍,Colossus配备了10万块NVIDIA H100显卡。H100于2022年亮相,并在一年多的时间里被评为英伟达最强大的AI处理器,其运行语言模型的速度比英伟达上一代显卡快30倍。
H100性能基于Transformer Engine模块,这是一组经过优化的电路,用于运行基于 Transformer神经网络架构的AI模型。该架构是GPT-4o、Llama 3.1 405B和许多其他前沿LLM 的基础。
马斯克详细介绍了xAI计划在几个月内将Colossus的芯片数量翻一番,达到20万片。他说,新处理器中5万片将是H200。H200是H100的升级版,速度明显更快。
与许多其他工作负载相比,AI模型更频繁在运行芯片的逻辑电路和内存之间移动信息。因此,加速内存和逻辑模块之间的数据移动可以提高AI模型的性能。NVIDIA H200执行此类数据传输的速度明显快于H100。
H200的速度优势得益于两项架构升级。首先,NVIDIA将H100 HBM3内存换成了新型RAM“HBM3e”,这有助于加快芯片逻辑电路之间的数据传输速度。其次,该公司将板载内存容量增加了近一倍,达到141GB,这使得H200能够将更多AI模型的数据保存在靠近逻辑电路的位置。
Grok-2是xAI的旗舰LLM,在15000个GPU上进行训练。Colossus的100000个芯片可能有助于开发功能更强大的语言模型。据报道,xAI希望在年底前发布Grok-2的后续产品。
Colossus的部分服务器可能采用原本为特斯拉公司预留的芯片。今年1月,CNBC报道称,马斯克已要求NVIDIA将价值超过5亿美元的12000台H100从特斯拉转移到xAI。同月,马斯克估计特斯拉将在年底前在NVIDIA硬件上花费30亿至40亿美元。