xAI推出搭载10万块NVIDIA芯片的“Colossus”AI训练系统

🤖 由文心大模型生成的文章摘要

马斯克旗下人工智能公司xAI已完成了一个拥有100000张显卡的人工智能训练系统的组装。

马斯克周一宣布了这一里程碑，该系统被xAI称为Colossus，并于上周末上线。

马斯克去年创办了xAI，旨在与OpenAI竞争，这家初创公司开发了一系列名为Grok的大型语言模型。今年5月，xAI以240亿美元的估值融资了60亿美元。

马斯克将新推出的Colossus描述为“世界上最强大的AI训练系统”。这意味着该系统比美国能源部的Aurora系统更快，后者是世界上最快的AI超级计算机。在5月份的基准测试中，Aurora在87%的硬件处于活动状态时达到了10.6 exaflops的最高速度。

马斯克详细介绍，Colossus配备了10万块NVIDIA H100显卡。H100于2022年亮相，并在一年多的时间里被评为英伟达最强大的AI处理器，其运行语言模型的速度比英伟达上一代显卡快30倍。

H100性能基于Transformer Engine模块，这是一组经过优化的电路，用于运行基于 Transformer神经网络架构的AI模型。该架构是GPT-4o、Llama 3.1 405B和许多其他前沿LLM 的基础。

马斯克详细介绍了xAI计划在几个月内将Colossus的芯片数量翻一番，达到20万片。他说，新处理器中5万片将是H200。H200是H100的升级版，速度明显更快。

与许多其他工作负载相比，AI模型更频繁在运行芯片的逻辑电路和内存之间移动信息。因此，加速内存和逻辑模块之间的数据移动可以提高AI模型的性能。NVIDIA H200执行此类数据传输的速度明显快于H100。

H200的速度优势得益于两项架构升级。首先，NVIDIA将H100 HBM3内存换成了新型RAM“HBM3e”，这有助于加快芯片逻辑电路之间的数据传输速度。其次，该公司将板载内存容量增加了近一倍，达到141GB，这使得H200能够将更多AI模型的数据保存在靠近逻辑电路的位置。

Grok-2是xAI的旗舰LLM，在15000个GPU上进行训练。Colossus的100000个芯片可能有助于开发功能更强大的语言模型。据报道，xAI希望在年底前发布Grok-2的后续产品。

Colossus的部分服务器可能采用原本为特斯拉公司预留的芯片。今年1月，CNBC报道称，马斯克已要求NVIDIA将价值超过5亿美元的12000台H100从特斯拉转移到xAI。同月，马斯克估计特斯拉将在年底前在NVIDIA硬件上花费30亿至40亿美元。

「93913原创内容，转载请注明出处」

相关文章