英伟达和谷歌最新芯片加速AI训练

🤖 由 文心大模型 生成的文章摘要

NVIDIA、甲骨文、谷歌、戴尔和其他13家公司报告了计算机训练当今使用的关键神经网络所需的时间。这些结果包括NVIDIA下一代GPU B200和谷歌即将推出的加速器Trillium。B200在某些测试中的表现比当今的主力NVIDIA芯片H100提高了一倍。而且Trillium的性能比谷歌在2023年测试的芯片提高了近四倍。

该基准测试称为MLPerf v4.1,包括六项任务:推荐、大型语言模型(LLM)GPT-3和BERT-large 的预训练、Llama 2 70B大型语言模型的微调、对象检测、图形节点分类和图像生成。

训练GPT-3是一项艰巨的任务,如果只是为了提供一个基准而完成整个任务是不切实际的。相反,测试是将其训练到专家认为的水平,这意味着如果你继续训练,它很可能会达到目标。对于Llama 2 70B来说,目标不是从头开始训练LLM,而是采用已经训练过的模型并对其进行微调,使其专注于某一特定专业知识。

随着人工智能的重要性不断演变,主要转向使用生成式人工智能,测试集也发生了变化。MLPerf的最新版本标志着自基准测试工作开始以来测试内容的彻底转变。“目前,所有原始基准测试都已逐步淘汰。”,领导MLCommons基准测试工作的David Kanter表示,在上一轮测试中,执行某些基准测试仅需几秒钟。

根据MLPerf的计算,新基准套件AI训练正以摩尔定律预期速度的两倍左右的速度改进。随着时间的推移,结果比MLPerf统治时期开始时更快趋于稳定。随着时间的推移,NVIDIA、G谷歌和其他公司已经开发出允许近乎线性扩展的软件和网络技术——将处理器数量增加一倍可以将训练时间缩短大约一半。

NVIDIA B200 GPU所采用的Blackwell架构延续了使用越来越低精度数字来加速AI的趋势,对于Transformer神经网络的某些部分(例如ChatGPT、Llama2 和Stable Diffusion),NVIDIA H100和H200使用8位浮点数,B200将其降至仅4位。

谷歌展示了其第六代TPU Trillium的首批结果(上个月才发布),以及第五代变体Cloud TPU v5p的第二轮结果。在2023年版本中,这家搜索巨头推出了第五代TPU的另一个变体v5e,其设计更注重效率而非性能。与后者相比,Trillium在GPT-3训练任务上的性能提升高达3.8倍。

「93913原创内容,转载请注明出处」