谷歌云计算重大升级,HPC和AI硬件将焕然一新

🤖 由 文心大模型 生成的文章摘要

谷歌云计算正进行重大升级,准备明年将NVIDIA Blackwell GPU纳入旗下。

10月下旬宣布的升级包括其名为Trillium的新TPU、自主研发的Axion CPU和NVIDIA H200 GPU预览版。

新硬件将被纳入谷歌“超级计算机”,这是一台遍布谷歌云基础设施的大型超级计算机。它包括一套适用于多种工作负载的多样化软件和芯片产品。

谷歌在系统和软件层面重新考虑了其基础设施,为硬件和软件提供了一个通用层。

这也催生了谷歌超级计算机,它支持传统计算和现代计算;融合了计算、网络、存储和软件,以满足不同的AI和HPC消费模式。

谷歌副总裁兼计算和人工智能基础设施总经理Mark Lohmeyer表示,公司在10月下旬还分享了人工智能超级计算机概念,“集成了工作负载优化的硬件(TPU、GPU和CPU)、开放软件和灵活的消费模型,为最先进人工智能模型提供支持”。

一款名为Hypercompute Cluster的新产品是一种高度可扩展的集群系统。超级计算领域正在努力平衡传统的高精度计算和人工智能,因此Hypercompute Cluster处理各种工作负载的能力可以弥补模拟和科学计算之间的差距。

Lohmeyer表示,该集群将结合谷歌的人工智能基础设施技术,“无缝部署和管理大量加速器作为一个单元”。

密集托管功能将多个资源聚集在一起,吞吐量高,因此工作负载可以快速可靠地完成。此功能对于科学计算和AI都很重要。

谷歌的目标是为超级计算机所执行的任务提供保障。例如,谷歌希望通过其消费模型为时间和结果带来可靠性和灵活性。

在软件和硬件层构建硬件和虚拟化层可能很复杂,但谷歌可以通过在谷歌云上进行预配置部署的单一API调用使其变得简单。

「93913原创内容,转载请注明出处」