亚马逊网络服务(AWS)推出了一系列新的数据中心组件,使其数据中心能更好处理下一代人工智能(AI)工作负载。
该项创新在AWS re:Invent大会上发布,涵盖电源、冷却和硬件设计,旨在提高AWS设施的能源效率。
新功能最终将通过AWS新数据中心在全球范围内实施,其中部分组件已在现有设施中实施。
AWS基础设施服务副总裁Prasad Kalyanaraman表示:“AWS不断创新其基础设施,为全球客户构建性能最高、弹性最大、最安全、最可持续的云。这些数据中心功能代表着向前迈出的重要一步,提高了能源效率,并为新兴工作负载提供了灵活的支持。但更令人兴奋的是,数据中心被设计为模块化,因此我们能改造现有基础设施,实现液体冷却和能源效率,为生成性AI应用提供动力,并降低碳足迹。”
AWS简化电气和机械设计
AWS简化了电气和机械设计,使数据中心更易于维护并提高可靠性。
据该公司称,这些更新使基础设施的可用性达到99.9999%,同时将受电气问题影响的机架数量减少了89%。
其中之一就是通过更简化的能源分配设计将数据中心的电气转换次数减少20%。
AWS还将备用电源放到更靠近机架的位置,并减少用于排出热气的风扇数量,而是基于自然压差来提高服务器可用的电量。
液体冷却、机架设计和控制系统
由于新的AI服务器目前每芯片需要高达850W的功率,预计很快将达到每芯片1kW,因此液体冷却已成为必需品。AWS在其新建和现有数据中心开发了一种“新型机械冷却解决方案”,采用直接芯片冷却。
这家云计算巨头指出,有些技术不需要液体冷却,因此已经使其液体到芯片冷却系统能够“无缝集成”空气和液体冷却,用于AWS Tranium2和NVIDIA GB200 NVL72等电源芯片组。
AWS还使用数据和生成性AI来研究在其数据中心中定位机架的最有效方法,并且减少闲置电量,从而为每个站点提供12%以上的算力。