🤖 由 文心大模型 生成的文章摘要
今年,各行各业的企业都在推出AI服务。对于微软、甲骨文、Perplexity、Snap和数百家其他领先公司而言,使用NVIDIA AI推理平台(由世界一流的芯片、系统和软件组成的全栈)是实现高吞吐量和低延迟推理、实现出色用户体验并降低成本的关键。
NVIDIA在推理软件优化和NVIDIA Hopper平台方面的进步正在帮助行业服务于最新的生成式 AI模型,提供出色的用户体验,同时优化总体拥有成本。与前几代产品相比,Hopper平台还可帮助将推理工作负载的能效提高15倍。
众所周知,人工智能推理非常困难,因为它需要很多步骤才能在吞吐量和用户体验之间取得适当的平衡。
但根本目标很简单:以更低的成本生成更多Token。Token代表大型语言模型系统中的单词,而AI推理服务通常按生成的每百万个Token收费,这一目标为AI投资和每项任务所用能源提供了最明显的回报。
其中,全栈软件优化是提高AI推理性能、实现这一目标的关键。
企业经常面临平衡推理工作负载的性能和成本的挑战。虽然某些客户或用例可以使用现成的或托管的模型,但其他客户或用例可能需要定制。NVIDIA技术简化了模型部署,同时优化了AI推理工作负载的成本和性能。此外,客户还可以体验到选择部署的模型的灵活性和可定制性。
NVIDIA NIM微服务、NVIDIA Triton推理服务器和NVIDIA TensorRT库是NVIDIA为满足用户需求而提供的推理解决方案之一。借助NVIDIA AI推理平台,各企业可以节省生产力、开发、基础设施和设置成本;使用NVIDIA技术还可以帮助企业避免停机和欺诈交易,提高电子商务购物转化率并产生新的AI驱动的收入来源,从而提高业务收入。
「93913原创内容,转载请注明出处」