英伟达发布物理世界大模型Cosmos – Reason1,聚焦推理能力推动AI与物理世界交互新发展

🤖 由 文心大模型 生成的文章摘要

在人工智能持续深入发展的当下,如何让AI系统更好地与现实物理世界交互成为关键挑战。近日,英伟达团队在GTC大会后重磅发布了全新的物理世界大模型Cosmos – Reason1,该模型将焦点锁定在推理能力上,旨在全力攻克人工智能系统与物理世界交互的难题。​

英伟达此次推出的Cosmos – Reason1并非单一模型,而是一套涵盖模型、本体以及基准的综合性套件。其核心目标是赋能多模态大语言模型(LLM),使其能够生成贴合物理实际的响应,让AI真正理解并适应物理世界的规律。目前,英伟达团队已经成功开发出两个不同参数规模的多模态LLM,分别为80亿参数的Cosmos – Reason1 – 8B和560亿参数的Cosmos – Reason1 – 56B。​

为了让模型具备强大的物理世界交互能力,英伟达团队精心设计了一套严谨的训练流程,整个训练过程分为四个关键阶段。首先是视觉预训练阶段,模型在此过程中大量学习视觉信息,构建起对物理世界视觉层面的初步认知。紧接着进入通用监督微调(SFT)阶段,通过广泛的数据微调,提升模型对各类通用知识和任务的处理能力。

随后,物理AI SFT阶段成为训练的关键转折点,模型聚焦于物理领域知识,深入学习空间、时间以及基本物理定律等物理世界的基础知识,理解物理世界运行的基本规则,为后续的推理和决策奠定基础。最后,物理AI强化学习阶段进一步优化模型在物理环境中的决策和执行能力,通过不断与模拟的物理环境进行交互,让模型学会在复杂物理场景下做出合理且高效的决策。​

在数据收集方面,英伟达团队也下足了功夫。为了让模型能够学习到全面且真实的物理世界知识,团队从多种渠道收集数据。一方面,通过大量的现实场景视频采集,让模型学习真实世界中物体的运动、相互作用以及环境变化等情况;另一方面,利用先进的仿真技术生成大量模拟物理场景数据,补充现实数据难以覆盖的特殊情况和极端场景,确保模型在丰富多样的数据环境中进行学习。

「93913原创内容,转载请注明出处」