想象一下,只需一张图像,就能构建出一个3D环境,随后可通过Meta Quest进行沉浸式探索,甚至将其应用于家庭环境之中。苏黎世现实实验室(Reality Labs Zurich)的一支研究团队正致力于将这一愿景化为现实,并且提出了一种全新的实现途径。
根据上周发表的研究论文所述,现有的生成式人工智能模型虽能够基于单张图像生成视频,然而在生成完全沉浸式场景方面却面临诸多挑战。而该研究团队开发的流程则取得了突破,在多个定量图像质量指标上超越了当前最先进的基于视频合成的方法。此流程不仅所需训练工作量极少,还能在现有的生成模型上运行。
研究团队成员Katja Schwarz、Denis Rozumny、Samuel Rota Bulo、Lorenzo Porzi和Peter Kontschieder指出:“我们的核心观点是,从单张图像生成3D环境这一任务本身极为复杂且具有模糊性,但可将其拆解为一系列更易于处理的子问题,而每个子问题都能够借助现有技术加以解决。”
研究人员进一步阐释了方法:“我们的流程主要分为两个步骤。首先,运用预先训练的扩散模型生成连贯的全景图,接着利用度量深度估计器将其转化为3D状态。之后,通过在渲染的点云上对修复模型进行调节,以此填充未观测到的区域,这一过程仅需极少的微调。” 最终生成的是一个采用高斯溅射渲染的3D环境,能够在VR头戴式设备的2米(6.5英尺)立方体内进行查看与导航。
值得一提的是,该方法不仅适用于合成图像,对于照片同样有效。甚至场景的文字描述也能作为输入,进而生成适用于 VR头显的高质量3D环境。
不过,研究论文中也提及了一些限制与挑战。例如,将可导航区域拓展至两米以上存在较大难度,因为这会大幅增加任务的复杂性。此外,目前该流程还无法实现实时场景合成。但研究团队表示,一旦高斯渐变环境创建完成,便可在VR设备上实时显示。
虽然目前尚不确定这项技术何时会被整合到Quest产品中,但从种种迹象来看,其商业化进程似乎已近在咫尺。