近期,火山引擎多媒体实验室团队提出了一种高质量3D Gaussian-Splatting场景重建及低延迟重渲染技术,用于对场景进行高质量的重建,并支持复杂的重打光及实时渲染。该及时已经实际应用在虚拟直播等VR/AR/XR应用中。同时,该技术被图形学顶会SIGGRAPH 24收录,并被邀请在 NeRFs and Lighting session做正式汇报。
01 研究背景
随着虚拟现实(VR)和增强现实(AR)的快速发中,高质量的三维重建和三维渲染显得尤为重要。3D Gaussian Splatting的出现最近在神经渲染领域引起了一场革命,该技术将点云表示为3D高斯函数,使用可微分的光栅化进行渲染和优化,进而实现了高质量的新视角实时渲染。然而,与成熟的基于网格的渲染管线相比,GS在生成复杂的阴影和动态照明效果方面仍面临挑战。为了解决该问题,火山引擎研究团队提出了一种几何增强的3D Gaussian Splatting的重建算法,用于对场景进行高质量的几何与外观重建,并实现了基于高斯光栅化的延迟渲染管线从而支持重光照、阴影、Mesh混合渲染并支持实时渲染,并实际应用在虚拟直播等VR/AR/XR应用中(如图1、2)。通过该项技术,提升了GS建模的视觉渲染效果和编辑能力,拓宽了3D GS的实际应用场景。
02 方法介绍
本文介绍的方法如下:
1.几何增强3D高斯方法
为了进一步提升3D GS的几何表达能力,团队提出了一种几何增强的3D高斯方法,增强了GS对几何深度和法线渲染能力。具体来说,这项工作为每个3D高斯引入了一个法线属性n,在训练过程中,使用Alpha-blending为指定视点渲染深度和法线图,并使用深度图计算伪法线来监督法线属性及高斯点位置的优化。其中,直接使用深度梯度产生的伪法线对噪声非常敏感,导致伪法线非常嘈杂,并且具有多视角不一致的问题,为此,该方法为深度、法线添加正则化项约束,并使用Appearance Embdeeing的方式为每个图像id编码一个外观因子作用于渲染图像,缓解多视角拍摄的外观不一致问题。使用该方法,可以实现高质量的场景外观渲染和几何重建。算法pipeline如图3所示。
对比原始的3D GS,该方法在不需要其他额外输入的情况下,可以为场景重建出高质量的深度及法线(如图4)。
2.高斯延迟渲染
进一步地,团队实现了基于高斯光栅化的延迟渲染管线(如图5),兼容主流的光源类型、实时阴影的渲染,以及与传统Mesh模型混合渲染。整个渲染管线包含包括两个阶段:首先是G-buffer渲染,着色器从指定的摄像机视点渲染GS场景,使用光栅化创建G-buffer Texture,包括颜色、法线、shadow map和深度;其次,延迟照明和合成阶段,渲染器根据G-buffer中的信息计算每个像素的照明和阴影,以确定其在照明影响下的最终颜色。其中,为了处理平行光源,该技术为光栅化管线引入了正交投影模型,从而,3D 高斯分布通过计算相机空间协方差矩阵Σ′ 实现到2D空间的正交投影:
以上展示了通过延迟渲染管线,可以使3D GS支持复杂光效的渲染。第一个内容展示了点光源照明效果,第二个内容展示了平行光源的打光及阴影渲染。
03 技术应用
研究团队将该渲染系统集成到了广泛使用的Unity和Unreal Engine(UE)平台,开发了一套3D高斯渲染插件。允许用户将Unity/UE支持的各种复杂光源(包括点光源、定向光源、体积光源和环境光源)集成到生成的3D高斯中。系统还支持在不同照明环境中实时渲染动态阴影,并能够与其他网格资产一起渲染。该系统可以无缝集成到现有工作流程中,有效地将3D高斯散射技术引入XR/MR应用。这种集成显著增强了与3D高斯相关的创意和编辑能力,使其更加多样化和实用。
使用该系统,团队开发了一套虚拟直播应用。结合其他AI技术,可以将任意场景人物实拍直播与虚拟场景进行融合,以极低成本完成直播布景,并支持二次编辑创作,丰富直播创意。
同时,可以支持对AIGC Video生成的素材进行3D资产的创建及二次编辑,如下所示。
多媒体实验室介绍
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。