Meta研究团队构建了一种“大型重建模型(LRM)”,借助这一模型,仅需四张自拍照,短短几分钟内便能生成可实现动画效果的高真实感化身。
Meta研究照片级真实感化身生成及动画技术已超六年。以过往经验来看,其产出的最高质量成果,甚至突破了恐怖谷理论所界定的范畴。
一直以来,照片级逼真化身的生成面临着诸多难题,其中最为突出的便是所需数据量庞大以及生成耗时过长。Meta此前的顶级系统依赖极为昂贵的专业捕捉设备,这类设备配备了100 多个摄像头。Meta虽曾展示过基于智能手机扫描生成低质量化身的研究成果,然而,这一过程要求用户在三分钟内做出65种不同的面部表情,且采集到的数据还需借助配备四个高端GPU的机器,耗费数小时进行处理。
如今,在一篇题为“Avat3r”的最新论文中,来自Meta与慕尼黑工业大学的研究人员公布了一个全新系统。该系统仅通过四张手机自拍照,就能生成可动画化的真实感化身,整个处理过程仅需几分钟,而非以往的数小时。
从技术原理剖析,Avat3r基于 “大型重建模型(LRM)” 理念,运用转换器来处理3D视觉任务,其运作方式类似于大型语言模型(LLM)处理自然语言,这一技术通常被称作视觉转换器(ViT)。此视觉转换器主要用于预测一组3D高斯分布,类似于在Varjo Teleport、Meta Horizon Hyperscapes、Gracia以及Niantic Scaniverse等呈现照片级逼真场景中所涉及的高斯分布。
Avat3r动画系统当前的具体实现并非由VR头戴设备的面部及眼动追踪传感器驱动,但从技术可行性而言,将其适配并利用此类传感器作为输入源并无阻碍。
尽管Avat3r在生成数据及计算需求方面已显著降低,但距离实现实时渲染仍有差距。据研究人员透露,该系统在RTX 3090上的运行帧率仅为8FPS。不过,在人工智能领域,新的研究思路在后续迭代过程中实现数量级的性能优化并不罕见。Avat3r所开辟的技术路径极具潜力,或许在不久的将来,头戴式显示设备用户仅需拍摄几张自拍照,花费短短几分钟的生成时间,就能创建出高度逼真的化身。