苹果发布Depth Pro，可重写3D视觉规则的AI模型

🤖 由文心大模型生成的文章摘要

苹果人工智能研究团队开发出了一种新模型，可显著改善机器感知深度的方式，从而有可能改变从增强现实到自动驾驶汽车等行业。

该系统名为Depth Pro，能够在几分之一秒内从单个2D图像生成详细的3D深度图，而无需依赖传统上进行此类预测所需的相机数据。

苹果在题为“Depth Pro：不到一秒的清晰单目测量深度”的研究论文中详细介绍了该技术，这是单目深度估计领域的一次重大飞跃，该过程仅使用一张图像即可推断深度。

这可能在实时空间感知至关重要的各个领域产生深远的应用。该模型的创建者由Aleksei Bochkovskii和Vladlen Koltun领导，他们将Depth Pro描述为同类系统中速度最快、最准确的系统之一。

单目深度估计一直是一项具有挑战性的任务，需要多张图像或焦距等元数据来准确测量深度。

但Depth Pro绕过了这些要求，在标准GPU上仅需0.3秒即可生成高分辨率深度图。该模型可以创建225万像素的地图，清晰度极高，甚至可以捕捉到其他方法经常忽略的细微细节，例如头发和植被。

研究人员在论文中解释：“这些特性得益于多项技术贡献，包括用于密集预测的高效多尺度视觉变换器。”这种架构允许模型同时处理图像的整体背景及其更精细的细节——与之前速度较慢、精度较低的模型相比，这是一个巨大的飞跃。

Depth Pro的真正与众不同之处在于它能够估算相对深度和绝对深度，这种能力称为“度量深度”。

这意味着该模型可以提供真实世界的测量，这对于增强现实（AR）等应用至关重要，因为虚拟物体需要放置在物理空间内的精确位置。

而且Depth Pro不需要对特定领域的数据集进行大量训练就能做出准确预测——这一功能被称为“零样本学习”。这使得该模型具有高度的通用性，它可以应用于各种图像，而无需深度估计模型中通常需要的特定于相机的数据。

“Depth Pro 可以在‘自然’条件下，对任意图像生成具有绝对比例的度量深度图，而无需相机固有参数等元数据。”这种灵活性开辟了无限可能，从增强AR体验到提高自动驾驶汽车检测和导航障碍物的能力。

对于那些想要亲身体验Depth Pro的人来说，可以在Hugging Face平台上观看现场演示。

「93913原创内容，转载请注明出处」

相关文章