Meta去年推出了Segment Anything,这是一个机器学习模型,可以快速可靠识别和勾勒出图像中的任何东西。Meta首席执行官马克·扎克伯格周一在SIGGRAPH大会上首次亮相了该模型的续集,将该模型带入了视频领域,彰显了该领域的发展速度之快。
分割是一个技术术语,指的是视觉模型在查看图片时,会挑选出各个部分:“这是一只狗,这是狗身后的一棵树”,但愿如此,而不是“这是从狗身上长出来的一棵树”。这种现象已经存在了几十年,但最近图像识别机制变得更好、更快,其中“分割一切”是向前迈出的重要一步。
Segment Anything 2(SA2)是一个自然的后续产品,因为其本身适用于视频而不仅仅是静止图像;当然,你可以对视频的每一帧单独运行第一个模型,但这并不是最有效的工作流程。
“科学家可基于SA2来研究珊瑚礁和自然栖息地等,且无需拍摄任何镜头,这非常酷。”扎克伯格在与英伟达首席执行官黄仁勋的对话中表示。
当然,处理视频对计算的要求要高得多,SA2可以在不消耗数据中心的情况下运行,这证明了整个行业在效率方面的进步。当然,它仍然是一个庞大的模型,需要强大的硬件才能运行,但即使在一年前,快速、灵活的分割也几乎是不可能的。
与第一个模型一样,SA2也将向用户免费开放,目前还没有关于托管版本的消息,当然,这样的模型需要大量的数据来训练,而Meta还发布了一个包含50000个视频的大型带注释数据库。在描述SA2的论文中,另一个包含超过100000个“内部可用”视频的数据库也用于训练。
Meta几年来一直是“开放”AI领域的领导者,但最近,LLaMa、Segment Anything和免费推出的其他一些模型已成为这些领域AI性能相对可及的标准,尽管这些模型的“开放性”仍存在争议。
而对于开源,扎克伯格表示:“SA2不仅仅是一个你可以构建的软件——你需要一个围绕它的生态系统。如果我们不开源它,它几乎就不会那么好用,对吧?我们这样做不是因为我们是利他主义者,尽管我认为这会对生态系统有所帮助——我们这样做的目的是因为认为这将使我们正在构建的东西成为最好的。”