艾伦人工智能研究所(Ai2)发布了多模态开放语言模型(Molmo),该模型可以解读图像,也可以通过聊天界面进行交谈。这意味着模型能理解计算机屏幕,可帮助人工智能代理执行浏览网页、浏览文件目录和起草文档等任务。
Ai2首席执行官、华盛顿大学计算机科学家Ali Farhadi表示:“通过此版本,更多的人可以部署多模式模型,其将成为下一代应用程序的推动因素。”
人工智能代理被广泛吹捧为人工智能领域的下一个大事件,OpenAI、谷歌和其他公司都在竞相开发。代理最近成了一个流行词,但宏伟的愿景是让人工智能超越聊天,在收到命令后能在计算机上执行复杂而精密的操作。
一些强大的人工智能模型已经具备视觉能力,包括OpenAI的GPT-4、Anthropic的Claude和 Google DeepMind的Gemini。这些模型可用于为一些实验性人工智能代理提供支持,但它们隐藏在视图中,只能通过付费应用程序编程接口(API)访问。
普林斯顿大学研究人工智能代理博士后Ofir Press表示:“拥有一个开源的多模式模型意味着有想法的初创公司或研究人员都可以尝试这样做。”
Press表示,Molmo是开源的,这意味着开发人员将能够通过提供额外的训练数据,更轻松针对特定任务(例如处理电子表格)微调人工智能代理。GPT-4等模型只能通过其API在有限的程度上进行微调,而完全开放的模型则可以进行广泛的修改。“当你拥有像这样的开源模型时,你就有了更多的选择。”
Ai2发布了几种尺寸的Molmo,包括一个700亿参数的模型和一个10亿参数的模型,后者小到可以在移动设备上运行。模型的参数数量是指它包含的用于存储和操作数据的单元数量,大致相当于其功能。
Ai2表示,尽管Molmo规模相对较小,但它的能力与规模大得多的商业模型相当,因为它是在高质量数据上经过精心训练的。新模型也是完全开源的,与Meta Llama不同,Molmo的使用没有任何限制。Ai2还发布了用于创建模型的训练数据,为研究人员提供了有关其工作原理的更多细节。
Ai2 Farhadi认为,Molmo的效率和便携性将使开发人员能够构建更强大的软件代理,这些代理可以在智能手机和其他便携式设备上本地运行。“十亿参数模型现在的性能水平至少可以与比它大10倍的模型相媲美。”
然而,构建有用的人工智能代理可能不仅仅依赖于更高效的多模态模型。一个关键挑战是让模型更可靠工作。这很可能需要在人工智能的推理能力上取得进一步突破——OpenAI试图用其最新模型o1来解决这个问题,该模型展示了逐步推理的技巧。下一步很可能是赋予多模态模型这样的推理能力。
目前,Molmo的发布意味着人工智能代理比以往任何时候都更接近现实——并且很快就会在统治人工智能世界的巨头之外发挥作用。