🤖 由 文心大模型 生成的文章摘要
据The Information报道,谷歌最早可能在12月预览其Rabbit大型交互模型概念。据该媒体采访的三位直接了解该项目的人士称,该项目代号为“Project Jarvis”,可执行包括“收集研究、购买产品或预订航班”在内的用户任务。
据悉,Jarvis搭载谷歌Gemini未来版本,与网络浏览器兼容(专门针对Chrome进行了调整)。The Information指出,该工具旨在通过截取和解释屏幕截图,然后点击按钮或输入文本,帮助人们“自动执行日常的基于网络的任务”。目标是创建一个可以直接与用户计算机和浏览器交互的人工智能代理,将在线浏览提升到一个新的自动化水平。
接到命令/操作后,Jarvis的工作原理是“频繁截取计算机屏幕上的内容,并在执行诸如单击按钮或在文本字段中输入内容之类的操作之前解释截图”。Jarvis“运行速度相对较慢,因为模型在执行每个操作之前需要思考几秒钟。”因此,这很可能还无法在设备上实现,仍然需要云端处理。
如今,最大的人工智能公司都在研究能够完成The Information所描述任务的模型。微软Copilot Vision可让用户与它谈论正在浏览的网页;预计Apple Intelligence将在明年某个时候可使用户了解屏幕内容,并在多个应用程序中执行操作;Anthropic推出了一款“繁琐且容易出错”的Claude测试版更新,它可以使用计算机执行任务,而OpenAI 称也在开发此类版本。
The Information提醒,谷歌在12月展示Jarvis的计划可能会发生变化。据报道,该公司正考虑向少数测试人员发布该功能,以查找并帮助解决漏洞。
「93913原创内容,转载请注明出处」