Anthropic最新Claude 3.5 Sonnet AI模型在公测版中推出了一项新功能,可以通过查看屏幕、移动光标、单击按钮和键入文本来控制计算机。这项名为“计算机使用”的新功能现已在API上推出,开发者可以控制Claude像人类一样操作计算机。
Anthropic首席科学官Jared Kaplan表示,新的“计算机使用”功能可以告诉人工智能“将鼠标移动到哪里、在哪里点击、输入什么,以完成相当复杂的任务”。
微软Copilot Vision功能和 OpenAI ChatGPT桌面应用展示了AI工具可以根据查看计算机屏幕来做什么,谷歌Gemini Android手机应用也具有类似的功能。但几家厂商还没有采取下一步行动,广泛发布可以点击并执行用户此类任务的工具,Rabbit承诺R1也具有类似的功能,但目前尚未实现。
Anthropic称,AI模型操控计算机仍处于试验阶段,可能“繁琐且容易出错”。该公司表示,“我们提前发布支持操控计算机以征求开发者的反馈,并希望随着时间的推移,兼容性越来越好。”
Claude 3.5 Sonnet AI模型开发者介绍:
人们在电脑上经常做的许多操作(拖动、缩放等)Claude还无法尝试。Claude屏幕视图具有“翻页”特性(截取屏幕截图并将它们拼凑在一起,而不是观察更精细的视频流),这意味着可能会错过短暂的操作或通知。
Anthropic表示,新款Claude 3.5 Sonnet AI在许多基准测试中都有所改进,并且价格与前代产品相同:
更新后的Claude 3.5 Sonnet在行业基准测试中表现出广泛的改进,在代理编码和工具使用任务方面尤其取得了显著的进步。在编码方面,在SWE-bench Verified上的性能从33.4%提高到了49.0%,得分高于所有公开可用的模型——包括OpenAI o1-preview等推理模型和专为代理编码设计的专用系统。它还在零售领域将代理工具使用任务TAU-bench的性能从62.6% 提高到了69.2%,在更具挑战性的航空领域从36.0%提高到了46.0%。