随着快速发展的技术超越了当前的基准,科技团队正在争相重新设计测试和评估人工智能模型的方式。
OpenAI、微软、Meta和Anthropic最近都宣布计划打造可代表人类自主执行任务的人工智能代理。为了有效做到这一点,系统必须能够使用推理和规划来执行越来越复杂的操作。
公司通过员工团队和外部研究人员对人工智能模型进行“评估”。这些是标准化测试,称为基准,用于评估模型的能力以及不同团队系统或旧版本的性能。
然而,人工智能技术的最新进展意味着许多最新模型在现有测试中的准确率已经接近或超过90%,这凸显了对新基准的需求。
“这个行业的发展速度非常快,我们现在开始饱和了衡量这些系统的能力,[作为一个行业]评估[它们]变得越来越困难。”Meta生成AI负责人Ahmad Al-Dahle表示。
为了解决这个问题,包括Meta、OpenAI和微软在内的多个技术团体都创建了内部智能基准和测试。但这引起了业内人士的担忧,他们担心在没有公开测试的情况下,无法对技术进行比较。
“许多基准测试让我们知道,我们距离任务和工作自动化还有多远。如果不公开这些测试,企业和社会就很难判断。”人工智能安全中心执行主任、马斯克xAI顾问Dan Hendrycks表示。
当前的公共基准——Hellaswag和MMLU——使用多项选择题来评估各种主题的常识和知识。然而,研究人员认为这种方法现在变得多余,模型需要更复杂的问题。
OpenAI研究部高级副总裁Mark Chen表示:“我们正进入这样一个时代:大量人工编写的测试已不足以作为衡量模型能力的良好标准,这给我们研究界带来了新的挑战。”
一项公共基准测试SWE-bench Verified于8月进行了更新,以便根据包括OpenAI在内的公司的反馈更好评估自主系统。
其使用来自开发者平台GitHub的真实软件问题,并向AI代理提供代码存储库和工程问题,以要求修复,这些任务需要推理才能完成。
根据这一衡量标准,OpenAI最新模型GPT-4o预览版解决了41.4%的问题,而Anthropic Claude 3.5 Sonnet解决了49%的问题。
Anthropic首席科学官Jared Kaplan表示:“使用代理系统要困难得多,因为你需要将这些系统与许多额外的工具连接。”
“你必须创建一个完整的沙盒环境,这并不像仅仅提供提示、查看完成情况然后进行评估那么简单。”