一家创业公司正在尝试评测AI大模型实际的工作效果

🤖 由 文心大模型 生成的文章摘要

随着科技行业的迅速发展,人工智能(AI)技术已成为推动行业进步的关键力量。然而,尽管市场上涌现出众多声称性能匹敌甚至超越市场领导者OpenAI的AI产品,如何公正、准确地评估这些AI服务的性能仍然是一个待解的难题。

目前,尽管对AI公司的投资额高达数十亿美元,但业界尚未建立一个统一的、独立的标准测试,以比较不同AI应用的性能。Anthropic等OpenAI的竞争对手表示,现有的许多评估方法在衡量AI模型的安全性和能力方面存在局限性。Cohere公司的首席执行官Aiden Gomez甚至将目前对模型的公开评估系统称为“破碎”的体系。因此,AI公司通常自行设计基准测试,以展示其服务在代数、阅读理解和Python编程等方面的解题能力。

为了寻求更好的解决方案,23岁的Rayan Krishnan和Langston Nashold中断了斯坦福大学的硕士课程,与另一位软件工程师Rez Havaei共同创立了Vals.ai。这家创业公司与斯坦福大学的研究人员以及会计、法律和金融等特定领域的行业专家合作,致力于构建一个中立的、第三方的大语言模型审查系统。Vals.ai还使用学术和行业特定的数据集来设计测试问题。

在年初进行小范围内测之后,Vals.ai现已正式发布,并宣布已从Pear VC获得一笔未公开数额的种子轮投资,Sequoia的一名早期投资者也参与了投资。这一投资行为反映了市场对无偏见测试的迫切需求,尤其是随着越来越多的公司考虑将AI用于特定的工作场所任务。

Krishnan表示:“我们实际上并不清楚这些模型是否可以在医疗保健的生产环境中使用,或者它们是否可以在法律领域发挥作用。”问题的复杂性在于,大语言模型是基于大量在线数据构建的,它们可能已经预先遇到了基准问题和回答。这就像是“在考试前就看到了答案”。

尽管一批研究人员、行业分析师和AI影响者尝试拼凑不同的基准测试和非正式评估,但业界尚未就最佳测试方法或最值得信赖的评估者达成共识。例如,沃顿商学院教授Ethan Mollick已成为AI聊天机器人的新型科技产品评测者,而AI初创公司HuggingFace也推出了流行的“排行榜”,供开发者提交自己的模型进行评估。

寻找解决方案的紧迫性正日益增加。一年前,OpenAI还是无可争议的领导者。如今,Anthropic、谷歌和Cohere等公司正与它展开激烈竞争。AI公司也在对技术提出更大胆的声明,这些声明值得外部审查。Meta表示其下一个模型将具备先进的推理能力,而Anthropic声称其模型在某些测试中与人类一样有说服力。

Krishnan的公司已经在AI模型中发现了可能的不足之处。在其首份报告中,Vals.ai显示,根据创业公司聘请的会计师的建议,领先的模型在税务问题上表现不佳。性能最强模型OpenAI的GPT-4准确率仅为54.5%。谷歌Gemini Pro准确率仅为31.3%。换句话说,对于老板来说,现在解雇你的会计师还为时过早。

Krishnan表示:“还有很多工作要做,才能将一个模型应用到特定领域或任务中。这些模型非常有能力。它们有点像是上过优秀文理学院的孩子。你不会期望他们去报税,但他们已经准备好接受一点必要的培训,然后成为税务专家。”

Pear VC的合伙人Arash Afrakhteh表示,企业需要更多的“细微差别”来理解特定的AI模型是否“表现更好”,或者“能否以更低的成本处理我需要的所有任务”。

Vals.ai的数据还暗示了AI系统的性能可能因行业而异。例如,Anthropic的Claude 3 Opus和OpenAI的GPT-4在法律推理任务上的回应准确率约为77%,远高于税务问题。Krishnan表示,在他们最近在一个法律会议上展示了一些初步发现后,法律界对这家初创公司的测试结果“非常感兴趣”。

Krishnan说:“人们认为这是一个未解决的问题。他们对我们这样的研究者采取的新方法感到兴奋。”

「93913原创内容,转载请注明出处」