强化学习的发展提升了大语言模型(LLM)在各方面的能力,而其自身也在不断进化。在众多复杂任务中,让智能体实现最佳性能往往需要直接在多轮相关目标上执行优化。然而,目前在多轮强化学习算法方面,哪种方法能最有效地利用 LLM 的推理能力来训练通用、有能力且目标导向的智能体,仍是一个待解之谜。
近日,Meta FAIR 和加利福尼亚大学伯克利分校的一个研究团队在这一研究课题上取得了突破性进展。他们不仅为该问题构建了一个全新的基准 ——ColBench(Collaborative Agent Benchmark),还提出了一种易于实现却非常有效的强化学习算法:SWEET – RL(RL with Step – WisE Evaluation from Training – Time Information)。这一成果引起了业界的广泛关注。
人类模拟器依据只有自己可见的参考代码,用自然语言对每个问题提供简要解释,但不会编写代码。智能体和人类模拟器之间的交互限定在10轮来回,当智能体给出最终解决方案或达到最大轮数时,交互结束。评估智能体是否成功,需对每个函数进行10次隐藏单元测试,每次协作根据测试结果给予0或1的奖励。
前端设计任务中,智能体要与人类模拟器协作,通过编写 HTML 代码片段(约100行)来设计网页。协作开始时,智能体得到网页的高级描述,像网页的布局和调色板等许多具体细节都缺失,只有人类模拟器能够看到。在每一轮中,智能体有机会编写HTML代码并通过 Web 浏览器呈现结果。人类模拟器将智能体给出的网页与参考网页对比后,向智能体描述差异。与后端编程协作类似,当智能体给出最终解决方案或达到最大10轮交互时,交互结束。评估指标采用智能体解答与参考网页之间的CLIP嵌入的余弦相似度。
为在推理密集型任务中执行显式的信用分配,此前一些研究采用先学习显式价值函数,再从学习到的价值函数中得出每个单独动作优势的方法。但该研究团队实验发现,当微调只能使用有限数量的样本时,这种价值函数无法很好地泛化。他们推测这是因为在推理密集型任务中学习准确的价值函数本身就是一项艰巨任务,且不能有效利用预训练LLM的推理和泛化能力。