小米大模型团队登顶音频推理MMAU榜

🤖 由 文心大模型 生成的文章摘要

在当今人工智能技术飞速发展的时代,音频理解领域又迎来了一项重大突破。3月17日,小米技术官微发布一则振奋人心的消息:小米大模型团队在音频推理领域取得了突破性进展。受DeepSeek-R1的启发,团队率先将强化学习算法创新性地应用于多模态音频理解任务,仅耗时一周,便以高达 64.5%的SOTA(State-of-the-Art,即当前最优)准确率成功登顶国际权威的MMAU音频理解评测榜首,并且同步将相关成果开源,引发了业内的广泛关注。​

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集,作为衡量音频推理能力的量化标尺,具有极高的权威性和挑战性。它通过一万条丰富多样的音频样本,这些样本涵盖了语音、环境声以及音乐等多个类别,并结合人类专家精心标注的问答对,全面测试模型在27种复杂技能上的表现,包括跨场景推理、专业知识运用等,期望模型能够达到接近人类专家的逻辑分析水平。值得一提的是,人类专家在MMAU上的准确率为 82.23%,这无疑为众多模型设立了一个高标准。目前,在MMAU官网榜单上,此前表现出色的模型如来自OpenAI 的 GPT-4o,其准确率为57.3%;紧随其后的是来自Google DeepMind 的 Gemini 2.0 Flash,准确率为 55.6%;而来自阿里的 Qwen2-Audio-7B模型在此评测集上的准确率为49.2%。

小米大模型团队的探索之旅并非一帆风顺。起初,他们尝试使用清华大学发布的AVQA数据集对阿里的Qwen2-Audio-7B模型进行微调。AVQA数据集仅包含3.8万条训练样本,通过全量有监督微调(SFT),模型在MMAU上的准确率从49.2%提升到了51.8%,但这一提升效果并不显著。​

直到DeepSeek-R1的发布,为团队的研究带来了新的曙光。DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法,让模型能够通过“试错- 奖励” 机制实现自主进化,进而涌现出类似人类的反思、多步验证等推理能力。与此同时,卡内基梅隆大学发布的论文预印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning”通过精巧的实验得出,当任务存在明显的生成-验证差距(即任务生成结果的难度远大于验证结果正确性的难度)时,强化学习比起有监督微调具有独特优势,而音频理解任务恰好符合这一特征。​

基于这些洞察,小米大模型团队大胆尝试将DeepSeek-R1的GRPO算法迁移到Qwen2-Audio-7B模型上。令人惊喜的是,在仅使用AVQA的3.8万条训练样本的情况下,经过强化学习微调后的模型在MMAU评测集上实现了64.5%的准确率,这一成绩比目前榜单上排名第一的商业闭源模型GPT-4o高出近10个百分点,优势十分明显。更有趣的是,当团队在训练中强制要求模型输出推理过程(类似传统思维链方法)时,准确率反而下降至61.1%。这一现象表明,显式的思维链结果输出可能并不利于模型的训练。​

此次小米大模型团队的实验揭示了几个与传统认知不同的重要结论:在微调方法上,强化学习在3.8万条数据集上的表现显著超过监督学习在57万条数据集上的结果;在参数规模方面,相比千亿级模型,7B参数的模型通过强化学习同样可展现出强大的推理能力;在隐式推理层面,显式思维链输出反而成为了性能瓶颈。尽管当前模型的准确率已突破64%,但距离人类专家82%的水平仍存在一定差距。在当前的实验中,强化学习策略相对粗糙,训练过程对思维链的引导也不够充分,团队表示会在后续研究中进一步探索优化。​

小米大模型团队此次成功登顶MMAU音频理解评测榜首,不仅验证了强化学习在音频推理领域的独特价值,更为后续的相关研究开辟了新的方向。当机器不仅能够 “听见” 声音,还能真正 “听懂” 声音背后的因果逻辑时,一个全新的智能听觉时代或许将加速来临。为了促进学术界和产业界的交流与合作,小米大模型团队将训练代码、模型参数开源,并提供了详细的技术报告。

「93913原创内容,转载请注明出处」