OPPO研究院联合港科广发布OThink-MR1技术 突破多模态模型

🤖 由 文心大模型 生成的文章摘要

OPPO研究院与香港科技大学广州校区(港科广)联合宣布推出新型人工智能技术OThink-MR1。该技术首次将动态强化学习框架引入多模态语言模型训练,通过创新的训练策略显著提升模型在复杂任务中的泛化推理能力,为多模态 AI 的实际应用开辟了新路径。

当前主流多模态模型多依赖监督微调(SFT),虽能在特定任务上表现出色,但面对跨领域推理时往往捉襟见肘。OThink-MR1 技术创造性地引入动态 KL 散度策略(GRPO-D),通过自适应调整探索与利用的平衡机制,引导模型在训练过程中逐步优化决策路径。这一策略如同为模型配备 “智能导航系统”,既能在初期鼓励多样化尝试,又能在后期聚焦高效解决方案,有效规避传统强化学习中常见的局部最优陷阱。

研究团队同步设计了双轨奖励模型:在视觉计数、几何推理等典型任务中,模型不仅需保证答案准确性,还需遵循预设格式规范。这种 “双评分机制” 如同为模型提供多维度反馈,使其在提升推理精度的同时,强化对复杂任务格式的适应性。

在关键验证环节,OThink-MR1 展现出突破性性能:在同任务验证中,其GRPO-D方法在视觉计数与几何推理任务上的表现均超越监督微调;跨任务评估更具挑战性,模型需在理解类任务(如视觉计数)与推理类任务(如几何证明)间自由迁移。实验数据显示,经GRPO-D训练的模型在跨任务泛化中成绩提升显著,尤其在从理解到推理的高阶迁移场景中,其进步幅度远超传统方法。

值得关注的是,研究人员通过调整奖励权重发现,格式规范的约束能有效提升模型输出的结构化水平,验证了双轨奖励机制的科学性。动态KL散度的参数优化实验则表明,适度的探索空间控制对模型性能至关重要。

「93913原创内容,转载请注明出处」