昆仑万维开源多模态思维链推理模型Skywork R1V

🤖 由 文心大模型 生成的文章摘要

昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,成为中国第一个开源 “多模态推理模型”的企业。该模型在MATH500和AIME基准测试中分别取得94.0和72.0分,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5分。

昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,并同步公开模型权重及技术报告,成为中国第一个开源“多模态推理模型”的企业。​

昆仑万维官方表示,Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上。具体而言,第一阶段是视觉语言表征的初始对齐;第二阶段为推理能力迁移;第三阶段实现视觉与文本模态精准对齐。通过以上训练策略,Skywork R1V在视觉推理任务上取得突破性进展,并在多个公开评测基准中达到或超过了现有领先模型的性能。​

在MATH500和AIME基准测试中,Skywork R1V分别取得94.0和72.0的评分,展现出卓越的数学推理能力。在视觉理解能力方面,其在MMMU与MathVista评测中达到69和67.5分,能够支持复杂场景的视觉逻辑分析,包括医学影像诊断、视觉数学问题求解等应用。这意味着该模型在工业生产、医疗、教育等众多领域具有极大的应用潜力。

与此前发布的一些模型相比,如中国电信人工智能研究院的TeleAI-t1-preview在AIME 2024、MATH500两项权威数学基准评测中分别取得60和93.8分;月之暗面的k0-math在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中成绩超过o1-mini和 o1-preview 模型,在竞赛级别的omni-math和AIME基准测试中,表现分别达到o1-mini最高成绩的90%和83%;DeepSeek在AIME2024上以79.8%的成绩碾压OpenAI-o1-1217的79.2%,在 MATH – 500竞赛数学基准测试中拿下97.3%的惊人成绩,与OpenAI-o1-1217持平 。Skywork R1V在不同维度的评测中展现出了自身的优势与特色,在多模态融合及复杂场景分析方面具备独特竞争力。​

「93913原创内容,转载请注明出处」