阿里通义千问团队发布全新多模态大模型Qwen2.5 – Omni

🤖 由 文心大模型 生成的文章摘要

阿里巴巴旗下通义千问团队正式发布并开源了新一代端到端多模态大模型——Qwen2.5 – Omni,这一创新成果在人工智能领域引发了广泛关注。该模型专为全面多模式感知设计,能够同时处理文本、图像、音频和视频等多种输入形式,并支持实时生成文本与自然语音合成输出,为用户带来更加智能化、便捷化的交互体验。​

Qwen2.5 – Omni采用了通义团队全新首创的Thinker – Talker双核架构。其中,Thinker模块作为模型的“大脑”,负责处理文本、图像、音频、视频等多模态输入,生成高层语义表征及对应文本内容。它基于Transformer解码器架构,融合音频/图像编码器进行特征提取,能够深入理解不同模态信息背后的含义。而Talker模块则如同“发声器”,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。它采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。这种创新架构让语义理解与语音生成得以协同优化,大幅提升了推理速度与响应能力。​

此外,Qwen2.5 – Omni 还运用了位置编码算法 TMRoPE(Time – aligned Multimodal RoPE),该算法针对音视频任务进行了优化,通过时间轴对齐提升了时序信息处理能力,实现了音视频输入的精准同步,使得模型在处理音视频相关内容时表现更加出色。​

在性能表现上,Qwen2.5 – Omni展现出了强大的实力。在权威的多模态融合任务OmniBench 测评中,Qwen2.5 – Omni刷新了业界纪录,全维度远超Google Gemini – 1.5 – Pro等同类模型。在一系列同等规模的单模态模型权威基准测试中,Qwen2.5 – Omni也展现出了全球最强的全模态优异性能。其在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Audio或VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。​

「93913原创内容,转载请注明出处」