北京智源人工智能研究院发布多模态模型Emu3

🤖 由文心大模型生成的文章摘要

北京智源人工智能研究院（BAAI）发布了一种能够理解文本、图像和视频的多功能人工智能模型，使其成为首批推出多模式模型的国内公司之一。

随着国内人工智能初创企业突破先进芯片和资金获取受限问题，国内行业一直在竞相跟上OpenAI和谷歌等行业领导者的快速模型开发。北京智源人工智能研究院是一家非营利机构，致力于国内人工智能社区的发展。

北京智源人工智能研究院周一在北京举行的活动上表示，其最新一代多模态模型Emu3采用简单的架构设计来训练模型理解图片并制作视频片段。多模态模型旨在理解多种类型的输入数据，例如文本、视频和音频，而传统模型只能处理一种类型。

北京智源人工智能研究院院长王仲远表示，Emu3成功验证了下一个标记预测可以作为多模态模型的强大范例，超越语言模型并在多模态任务中提供最先进的性能。

王仲远表示：“通过将图像、文本和视频标记为离散空间，我们在多模态序列的混合上从头开始训练单个变压器。”他补充，Emu3完全消除了对扩散或组合方法的需求。

北京智源人工智能研究院绍，Emu3在生成和感知任务中的表现均优于几种成熟的特定任务模型，研究院已向国际技术界开源了Emu3的关键技术和模型。

技术从业者表示，通过统一架构探索多模态性的新机会已经出现，从而无需将复杂的扩散模型与大型语言模型（LLM）相结合。

“未来多模态世界模型将推动机器人大脑、自动驾驶、多模态对话与推理等场景应用。”王仲远指出。

「93913原创内容，转载请注明出处」

相关文章