🤖 由 文心大模型 生成的文章摘要
北京智源人工智能研究院(BAAI)发布了一种能够理解文本、图像和视频的多功能人工智能模型,使其成为首批推出多模式模型的国内公司之一。
随着国内人工智能初创企业突破先进芯片和资金获取受限问题,国内行业一直在竞相跟上OpenAI和谷歌等行业领导者的快速模型开发。北京智源人工智能研究院是一家非营利机构,致力于国内人工智能社区的发展。
北京智源人工智能研究院周一在北京举行的活动上表示,其最新一代多模态模型Emu3采用简单的架构设计来训练模型理解图片并制作视频片段。多模态模型旨在理解多种类型的输入数据,例如文本、视频和音频,而传统模型只能处理一种类型。
北京智源人工智能研究院院长王仲远表示,Emu3成功验证了下一个标记预测可以作为多模态模型的强大范例,超越语言模型并在多模态任务中提供最先进的性能。
王仲远表示:“通过将图像、文本和视频标记为离散空间,我们在多模态序列的混合上从头开始训练单个变压器。”他补充,Emu3完全消除了对扩散或组合方法的需求。
北京智源人工智能研究院绍,Emu3在生成和感知任务中的表现均优于几种成熟的特定任务模型,研究院已向国际技术界开源了Emu3的关键技术和模型。
技术从业者表示,通过统一架构探索多模态性的新机会已经出现,从而无需将复杂的扩散模型与大型语言模型(LLM)相结合。
“未来多模态世界模型将推动机器人大脑、自动驾驶、多模态对话与推理等场景应用。”王仲远指出。
「93913原创内容,转载请注明出处」