阿里云宣布,已将旗下人工智能视频生成模型免费开放,这是阿里云为开源社区贡献力量的又一重要举措。作为云计算领域的重要企业,阿里云此次开源的是其Wan2.1系列中140B参数版本和13B参数版本的四个模型,这四个模型均为视频基础模型通义万相的最新版本。
这四款模型分别为T2V-14B、T2V-1.3B、I2V-14B-720P和I2V-14B-480P,主要功能是基于文本和图像输入,生成高质量的图像与视频。全球范围内的学术界、研究人员以及商业机构,均可在阿里云AI模型社区Model Scope和协作AI平台Hugging Face上进行下载使用。
Wan2.1系列模型在今年年初发布,它是业界首个支持中英文文本效果的视频生成模型。
该模型通过对复杂动作的精准处理、像素质量的提升、物理原理的遵循以及指令执行精度的优化,能够生成极为逼真的视觉效果。凭借对指令的精确遵循,Wan2.1在视频生成模型综合基准测试套件VBench排行榜上荣登榜首,并且是Hugging Face VBench排行榜前五名中唯一的开源视频生成模型。
根据VBench的测试结果显示,Wan2.1系列整体得分达到86.22%,在动态度、空间关系、色彩、多物体交互等关键维度上均处于领先地位。
训练视频基础模型不仅需要庞大的计算资源,还依赖大量高质量的训练数据。阿里云开放这些模型的访问权限,有助于降低更多企业运用人工智能的门槛,让企业能够以经济高效的方式,创建出符合自身需求的高质量视觉内容。
具体来看,T2V-14B模型在创建具有大量运动动态的高质量视觉效果方面表现更为出色;而 T2V-1.3B模型则在生成质量和计算能力之间实现了良好平衡,对于进行二次开发和学术研究的广大开发人员来说,是较为理想的选择。举例来说,使用标准个人笔记本电脑的用户,借助T2V-1.3B模型,仅需4分钟就能生成一段分辨率为480p、时长5秒的视频。