🤖 由 文心大模型 生成的文章摘要
在中关村论坛人工智能日的主题演讲上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军正式发布了多模态视频生成模型Vidu Q1。作为业内首个高可控 AI 视频大模型,Vidu Q1计划于4月在全球上线,致力于解决当前AI视频生成过程中 “随机性” 这一长期存在的痛点问题。
一直以来,AI视频生成的“随机性极大地限制了其在实际应用中的效果和价值。Vidu Q1通过引入多元素控制,将提升“可控性”作为核心目标,使AI视频生成技术迭代契合当下视频制作精品化、精细化的发展趋势。该模型在多主体细节可控(特别是动作可控、布局可控)、音效同步可控、画质增强等方面取得了突破性进展。
在多主体细节可控方面,Vidu Q1在语义指令的基础上,融入参考图的视觉指令,支持对场景中多主体的位置、大小、运动轨迹等属性进行更精准的控制,能够对所有动作行为,如出场、退场、坐立姿态、行动路线等进行精确调整。这意味着用户在创作视频时,可以更加随心所欲地安排视频中各主体的行为和位置,大大提升了视频内容的创作自由度和可控性。
音效同步可控功能是Vidu Q1的又一亮点。它能够根据视频环境与画面转场,输出生成相应的音效,并且可以精准控制每段音效的长短区间,精确设置每段音频出现的时间点,比如0 – 2 秒的风声、3 – 5秒的雨声等。这一功能不仅节省了视频制作过程中添加音效的时间成本,还显著增强了视频的沉浸感与感染力,为观众带来更加身临其境的视听体验。
此外,Vidu Q1 在画质增强方面也有出色表现,能够为用户提供更加清晰、细腻、逼真的视觉效果。无论是人物的细节纹理,还是场景的光影变化,都能呈现出更高质量的画质,满足用户对于视频画质日益增长的要求。
「93913原创内容,转载请注明出处」