生数科技发布高可控视频大模型Vidu Q1

🤖 由文心大模型生成的文章摘要

在中关村论坛人工智能日的主题演讲上，清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军正式发布了多模态视频生成模型Vidu Q1。作为业内首个高可控 AI 视频大模型，Vidu Q1计划于4月在全球上线，致力于解决当前AI视频生成过程中 “随机性” 这一长期存在的痛点问题。

一直以来，AI视频生成的“随机性极大地限制了其在实际应用中的效果和价值。Vidu Q1通过引入多元素控制，将提升“可控性”作为核心目标，使AI视频生成技术迭代契合当下视频制作精品化、精细化的发展趋势。该模型在多主体细节可控（特别是动作可控、布局可控）、音效同步可控、画质增强等方面取得了突破性进展。

在多主体细节可控方面，Vidu Q1在语义指令的基础上，融入参考图的视觉指令，支持对场景中多主体的位置、大小、运动轨迹等属性进行更精准的控制，能够对所有动作行为，如出场、退场、坐立姿态、行动路线等进行精确调整。这意味着用户在创作视频时，可以更加随心所欲地安排视频中各主体的行为和位置，大大提升了视频内容的创作自由度和可控性。

音效同步可控功能是Vidu Q1的又一亮点。它能够根据视频环境与画面转场，输出生成相应的音效，并且可以精准控制每段音效的长短区间，精确设置每段音频出现的时间点，比如0 – 2 秒的风声、3 – 5秒的雨声等。这一功能不仅节省了视频制作过程中添加音效的时间成本，还显著增强了视频的沉浸感与感染力，为观众带来更加身临其境的视听体验。

此外，Vidu Q1 在画质增强方面也有出色表现，能够为用户提供更加清晰、细腻、逼真的视觉效果。无论是人物的细节纹理，还是场景的光影变化，都能呈现出更高质量的画质，满足用户对于视频画质日益增长的要求。

「93913原创内容，转载请注明出处」

相关文章

AWE2025盛大举办，AI科技引领生活新变革

微软将为波兰一百万人提供免费人工智能培训

OpenAI更新Agents SDK支持MCP，推动AI行业变革

DeepSeek表明人工智能权力中心可能会从美国转移

ServiceNow将收购Cuein以增强AI代理

Safe Pro荣获美国颠覆性AI无人机图像技术专利

推荐

未来Apple Vision Pro或配备操作按钮

微手势如今已成为VR中远程传送的可行替代方案

新型3D成像技术将显著改善下一代眼球追踪技术

「Animal Company」在Quest平台获得10万条评论，力争超越「Gorilla Tag」成为最受欢迎的游戏

AI应用推荐

热门

未来Apple Vision Pro或配备操作按钮

微手势如今已成为VR中远程传送的可行替代方案

友情链接

推荐

未来Apple Vision Pro或配备操作按钮

微手势如今已成为VR中远程传送的可行替代方案

新型3D成像技术将显著改善下一代眼球追踪技术

「Animal Company」在Quest平台获得10万条评论，力争超越「Gorilla Tag」成为最受欢迎的游戏