阿里视频生成模型上线:可基于图片和音频生成视频

PChome | 编辑: 金子宸 2025-08-27 10:38:14

8月27日,阿里云昨日晚间宣布开源全新多模态视频生成模型通义万相Wan2.2-S2V。只需一张静态图片和一段音频,就能生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。

8月27日,阿里云昨日晚间宣布开源全新多模态视频生成模型通义万相Wan2.2-S2V。只需一张静态图片和一段音频,就能生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。该模型单次生成的视频时长可达业界领先的分钟级,将大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。

据介绍,Wan2.2-S2V可驱动真人、卡通、动物、数字人等类型图片,支持肖像、半身以及全身等任意画幅。上传音频后,模型能让图片主体完成说话、唱歌、表演等动作。它还支持文本控制,输入指令后可对视频画面进行调控,丰富主体运动和背景变化。

Wan2.2-S2V运用多项创新技术,融合文本引导全局运动控制和音频驱动细粒度局部运动,实现复杂场景音频驱动视频生成;引入AdaIN和CrossAttention控制机制,实现更精准动态的音频控制效果;借助层次化帧压缩技术,降低历史帧Token数量,将历史参考帧长度从数帧拓展到73帧,保障长视频生成效果。用户可在Hugging Face和魔搭社区下载模型,也能在通义万相官网直接体验 。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑