阿里通义开源配音大模型Fun-CineForge,实现精准音画情感匹配

PChome | 编辑: 汤雪倩 2026-03-16 17:30:47

PChome 3月16日消息,阿里通义实验室于今日正式发布并开源Fun-CineForge多模态大模型,这是业界首个面向影视级多场景配音的专用大模型,致力于解决AI配音长期存在的音画不同步、情感生硬、角色音色混淆等关键问题。

PChome 3月16日消息,阿里通义实验室于今日正式发布并开源Fun-CineForge多模态大模型,这是业界首个面向影视级多场景配音的专用大模型,致力于解决AI配音长期存在的音画不同步、情感生硬、角色音色混淆等关键问题。

该模型基于CosyVoice3语音合成底层能力,引入“时间模态”,融合视觉、文本、音频等多维度信息,通过唇同步精准对齐时间点,提升口型、情绪、节奏与画面的契合度,即便在面部遮挡、镜头切换等场景下,仍能保持稳定音画同步。配套开源CineDub数据集构建流程,利用其思维链纠错机制,将中英文文本转录错率降至1% -2%左右,覆盖独白、旁白、多人对话等。

Fun-CineForge可精准捕捉角色情绪与语气,实现自然情感迁移与音色克隆,支持多角色动态切换,有效解决“一人分饰多角”的音色同质化问题。目前模型已在GitHub、HuggingFace、ModelScope同步开放,支持30秒内视频片段推理。

 

此次开源将大幅降低影视配音技术门槛,推动AI配音从工具化走向工业化。官方表示,未来,随着多模态大模型能力不断提升,希望AI能在影视、动画、游戏等内容生产领域发挥更大的作用。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑