腾讯混元开源视频音效生成模型:输入视频与文字,即可生成配音

PChome | 编辑: 金子宸 2025-08-28 14:13:38

8月28日,腾讯混元今日宣布开源端到端视频音效生成模型Hunyuan-Foley。借助这一模型,用户仅需输入视频与文字,就能轻松为视频匹配到电影级别的音效,填补了AI视频在音频生成方面的空白。

8月28日,腾讯混元今日宣布开源端到端视频音效生成模型Hunyuan-Foley。借助这一模型,用户仅需输入视频与文字,就能轻松为视频匹配到电影级别的音效,填补了AI视频在音频生成方面的空白。

据官方介绍,HunyuanVideo-Foley打破了AI生成视频“有画无声”的局限,真正做到“看懂画面、读懂文字、配准声音”,为用户带来沉浸式视听感受。该模型应用场景广泛,短视频创作、电影制作、广告创意、游戏开发等领域都能借助它提升作品质量。

为训练该模型,混元团队构建了一套全面的数据处理流程,对收集到的音视频数据进行自动化标注与过滤,进而打造出约10万小时级别的高质量TV2A数据集。这为模型赋予了强大的泛化能力,使其能够在复杂视频条件下,生成与画面、语义精准匹配的高质量音频,包括音效与背景音乐,显著增强视频的真实感与沉浸感。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑