PChome 3月24日消息,阿里通义实验室今日发布全新视频生成音频框架PrismAudio,专注环境音效的精准同步合成,通过创新“思维链+强化学习”架构突破音画匹配难题。
PChome 3月24日消息,阿里通义实验室今日发布全新视频生成音频框架PrismAudio,专注环境音效的精准同步合成,通过创新“思维链+强化学习”架构突破音画匹配难题。

据PChome了解,首次将强化学习与分解式思维链结合引入音频生成领域,模型通过模拟专业音效师的创作流程,先分析视觉动态与声学属性,再按时间顺序合成音效,从而精准捕捉画面中的动态细节和空间关系。模型内置四位“老师”分别从语义、时序、美学、空间四个维度进行打分,确保生成的声音与画面在内容和节奏上严丝合缝。

与此同时,PrismAudio是阿里音频生成技术路线的关键迭代,适用于为视频自动匹配环境音及特定音效,大幅提升视频内容的沉浸感与真实度。