阿里通义发布两款语音生成新模型:支持多语种复刻与场景化生成

PChome | 编辑: 冯可心 2026-03-02 11:06:11

PChome 3月2日消息,阿里通义实验室于今日发布了两款突破性语音生成模型:Fun-CosyVoice3.5和Fun-AudioGen-VD。

PChome 3月2日消息,阿里通义实验室于今日发布了两款突破性语音生成模型:Fun-CosyVoice3.5和Fun-AudioGen-VD。

PChome获悉,Fun-CosyVoice3.5包含多语种复刻与精细化表达控制,用户可通过自然语言描述控制语音细节,模型实时调整合成效果;新增泰语、印尼语、葡萄牙语、越南语支持,覆盖13种语言,生僻字读错率从15.2%降至5.3%;Tokenizer帧率减半,首包延迟降低35%,实时交互响应更快;通过强化学习提升韵律自然度与表达层次感。

Fun-AudioGen-VD包括声音设计与场景化生成,支持性别、年龄、音质特征、情绪、角色等自由定义,甚至能生成“表面镇定但内心颤抖”的复杂心理状态语音;可叠加背景环境音、空间混响、设备滤镜,打造沉浸式听觉场景;并且该支持风噪断续、回声变化等实时环境交互效果。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑