PChome 3月2日消息,阿里通义实验室于今日发布了两款突破性语音生成模型:Fun-CosyVoice3.5和Fun-AudioGen-VD。
PChome 3月2日消息,阿里通义实验室于今日发布了两款突破性语音生成模型:Fun-CosyVoice3.5和Fun-AudioGen-VD。

PChome获悉,Fun-CosyVoice3.5包含多语种复刻与精细化表达控制,用户可通过自然语言描述控制语音细节,模型实时调整合成效果;新增泰语、印尼语、葡萄牙语、越南语支持,覆盖13种语言,生僻字读错率从15.2%降至5.3%;Tokenizer帧率减半,首包延迟降低35%,实时交互响应更快;通过强化学习提升韵律自然度与表达层次感。

Fun-AudioGen-VD包括声音设计与场景化生成,支持性别、年龄、音质特征、情绪、角色等自由定义,甚至能生成“表面镇定但内心颤抖”的复杂心理状态语音;可叠加背景环境音、空间混响、设备滤镜,打造沉浸式听觉场景;并且该支持风噪断续、回声变化等实时环境交互效果。