2025年12月15日,通义大模型公众号发文,通义百聆语音双子星升级,只需3秒录音,就能让声音无缝切换语种,支持9种语言、18种方言。
2025年12月15日,通义大模型公众号发文,通义百聆语音双子星升级,只需3秒录音,就能让声音无缝切换语种,支持9种语言、18种方言。

据了解,通义百聆此次升级发布包括,Fun-CosyVoice3 模型升级:首包延迟降低 50%,中英混字准确率翻倍;Fun-CosyVoice3(0.5B)正式开源:提供音色克隆能力,支持本地部署与二次开发;Fun-ASR 模型能力增强:噪声场景准确率 93%,支持歌词与说唱识别,覆盖多语种口音;Fun-ASR-Nano(0.8B)开源:推理成本更低,支持本地部署与定制化微调等。

同时,一段嘈杂环境下的会议录音,AI 也能毫秒级输出文字,绕口令、RAP、背景音乐干扰,照样精准识别。