PChome 4月2消息,美团近期正式开源其自研音频生成模型LongCat-AudioDiT,该模型在说话人相似度指标上取得显著突破,最高达0.818,并已开放1B、3.5B两个版本的模型下载。
PChome 4月2消息,美团近期正式开源其自研音频生成模型LongCat-AudioDiT,该模型在说话人相似度指标上取得显著突破,最高达0.818,并已开放1B、3.5B两个版本的模型下载。

据PChome了解,模型在中文数据集Seed-ZH上将相似度从先前SOTA模型的0.809提升至0.818;在复杂数据集Seed-Hard上也从0.776提升至0.797,显著增强语音克隆的自然度和拟真性。同时,摒弃传统多阶段流程,直接在波形潜空间进行端到端文本转语音,减少误差累积并提升生成效率。

目前,模型已开源至ModelScope平台,开发者可直接调用或微调,适用于虚拟助手、有声内容创作、个性化语音服务等场景。