美团开源LongCat-AudioDiT大模型,语音相似度创新高

PChome | 编辑: 冯可心 2026-04-02 16:21:00

PChome 4月2消息,美团近期正式开源其自研音频生成模型LongCat-AudioDiT,该模型在说话人相似度指标上取得显著突破,最高达0.818,并已开放1B、3.5B两个版本的模型下载。

PChome 4月2消息,美团近期正式开源其自研音频生成模型LongCat-AudioDiT,该模型在说话人相似度指标上取得显著突破,最高达0.818,并已开放1B、3.5B两个版本的模型下载。

据PChome了解,模型在中文数据集Seed-ZH上将相似度从先前SOTA模型的0.809提升至0.818;在复杂数据集Seed-Hard上也从0.776提升至0.797,显著增强语音克隆的自然度和拟真性。同时,摒弃传统多阶段流程,直接在波形潜空间进行端到端文本转语音,减少误差累积并提升生成效率。

目前,模型已开源至ModelScope平台,开发者可直接调用或微调,适用于虚拟助手、有声内容创作、个性化语音服务等场景。

说明:所有图文均来自网络,版权归原作者所有,如果侵犯您的权益,请联系我们删除。

每日精选

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑