小米近日深度解读了新一代SU7搭载的车外语音交互技术,其核心突破在于利用大模型解决了长期困扰行业的“鸡尾酒会”难题。
PChome 5月7日消息,小米近日深度解读了新一代SU7搭载的车外语音交互技术,其核心突破在于利用大模型解决了长期困扰行业的“鸡尾酒会”难题。在停车场等嘈杂环境中,传统方案易受旁人语音干扰或用户移动影响,导致误触发或识别不全。小米通过自研的“目标说话人识别(TS-ASR)大模型”,实现了从“听到什么转什么”到“只听你说”的质变。

该技术的核心是“先思考,再识别”。当用户在车外喊出“小爱同学”时,系统会瞬间捕获其声纹作为目标音色参考。随后,模型引入思维链(CoT)推理机制,先分析场景中有几人说话、声音是否重叠、哪段声音属于目标用户,再输出指令文本。这种推理能力使其能有效过滤旁人的干扰指令。

为实现这一能力,小米MiLM Plus团队采用了三阶段训练策略:首先进行全参数监督微调打好基础;随后使用包含场景结构化信息的CoT数据集教会模型推理;最后针对难样本进行强化学习(RL)优化。经此训练,模型在两人混音场景下的识别错误率从7.4%大幅降低至4.84%,提升显著。

此外,SU7还集成了移动拾音功能(TS-Tracking),可在用户边走边说时动态追踪声源位置。TS-Tracking与TS-ASR协同工作,确保了系统能“跟得上、认得出、听得懂”用户。小米表示,这套由目标说话人跟踪与识别技术加持的系统,让车外语音交互变得真正聪明、精准和自由,标志着该领域体验的一次重要飞跃。