2026年1月22日,小米CEO雷军微博发文,小米多项AI创新成果入选国际顶级会议ICASSP 2026,包括音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成等多个AI领域的技术研究成果。
2026年1月22日,小米CEO雷军微博发文,小米多项AI创新成果入选国际顶级会议ICASSP 2026,包括音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成等多个AI领域的技术研究成果。

据了解,小米此次入选ICASSP 2026的四项研究成果聚焦音频与多模态AI领域,ACAVCaps音频通过自动化标注框架整合声音事件、音乐特征等元数据,结合大语言模型生成470万条精细化音频-文本对,解决数据集“规模大但描述简略”或“描述细但规模小”的矛盾。同时,GLAP跨领域音频文本预训练模型首次统一语音、音乐及环境音的跨模态对齐,支持50种语言的关键词识别。在中文语音检索达99%召回率,赋能小米“人车家全生态”的语音交互、车载指令及音频检索场景。

此次成果是小米“深耕底层技术”科技战略的延续,此前2个月小米已有7篇AI论文入选顶级会议AAAI 2026,涵盖自动驾驶、具身智能3D Agent等方向。