小米技术官微发布消息称,小米汽车正式发布Xiaomi Auto World Model全新框架,首次将三维重建(WorldRec)与视频生成(WorldGen)深度耦合。
PChome 5月26日消息,小米技术官微发布消息称,小米汽车正式发布Xiaomi Auto World Model全新框架,首次将三维重建(WorldRec)与视频生成(WorldGen)深度耦合,提出“重建锚定几何、生成填补想象”的一体化新范式,打破了行业长期将重建与生成独立拆分的传统路线。

该框架旨在为智能驾驶构建一个可预测、可推理的“数字平行世界”。其核心在于让重建与生成模块在结构上互相约束:重建侧提供精确的3D几何作为“地基”,确保场景结构稳定一致;生成侧则负责“填补”未来帧、未观测视角等空白区域,赋予系统“想象”未来和未知的能力。这种深度耦合有效抑制了长时序生成中的内容漂移,实现了“1+1>2”的协同效果,在稳定性、一致性和真实性三个关键维度上表现突出。

据悉,其重建模块(WorldRec)采用创新的稀疏三维锚点表征,将10秒视频的重建时间压缩至10秒,效率显著提升。生成模块(WorldGen)经过两阶段训练优化,单帧生成仅需0.19秒,并支持长达1分钟的连续视频生成,能高质量合成暴雨、动物闯入等罕见但危险的长尾场景,为感知模型训练提供了宝贵数据。

性能方面,该框架在Waymo、nuScenes等权威基准测试中全面领先。在Waymo数据集上,其重建精度(PSNR)达到28.48,超越此前最优方法;在生成质量上,其FVD指标也优于同类双向与自回归模型。
目前,Xiaomi Auto World Model已成功应用于小米汽车的合成数据生成、仿真测试与“辅助驾驶学堂”三大业务场景,标志着这项前沿技术从实验室SOTA走向了规模化落地。