5月13日消息,小米正式发布并开源其自动驾驶大模型Xiaomi OneVL(一步式潜空间语言视觉推理框架),标志着其在“理解与推理”的XLA技术路线上取得关键突破。
PChome 5月13日消息,小米正式发布并开源其自动驾驶大模型Xiaomi OneVL(一步式潜空间语言视觉推理框架),标志着其在“理解与推理”的XLA技术路线上取得关键突破。该模型首次将视觉语言动作模型、世界模型与潜空间推理三大技术路线统一于同一框架,为行业探索精度与效率的平衡提供了新方案。

传统方案中,显式思维链推理虽能提升规划质量,但实时性不足;而直接输出答案又会丧失因果判断能力。Xiaomi OneVL创新性地采用潜空间思维链机制,通过双模态潜在令牌分别编码物理因果结构与驾驶意图,并借助视觉与语言双解码器在训练阶段提供未来预测与可解释性监督,推理时则将其移除,实现“一步式”并行计算。这使得其在多项基准测试中,不仅精度超越显式思维链,推理速度更能对齐“仅答案”预测,延迟最低可压缩至0.24秒,为车端实时部署铺平道路。

此次技术突破的核心在于,模型压缩的不再是语言本身,而是对未来世界动态变化的理解,保留了驾驶决策依赖的关键时空因果信息。目前,其模型权重、训练及推理代码已在GitHub全面开源,旨在与全球开发者共同推动自动驾驶技术的迭代与进步。