PChome 3月17日消息,今日,理想汽车在NVIDIA GTC 2026大会上发布了下一代自动驾驶基础模型MindVLA-o1,以“看得更准、想得更深、行得更稳、进化更快、部署更高效”为核心,重构视觉-语言-行为(VLA)融合架构。
PChome 3月17日消息,今日,理想汽车基座模型负责人詹锟在NVIDIA GTC 2026大会上发布了下一代自动驾驶基础模型MindVLA-o1,以“看得更准、想得更深、行得更稳、进化更快、部署更高效”为核心,重构视觉-语言-行为(VLA)融合架构。

PChome获悉,MindVLA-o1模型基于统一Omni架构打造,采用原生多模态MoE Transformer,在单一Transformer 中实现建模感知、推理与控制的深度融合。模型搭载3D空间理解模块,通过3D编码器让车能够像人类一样感知物体的深浅、距离和运动状态,真正理解三维物理空间。
依托3D空间理解、多模态思考、统一行为生成、闭环强化学习与软硬件协同设计五大技术创新,MindVLA-o1大幅提升了车辆在面对复杂路口、商场地库等场景的通过率,支持自然语言交互,让驾驶控制更平顺、更拟人。

理想汽车表示,该模型一旦落地量产车型,将持续迭代城市NOA与高速智驾能力,以全栈自研AI技术,为用户带来更安全、更智能的出行体验。