郎咸朋介绍,VLA作为理想汽车智能座舱与驾驶辅助系统的重要交互中枢,其核心价值并非传统意义上的“语音控制”,而是通过语言能力构建车辆与用户、车辆与环境的深度认知连接。
2025年9月4日,理想汽车自动驾驶负责人郎咸朋在社交媒体平台分享VLA中,语言的核心意义,引发科技行业广泛关注。

郎咸朋介绍,VLA作为理想汽车智能座舱与驾驶辅助系统的重要交互中枢,其核心价值并非传统意义上的“语音控制”,而是通过语言能力构建车辆与用户、车辆与环境的深度认知连接。VLA的L不是用语言做显式的文字推理,而是用人类语言提供的数据学习做隐式的逻辑推理,这才是L真正的核心。如果没有强大的L,再好的V和A都无法发挥出来。这跟人与动物的区别很相似。

郎咸朋认为,由于现在的辅助驾驶任务还比较简单,所以VLA方案与其他端到端方案相比优势还不明显。相当于人跟猴子赛跑,可能互有胜负。但理想汽车认为在L3/L4阶段,自动驾驶作为Agent要独立完成复杂AGI任务的时候,VLA就会发挥出强大的优势,获得碾压的胜利。
据了解,理想汽车的VLA是指Vision-Language-Action Model(视觉语言行动模型),是理想研发的司机AI大模型。它能通过3D和2D视觉的完美组合感知物理世界,拥有完整脑系统,具备强大的语言能力和思维链推理能力。其训练过程模拟人类学习驾驶,分为预训练、后训练和强化训练三个环节。VLA以“司机Agent(智能体)”的形态呈现,用户可通过自然语言与其实时交互,简单指令由端侧处理,复杂指令经云端解析后处理。