车东西3月17日消息,今日,理想汽车基座模型负责人詹锟出席NVIDIA GTC 2026,发布了理想汽车下一代自动驾驶基础模型MindVLA-o1。
根据詹锟的介绍,MindVLA-o1以原生多模态MoE Transformer为核心,通过五大技术——3D空间理解、多模态思考、统一行为生成、闭环强化学习(Closed-loop RL)和软硬件协同设计(Hardware–Software Co-Design),构建了面向物理世界智能的自动驾驶基础模型,让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。
而根据詹锟的说法,MindVLA-o1基础模型正在向具身智能通用模型进化,他表示:“当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。因此,自动驾驶只是物理AI的起点,未来这类基础模型将驱动新的具身智能范式。”
在感知层面,理想汽车采用以视觉为核心的 3D ViT Encoder(3D视觉模型编码器),并利用激光雷达点云作为三维几何提示,引导模型理解真实空间结构,使其在单一表示中同时具备语义理解与三维感知能力。
同时引入前馈式3DGS表示(Feedforward 3D Representation),将场景拆分为静态环境与动态物体分别建模,并通过下一帧预测(Next-state prediction)作为自监督信号,使模型同时学习深度信息、语义结构与物体运动,最终形成融合空间结构与时间上下文的高质量3D表示。