视觉语言动作模型(VLA)正深刻改变自动驾驶的技术根基。这项脱胎于机器人控制领域的技术,通过打通视觉感知、语言理解与动作执行三条链路,让车辆第一次拥有了"理解世界"的智能。从谷歌DeepMind推出RT-2,到小鹏VLA 2.0率先量产上车,本文将系统拆解这项技术如何跨越"从看懂到会做"的鸿沟,并直面泛化与安全两道关键考题。
视觉语言模型(VLM)的输出止步于文字层面,无法直接驱动车辆行为,两者之间存在一条显著的"行动断层"。为了跨越这道鸿沟,视觉语言动作模型(VLA)顺势而生。 VLA本质上是在VLM的骨架上叠加了动作输出能力的端到端架构。它将视觉感知、语义推理与驾驶控制三要素统一编织在同一网络中,打通了从多模态感知输入到车辆控制指令输出的完整链路。
追溯VLA的起源,这一概念实际上诞生于机器人操控领域。2023年7月,谷歌DeepMind推出RT-2模型,宣告VLA正式问世,其最初用途是引导机械臂完成抓取任务。 RT-2的问世在具身智能学界激起了强烈反响。在人工智能顶会ICLR上,VLA相关投稿从2024年的1篇,增长到2025年的9篇,到了2026年更是爆发至164篇——三年间论文数量跨越了两个数量级,足以说明全球研究力量正在集体涌入这一方向。
学术成果落地之后,产业端迅速接力。2023年9月,Wayve推出LINGO-1,第一次将VLA的技术思路移植到自动驾驶场景。此后学界与业界齐头并进——2024年,CoVLA搭建了首个面向自动驾驶的大规模VLA数据集,让这一方向的研究走向体系化。2025年11月,小鹏发布VLA 2.0,随后于2026年3月通过OTA实现量产推送,成为目前VLA在自动驾驶领域最具代表性的落地案例。
V——视觉模块
视觉模块是VLA系统的感知入口,负责捕捉车辆周边的物理世界信息,并将原始传感数据转化为模型可消化的数字格式。 该模块的感知硬件由多摄像头阵列与多类传感器协同构成。
摄像头一般采取环绕式布局:车头布置1至3个,左右各1至2个,车尾1个,部分车型额外在车顶搭载广角摄像头,以达成360度无死角视野覆盖。
传感器体系主要涵盖以下四类:
- LiDAR(激光雷达):
通常部署于车顶正中,外形为旋转圆柱体,每秒发射数百万束激光脉冲,生成高精度彩色点云地图,可精准还原物体的三维轮廓、距离及地面起伏,探测范围覆盖360度,有效距离100至200米。
- RADAR(毫米波雷达):
隐藏安装于前保险杠与车尾边角处,一般配置4至6个,输出包含距离与加速度信息的数据图谱,可探测前方最远200米、侧方60至80米范围内物体的距离与运动速度,在雨雾和夜间环境下仍能保持稳定工作。
- IMU(惯性测量单元):
内置在车身内部,集成加速度计与陀螺仪。加速度计捕捉车辆加减速及制动时的力度变化,陀螺仪监测转向角度,协同输出车辆实时运动状态。
- GPS(全球定位系统):
提供车辆在地球上的精确位置信息。 四类传感器形成互补机制:摄像头的视觉盲区由LiDAR补位;LiDAR受雨雪干扰时RADAR顶上;GPS信号丢失时IMU可继续推算位置。即使在恶劣天气条件下,车辆仍能维持基本的环境感知能力。 不过,单纯采集画面和数据还不够。视觉模块还需要把原始信息转换为模型能理解的格式。摄像头捕获的平面图像会经由算法转化为BEV(鸟瞰图),即以俯瞰视角重构场景,让车辆与行人之间的真实距离关系一目了然。 接下来,视觉编码器将这些图像进一步转化为视觉Token——即模型内部可处理的数字化表征,为语言模块的后续理解与推理提供输入。
L——Language(语言模块)
语言模块是VLA的智能中枢,负责解读视觉模块传来的信息,并综合语言指令完成推理与决策。其核心架构依托大语言模型,如LLaMA、Qwen等。 该模块同时处理两类输入:一类是视觉模块传来的感知数据,即摄像头与传感器采集的画面经视觉编码器转化后形成的、语言模块可识别的数据格式;另一类是文本信息,涵盖用户设定的导航目的地、系统内嵌的交通规则,或直接向车辆发出的语音指令。 接收两类输入后,语言模块并不输出自然语言描述,而是生成一种结构化的行动意图指令——Action Token,直接传递给动作模块,由后者解码为方向盘转角、油门深度及刹车力度等控制信号。这也是VLA与VLM的根本分野:VLM仅停留在语言描述层面无法驱动行为,而VLA的语言模块在完成推理后直接将决策交由执行系统落地。
然而,语言模块需要理解的语言复杂度远超"下个路口左转"这类简单指令。在自动驾驶数据标注环节,标注人员会用自然语言描述场景中潜藏的风险,例如"前方有行人横穿,自车未减速,存在弱势道路使用者碰撞隐患"。这类语义描述作为关键训练数据输入语言模块,使其在遇到相似场景时能够识别风险并做出合理判断。语言模块的语义理解能力,很大程度上取决于此类真实场景下高质量语义标注的积累。
A——Action(动作模块)
动作模块是VLA的执行末端,负责将语言模块输出的Action Token转化为车辆可实际执行的控制指令。 其输出呈现为两种形式:一是直接输出底层控制量,包括方向盘转角、油门开度与刹车强度;二是生成未来数秒的行驶轨迹,即规划出车辆即将遵循的路径,再交由底层控制系统具体执行。 作为VLA闭环中最终且至关重要的一环,动作模块的表现直接决定系统的整体效能。视觉模块感知环境,语言模块完成推理,但若动作模块输出的控制指令不够精准或不够平顺,前序模块的优势便无从体现。乘客的实际体验——无论是丝滑的行驶质感,还是突兀的急刹与抖动,皆由该模块的精准度所决定。
削弱模块间的信息损耗
传统自动驾驶架构将感知、预测、规划与控制拆分为多个独立子系统,信息每经历一次传递就可能产生偏差,而且一旦出错难以追溯问题出在哪个环节。 VLA将这些功能整合在单一模型之内,信息在内部直接流转,从而大幅减少了中间传递过程引入的误差。
具备复杂语义场景的理解力
传统端到端模型面对训练数据中从未出现过的情境时往往束手无策。VLA继承了大语言模型的常识推理能力,能够理解"前方是学校区域需减速""路口有交警指挥应服从让行"等语义信息,因而在处理复杂与陌生场景时更具优势。
决策更周全,执行更稳健
VLA在生成控制指令时,并非仅依赖当前帧的图像信息,还会综合考量当前车速、历史动作序列等状态信息。这让系统在复杂路况下表现更为沉稳,也能更出色地完成需要连续多步操作的长距离驾驶任务。
响应更敏捷
相比传统模块化系统,VLA省去了模块间信息传递的等待开销,整体响应速度有所提升。但由于引入了语言推理层,计算负担也随之加重,其速度未必优于纯粹的端到端模型。这也是小鹏VLA 2.0特别移除语言转译层、将推理延迟压缩至80毫秒的原因——在响应速度与智能水平之间找到有效平衡。 ## VLA仍需跨越的挑战 尽管VLA在自动驾驶领域前景广阔,但目前仍有两大核心难题悬而未决。
模型泛化能力仍显不足
VLA能有效应对其"见过"的场景,但现实道路的复杂程度远非任何训练数据集所能穷尽。换一座城市、遇到特殊天气、碰上施工导流或交警手势指挥,模型常常力不从心。
更深层的原因在于,仿真环境与真实道路之间始终存在差异——光照条件、物体材质、其他交通参与者的行为模式等都与现实存在细微偏差,导致模型在仿真中学到的知识无法完全迁移到真实场景。
当前行业采取双轨并行的应对策略:一方面持续扩大真实场景的数据采集范围,另一方面借助仿真平台生成极端场景数据作为补充。然而这种方式成本高昂、周期漫长,是一场旷日持久的投入战。
安全可靠性尚未充分验证
VLA的语言推理能力使其比传统端到端模型更智能,但智能并不等同于安全。在强光、雨雾或硬件故障等极端条件下,传感器可能出现感知失效;在高度模糊的场景中,语言推理模块也可能输出错误判断,进而引发危险的控制指令。
因此,工程层面必须引入额外的保障机制——当模型置信度低于阈值时,接管机制立即提示驾驶员介入;当主模型出现异常时,备用机制会迅速切换至保守策略,例如减速并靠边停车。
换言之,VLA的智能负责处理常规与复杂场景,而安全机制则负责在模型失效时守住最后一道防线。 总体来看,无论是小鹏VLA 2.0的量产落地、理想MindVLA的发布,还是ICLR会议上VLA相关论文数量在三年内增长两个数量级,都在印证同一趋势——VLA正成为自动驾驶领域的下一代核心范式。 但这条路远未走到尽头。
从技术层面看,VLA仍在快速迭代。如何进一步缩小仿真与现实的差距、如何让模型以更少的数据适应新城市与新场景、如何在保持智能推理能力的同时进一步压低延迟——这些问题尚无标准答案,各车企与研究机构正沿着不同路径进行探索。
从行业层面看,VLA的意义不仅在于提升车辆驾驶能力。它第一次让自动驾驶系统具备了"理解世界"的能力,而不仅仅是"执行规则"。这一转变,或许正是从辅助驾驶迈向真正无人驾驶最关键的一步。
值得关注的是,VLA的底层框架同样适用于机器人、无人机等其他需要感知环境并执行行动的物理设备。自动驾驶只是其落地最快的一个场景,但绝不会是终点。
共同学习,写下你的评论
评论加载中...
作者其他优质文章











