首页手记揭秘VLA：自动驾驶的全新范式

揭秘VLA：自动驾驶的全新范式

标签：

深度学习算法人工智能计算机视觉

视觉语言动作模型（VLA）正深刻改变自动驾驶的技术根基。这项脱胎于机器人控制领域的技术，通过打通视觉感知、语言理解与动作执行三条链路，让车辆第一次拥有了"理解世界"的智能。从谷歌DeepMind推出RT-2，到小鹏VLA 2.0率先量产上车，本文将系统拆解这项技术如何跨越"从看懂到会做"的鸿沟，并直面泛化与安全两道关键考题。

视觉语言模型（VLM）的输出止步于文字层面，无法直接驱动车辆行为，两者之间存在一条显著的"行动断层"。为了跨越这道鸿沟，视觉语言动作模型（VLA）顺势而生。 VLA本质上是在VLM的骨架上叠加了动作输出能力的端到端架构。它将视觉感知、语义推理与驾驶控制三要素统一编织在同一网络中，打通了从多模态感知输入到车辆控制指令输出的完整链路。

追溯VLA的起源，这一概念实际上诞生于机器人操控领域。2023年7月，谷歌DeepMind推出RT-2模型，宣告VLA正式问世，其最初用途是引导机械臂完成抓取任务。 RT-2的问世在具身智能学界激起了强烈反响。在人工智能顶会ICLR上，VLA相关投稿从2024年的1篇，增长到2025年的9篇，到了2026年更是爆发至164篇——三年间论文数量跨越了两个数量级，足以说明全球研究力量正在集体涌入这一方向。

学术成果落地之后，产业端迅速接力。2023年9月，Wayve推出LINGO-1，第一次将VLA的技术思路移植到自动驾驶场景。此后学界与业界齐头并进——2024年，CoVLA搭建了首个面向自动驾驶的大规模VLA数据集，让这一方向的研究走向体系化。2025年11月，小鹏发布VLA 2.0，随后于2026年3月通过OTA实现量产推送，成为目前VLA在自动驾驶领域最具代表性的落地案例。

拆解VLA：V、L、A各司何职

V——视觉模块

视觉模块是VLA系统的感知入口，负责捕捉车辆周边的物理世界信息，并将原始传感数据转化为模型可消化的数字格式。该模块的感知硬件由多摄像头阵列与多类传感器协同构成。

摄像头一般采取环绕式布局：车头布置1至3个，左右各1至2个，车尾1个，部分车型额外在车顶搭载广角摄像头，以达成360度无死角视野覆盖。

传感器体系主要涵盖以下四类：

LiDAR（激光雷达）：
通常部署于车顶正中，外形为旋转圆柱体，每秒发射数百万束激光脉冲，生成高精度彩色点云地图，可精准还原物体的三维轮廓、距离及地面起伏，探测范围覆盖360度，有效距离100至200米。

RADAR（毫米波雷达）：
隐藏安装于前保险杠与车尾边角处，一般配置4至6个，输出包含距离与加速度信息的数据图谱，可探测前方最远200米、侧方60至80米范围内物体的距离与运动速度，在雨雾和夜间环境下仍能保持稳定工作。

IMU（惯性测量单元）：
内置在车身内部，集成加速度计与陀螺仪。加速度计捕捉车辆加减速及制动时的力度变化，陀螺仪监测转向角度，协同输出车辆实时运动状态。

GPS（全球定位系统）：
提供车辆在地球上的精确位置信息。四类传感器形成互补机制：摄像头的视觉盲区由LiDAR补位；LiDAR受雨雪干扰时RADAR顶上；GPS信号丢失时IMU可继续推算位置。即使在恶劣天气条件下，车辆仍能维持基本的环境感知能力。不过，单纯采集画面和数据还不够。视觉模块还需要把原始信息转换为模型能理解的格式。摄像头捕获的平面图像会经由算法转化为BEV（鸟瞰图），即以俯瞰视角重构场景，让车辆与行人之间的真实距离关系一目了然。接下来，视觉编码器将这些图像进一步转化为视觉Token——即模型内部可处理的数字化表征，为语言模块的后续理解与推理提供输入。

L——Language（语言模块）

语言模块是VLA的智能中枢，负责解读视觉模块传来的信息，并综合语言指令完成推理与决策。其核心架构依托大语言模型，如LLaMA、Qwen等。该模块同时处理两类输入：一类是视觉模块传来的感知数据，即摄像头与传感器采集的画面经视觉编码器转化后形成的、语言模块可识别的数据格式；另一类是文本信息，涵盖用户设定的导航目的地、系统内嵌的交通规则，或直接向车辆发出的语音指令。接收两类输入后，语言模块并不输出自然语言描述，而是生成一种结构化的行动意图指令——Action Token，直接传递给动作模块，由后者解码为方向盘转角、油门深度及刹车力度等控制信号。这也是VLA与VLM的根本分野：VLM仅停留在语言描述层面无法驱动行为，而VLA的语言模块在完成推理后直接将决策交由执行系统落地。

然而，语言模块需要理解的语言复杂度远超"下个路口左转"这类简单指令。在自动驾驶数据标注环节，标注人员会用自然语言描述场景中潜藏的风险，例如"前方有行人横穿，自车未减速，存在弱势道路使用者碰撞隐患"。这类语义描述作为关键训练数据输入语言模块，使其在遇到相似场景时能够识别风险并做出合理判断。语言模块的语义理解能力，很大程度上取决于此类真实场景下高质量语义标注的积累。

A——Action（动作模块）

动作模块是VLA的执行末端，负责将语言模块输出的Action Token转化为车辆可实际执行的控制指令。其输出呈现为两种形式：一是直接输出底层控制量，包括方向盘转角、油门开度与刹车强度；二是生成未来数秒的行驶轨迹，即规划出车辆即将遵循的路径，再交由底层控制系统具体执行。作为VLA闭环中最终且至关重要的一环，动作模块的表现直接决定系统的整体效能。视觉模块感知环境，语言模块完成推理，但若动作模块输出的控制指令不够精准或不够平顺，前序模块的优势便无从体现。乘客的实际体验——无论是丝滑的行驶质感，还是突兀的急刹与抖动，皆由该模块的精准度所决定。

VLA的核心优势

削弱模块间的信息损耗
传统自动驾驶架构将感知、预测、规划与控制拆分为多个独立子系统，信息每经历一次传递就可能产生偏差，而且一旦出错难以追溯问题出在哪个环节。 VLA将这些功能整合在单一模型之内，信息在内部直接流转，从而大幅减少了中间传递过程引入的误差。
具备复杂语义场景的理解力
传统端到端模型面对训练数据中从未出现过的情境时往往束手无策。VLA继承了大语言模型的常识推理能力，能够理解"前方是学校区域需减速""路口有交警指挥应服从让行"等语义信息，因而在处理复杂与陌生场景时更具优势。
决策更周全，执行更稳健
VLA在生成控制指令时，并非仅依赖当前帧的图像信息，还会综合考量当前车速、历史动作序列等状态信息。这让系统在复杂路况下表现更为沉稳，也能更出色地完成需要连续多步操作的长距离驾驶任务。
响应更敏捷
相比传统模块化系统，VLA省去了模块间信息传递的等待开销，整体响应速度有所提升。但由于引入了语言推理层，计算负担也随之加重，其速度未必优于纯粹的端到端模型。这也是小鹏VLA 2.0特别移除语言转译层、将推理延迟压缩至80毫秒的原因——在响应速度与智能水平之间找到有效平衡。 ## VLA仍需跨越的挑战尽管VLA在自动驾驶领域前景广阔，但目前仍有两大核心难题悬而未决。
模型泛化能力仍显不足
VLA能有效应对其"见过"的场景，但现实道路的复杂程度远非任何训练数据集所能穷尽。换一座城市、遇到特殊天气、碰上施工导流或交警手势指挥，模型常常力不从心。

更深层的原因在于，仿真环境与真实道路之间始终存在差异——光照条件、物体材质、其他交通参与者的行为模式等都与现实存在细微偏差，导致模型在仿真中学到的知识无法完全迁移到真实场景。

当前行业采取双轨并行的应对策略：一方面持续扩大真实场景的数据采集范围，另一方面借助仿真平台生成极端场景数据作为补充。然而这种方式成本高昂、周期漫长，是一场旷日持久的投入战。
安全可靠性尚未充分验证
VLA的语言推理能力使其比传统端到端模型更智能，但智能并不等同于安全。在强光、雨雾或硬件故障等极端条件下，传感器可能出现感知失效；在高度模糊的场景中，语言推理模块也可能输出错误判断，进而引发危险的控制指令。

因此，工程层面必须引入额外的保障机制——当模型置信度低于阈值时，接管机制立即提示驾驶员介入；当主模型出现异常时，备用机制会迅速切换至保守策略，例如减速并靠边停车。

换言之，VLA的智能负责处理常规与复杂场景，而安全机制则负责在模型失效时守住最后一道防线。总体来看，无论是小鹏VLA 2.0的量产落地、理想MindVLA的发布，还是ICLR会议上VLA相关论文数量在三年内增长两个数量级，都在印证同一趋势——VLA正成为自动驾驶领域的下一代核心范式。但这条路远未走到尽头。

从技术层面看，VLA仍在快速迭代。如何进一步缩小仿真与现实的差距、如何让模型以更少的数据适应新城市与新场景、如何在保持智能推理能力的同时进一步压低延迟——这些问题尚无标准答案，各车企与研究机构正沿着不同路径进行探索。

从行业层面看，VLA的意义不仅在于提升车辆驾驶能力。它第一次让自动驾驶系统具备了"理解世界"的能力，而不仅仅是"执行规则"。这一转变，或许正是从辅助驾驶迈向真正无人驾驶最关键的一步。

值得关注的是，VLA的底层框架同样适用于机器人、无人机等其他需要感知环境并执行行动的物理设备。自动驾驶只是其落地最快的一个场景，但绝不会是终点。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

萧十郎

手记
篇

粉丝

38

获赞与收藏

170

关注作者，订阅最新文章

阅读免费教程

Python 算法入门教程

15个小节 30692 1183

算法入门教程

15个小节 33784 718

后端通用面试教程

41个小节 33050 373

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

揭秘VLA：自动驾驶的全新范式

V——视觉模块

L——Language（语言模块）

A——Action（动作模块）

阅读免费教程