12月28日,小鹏汽车董事长何小鹏发文回应公司与北京大学合作提出的「视觉Token剪枝」新框架。他表示,对在实现L4级自动驾驶的进程中取得又一重要进展感到欣喜。未来,小鹏将持续深耕物理AI领域,第二代VLA技术将为用户带来更出色的智能驾驶体验。
据相关介绍,人工智能领域的国际学术会议AAAI 2026近日公布论文录用名单,由小鹏汽车与北京大学计算机学院多媒体信息处理全国重点实验室联合撰写的论文FastDriveVLA:基于即插即用重建机制的高效端到端驾驶视觉Token剪枝成功入选。
该论文的核心成果是提出了一套专为端到端自动驾驶VLA模型设计的高效视觉Token剪枝框架——FastDriveVLA。该框架配备了一个名为ReconPruner的即插即用型视觉Token剪枝器,在车载模型推理过程中可直接集成至现有VLA模型中进行视觉Token压缩,无需对主干网络重新训练,部署灵活便捷。
为支持ReconPruner的有效训练,研究团队还构建了nuScenes-FG数据集,包含来自六个摄像头视角的24.1万组图像-掩码对,是目前规模较大的自动驾驶前景分割标注数据集,具备较强的通用性,可为后续相关研究提供支持。
在nuScenes自动驾驶数据集上的实验结果表明,该剪枝框架在不同剪枝比例下均达到了当前最优性能。当25%的视觉Token被剪除时,驾驶性能基本不受影响,L2轨迹误差和碰撞率甚至优于未剪枝的基准模型;在50% Token剪枝率下,各项指标表现更为均衡。同时,VLA模型的推理速度得到显著提升,计算资源消耗有效降低。
此次由企业与高校联合完成的技术探索,不仅确立了面向端到端自动驾驶模型的高效视觉Token剪枝新方法,也为大模型在车载终端的高效部署提供了切实可行的技术路径,树立了车规级大模型落地应用的新标准。

评论
更多评论