原文作者:公众号“深圳市大数据研究院”

原文链接:https://mp.weixin.qq.com/s/j3Ph76mVsyunjALjcCp0Sg

编者按:

随着大语言模型与视觉语言模型逐步展现出强大的理解、推理与任务规划能力,如何在保证实时性、可验证性与工程可部署性的前提下,将高层语义决策稳定地传递到规划与控制层,成为具身智能系统迈向真实落地的一项关键挑战。

针对这一问题,深圳市大数据研究院、香港中文大学(深圳)、中国科学院深圳先进技术研究院、澳门大学研究团队在论文“Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning”提出了Agentic Fast-Slow Planning(AFSP)分层框架,聚焦大模型推理与自动驾驶实时控制之间的“桥接”问题。

该框架核心思路是“快慢结合”:AFSP将感知、推理、规划与控制按时间尺度解耦——大模型负责慢速、高层的语义理解与决策,经典规划器负责可解释的长程轨迹生成,MPC控制器负责快速闭环跟踪与安全执行。实验数据验证了这条路的效果:在CARLA仿真场景中,AFSP相比纯MPC和A*引导的MPC基线,展现出更强的鲁棒性与效率——最大横向偏差最高降低约45%,任务完成时间缩短超过12%。

这意味着,AFSP不仅在技术上打通了“大模型推理→实时控制”的关键路径,也在实际驾驶任务中同时做到了更稳、更快、更安全。

该论文现已被 ICRA 2026接收,作者为陈嘉易、王帅、朱光旭、须成忠。

论文链接:

https://arxiv.org/abs/2604.01681

Github 链接:

https://github.com/cjychenjiayi/icra2026_AFSP

打开网易新闻 查看精彩图片

图1:Agentic Fast-Slow Planning 概念层级图。大模型负责慢速语义决策,A* 负责中层路径规划,MPC 负责快速闭环控制。

打开网易新闻 查看精彩图片

研究背景

近年来,大模型正逐步从“感知工具”演变为自主系统中的“推理引擎”。在自动驾驶中,它们有望承担复杂场景理解、风险判断与任务决策等高层认知工作。

然而,一旦继续向下延伸到轨迹规划和底层控制,就会立即遇到一个核心矛盾:大模型能力强,但时延高、输出形式偏语言;控制与优化模块则需要低延迟、可验证、可部署。

已有研究主要沿着两条路线推进:一类尝试让大模型直接输出轨迹或控制参数,虽然形式上“端到端”,但往往脆弱、难验证,也难以满足实时闭环的工程约束;另一类则让大模型在线调整 MPC 目标或参数,在一定程度上缓解了运行问题,却将慢速推理与快速控制混在一起,仍然没有真正回答“高层语义如何稳定影响中层规划”的问题。

也正因如此,“快慢思考”框架的价值不仅在于把大模型从实时环路中解放出来,更在于建立一套跨层桥接逻辑:让慢速的大模型负责理解和决策,让快速的经典模块负责执行,并通过清晰、可解释的接口把两者连接起来。AFSP 正是在这一思路下提出的。

打开网易新闻 查看精彩图片

核心方法

打开网易新闻 查看精彩图片

图2:AFSP 系统架构图。系统通过 Perception2Decision 与 Decision2Trajectory 两座桥,将拓扑感知、语义决策、路径生成与实时控制连接起来。

Perception2Decision:

只保留与交通决策最相关的信息

如果直接把原始图像送入大模型,不仅计算开销高、带宽成本大,而且图像中还包含大量与驾驶决策无关的细节。为此,AFSP 采用一种更加 task-oriented 的表示方式:先在端侧使用轻量化 VLM 提取交通场景中的拓扑图,仅保留车辆、障碍物、距离、方位、相对关系等与决策最相关的结构信息;再将这一紧凑的拓扑表示送往云端,由 LLM 输出符号化驾驶决策,例如 LEFT、RIGHT、KEEP 以及相应驾驶风格。

这种做法的关键并不只是“压缩数据”,而是把视觉输入转换为更贴近交通决策逻辑的中间表示。它让大模型的推理聚焦于真正相关的结构关系,减少冗余视觉细节干扰,也为下游规划层提供了清晰、可解释的语义接口。

打开网易新闻 查看精彩图片

图3:Perception2Decision 示例。端侧 VLM 从图像中提取拓扑关系,云端 LLM 在此基础上输出结构化驾驶决策与驾驶风格。

打开网易新闻 查看精彩图片

图4:VLM 微调数据格式与两阶段训练策略。模型学习将前视图像转换为包含类别、位置、距离、方向的结构化拓扑描述。

Decision2Trajectory:

让擅长输出语言的大模型稳定影响长程轨迹

大模型天然擅长输出语言,但并不擅长直接给出长程、可执行、可验证的轨迹。相较之下,VLA 或 VLN 类方法虽然能够输出参考轨迹,但本质上仍然是在学习“轨迹本身”,在长程一致性、可解释性与工程稳定性方面仍存在挑战。AFSP 的思路不是要求 LLM 直接生成完整轨迹,而是只保留其中真正有价值的“交通决策逻辑”,再将这些逻辑翻译为对经典规划算法有意义的启发式代价。

具体来说,AFSP 将 LLM 输出的语义决策注入 A* 规划器,以软约束(soft semantic cost)的方式影响搜索过程。这样做有两个好处:一方面,可以让生成轨迹朝着符合语义意图的方向偏置;另一方面,又避免把语言决策当作硬约束,从而保留经典搜索在几何可行性与鲁棒性上的优势。换句话说,系统不是让大模型“替代”传统规划,而是让大模型以一种可落地、可解释的方式“指导”传统规划。

打开网易新闻 查看精彩图片

图5:Semantic-Guided A* 的语义代价设计与调参观察。左侧展示 Correct / Delay / Wrong / Overact 四类语义代价,右侧展示不同超参数对轨迹行为的影响。

Agentic Refinement:

把“人工调参”变成“智能调参”

仅有语义引导还不够,经典规划算法在实际使用中往往还依赖大量经验性超参数。研究团队观察到,不同超参数会显著影响路径生成的行为:有的会导致动作过早发生,有的会造成语义不匹配,还有的会引入不必要的振荡。这意味着,即便桥接逻辑设计得再好,如果仍然依赖人工反复调参,系统的可迁移性与可部署性也会受到限制。

为此,AFSP 进一步引入 Agentic Refinement Module。该模块借助大模型的推理能力,把“观察反馈—分析问题—调整参数—再次尝试”的人工调参流程自动化:系统会从云端记忆中检索相似场景的初始参数配置,再根据当前轨迹反馈迭代优化超参数,直到获得更合适的规划结果。由此,AFSP 不仅让大模型参与高层决策,也让其参与规划器的自适应优化。

打开网易新闻 查看精彩图片

图6:Agentic Refinement 自动调参案例。系统从初始参数出发,观察动作发生过早等问题,并逐步降低 C_DELAY,使语义动作与障碍物边界更好对齐。

打开网易新闻 查看精彩图片

实验验证

拓扑输入能降低时延,同时保留决策质量

在 Perception2Decision 部分,团队首先验证拓扑表示是否足以支撑大模型决策。实验结果表明,在相同提示词下,基于拓扑图输入的 LLM 能够获得与 VLM 直接决策相近的结果,同时显著降低推理时间:场景决策匹配得分平均达到 0.73,而平均推理时延从 VLM 方案的 10.24 秒降低到 4.13 秒。

打开网易新闻 查看精彩图片

表1:VLM 微调策略对比。两阶段微调在类别错误率、距离/方向误差等指标上取得较好平衡。

打开网易新闻 查看精彩图片

图7:LLM 与 VLM 决策的一致性得分分布及推理时延分布。拓扑图输入在保持较好决策质量的同时显著降低推理时间

语义引导 A* 提升长程意图一致性

在 Decision2Trajectory 部分,团队考察了地图偏移与障碍物扰动条件下的路径生成行为。结果显示,普通 A* 在环境发生轻微变化时,容易偏离预期决策语义;而引入语义引导后,规划结果在 Shift 1、Shift 2、Shift 3 等不同设定下仍能较好保持 left / keep / right 等高层交通意图,体现出更强的长程一致性与鲁棒性。

这也从另一个侧面验证了 AFSP 的桥接逻辑:大模型不必直接生成长程轨迹,只要把高层决策稳定地翻译为中层规划中的代价偏置,就可以让经典搜索自然地生成更符合语义意图的路径。

打开网易新闻 查看精彩图片

图8:Semantic-Guided A* 在不同地图扰动下的路径生成结果。相比普通 A*,语义引导路径更能保持指定驾驶意图。Guide1 = [right, keep, left], Guide2 = [left, keep, right], Guide3 = [left, left].

CARLA 闭环验证:更快、更稳、更可解释

打开网易新闻 查看精彩图片

图9:CARLA 实验场景示意。车辆需要在包含多类障碍物的道路环境中完成从起点到终点的导航。

在完整系统层面,研究团队将 AFSP 与纯 MPC 以及 A* + MPC 两个基线进行比较。实验分别在正常地图和多种扰动地图下重复开展,评价指标包括完成时间、轨迹长度、平均横向偏差、速度波动和最大横向偏差。结果显示,AFSP 在三种场景下均取得了更优或更稳健的表现:平均完成时间相比纯 MPC 缩短约 12%,相比 A* 缩短约 11%;最大横向偏差相比纯 MPC 下降约 45%,相比 A* 下降约 35%。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

图10:Scenario 2 中 A* 与 AFSP 的轨迹细节对比。AFSP 在扰动地图下仍能保持更稳健的路径行为。

这表明,AFSP 不只是“想法新”,更重要的是它在不牺牲传统优化方法稳定性与可部署性的前提下,真正把大模型的认知与推理能力系统性地融入了自主系统决策闭环。

打开网易新闻 查看精彩图片

图11:三种规划与控制方案在 Scenario 1 中的表现对比。AFSP 能生成更平滑、更符合动态可行性的轨迹。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

图12:完成时间与最大横向偏差对比。AFSP 在三个场景中均表现出更短完成时间和更低最大横向偏差。

打开网易新闻 查看精彩图片

表2:CARLA 闭环实验量化对比。指标包括完成时间、轨迹长度、平均横向偏差、速度变化和最大横向偏差。

打开网易新闻 查看精彩图片

总结与展望

整体来看,AFSP试图回答的并非“大模型能否指导具身智能实时控制”,而是“能否以工程可落地、系统可解释的方式,使其真正具备这一能力”。相比直接让大模型接管底层控制,AFSP 选择了一条更稳健的技术路线:把大模型放在其最擅长的认知与推理层,把经典算法放在其最擅长的规划与控制层,再通过清晰的接口完成跨层桥接。

从这个意义上说,AFSP 不仅是一种具体方法,也代表了一种面向真实自主系统的设计范式:先做结构化抽象,再做语义决策;先保留高层逻辑,再翻译为中层规划偏置;在此基础上结合反馈闭环,实现持续自适应优化。未来,这一方向有望进一步推动大模型从“会说、会看”走向“能落地、可部署、可验证”的真实自主系统应用。

打开网易新闻 查看精彩图片

研究团队

打开网易新闻 查看精彩图片

陈嘉易 第一作者

香港中文大学(深圳)-深圳市大数据研究院联培博士生

2024年本科毕业于北京邮电大学,现为香港中文大学(深圳)-深圳市大数据研究院联合培养博士生。研究方向为具身智能,聚焦快慢思考架构下的大模型与底层控制算法协同系统设计。

打开网易新闻 查看精彩图片

朱光旭 指导导师

深圳市大数据研究院网络与机器智能研究中心,研究员

朱光旭,国家级青年人才,深圳市大数据研究院,网络与机器智能研究中心常务副主任、研究员,香港中文大学(深圳)客座副教授、博士生导师。主要研究兴趣包括:分布式机器学习,多模态感知,网络智能,具身智能等。现任IEEE TMC 与 TWC 等计算与通信领域国际顶级期刊编委,IEEE 通信学会青年专业委员会副主席,曾获IEEE通信学会亚太区最杰出青年学者奖(年度亚太区唯一)以及最佳论文奖、中国通信学会自然科学一等奖、吴文俊人工智能青年科技奖,浙江省自然科学二等奖,中国电子学会自然科学二等奖等荣誉,主持包括国自然青年科学基金(B类)及面青项目、国家重点研发计划子课题、广东省基础研究重大项目课题、广东省青年拔尖人才等国家级省部级项目课题、以及华为,中移动、中国信通院等产研合作课题十余项。

雷峰网