ICRA 2026 收录成果：Agentic Fast-Slow Planning打通大模型推理与实时控制，让具身智能更稳、更快|大模型|拓扑|推理|新论文|算法|翻译|鲁棒性

原文作者：公众号“深圳市大数据研究院”

原文链接：https://mp.weixin.qq.com/s/j3Ph76mVsyunjALjcCp0Sg

编者按：

随着大语言模型与视觉语言模型逐步展现出强大的理解、推理与任务规划能力，如何在保证实时性、可验证性与工程可部署性的前提下，将高层语义决策稳定地传递到规划与控制层，成为具身智能系统迈向真实落地的一项关键挑战。

针对这一问题，深圳市大数据研究院、香港中文大学（深圳）、中国科学院深圳先进技术研究院、澳门大学研究团队在论文“Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning”提出了Agentic Fast-Slow Planning（AFSP）分层框架，聚焦大模型推理与自动驾驶实时控制之间的“桥接”问题。

该框架核心思路是“快慢结合”：AFSP将感知、推理、规划与控制按时间尺度解耦——大模型负责慢速、高层的语义理解与决策，经典规划器负责可解释的长程轨迹生成，MPC控制器负责快速闭环跟踪与安全执行。实验数据验证了这条路的效果：在CARLA仿真场景中，AFSP相比纯MPC和A*引导的MPC基线，展现出更强的鲁棒性与效率——最大横向偏差最高降低约45%，任务完成时间缩短超过12%。

这意味着，AFSP不仅在技术上打通了“大模型推理→实时控制”的关键路径，也在实际驾驶任务中同时做到了更稳、更快、更安全。

该论文现已被 ICRA 2026接收，作者为陈嘉易、王帅、朱光旭、须成忠。

论文链接：

https://arxiv.org/abs/2604.01681

Github 链接：

https://github.com/cjychenjiayi/icra2026_AFSP

图1：Agentic Fast-Slow Planning 概念层级图。大模型负责慢速语义决策，A* 负责中层路径规划，MPC 负责快速闭环控制。

研究背景

近年来，大模型正逐步从“感知工具”演变为自主系统中的“推理引擎”。在自动驾驶中，它们有望承担复杂场景理解、风险判断与任务决策等高层认知工作。

然而，一旦继续向下延伸到轨迹规划和底层控制，就会立即遇到一个核心矛盾：大模型能力强，但时延高、输出形式偏语言；控制与优化模块则需要低延迟、可验证、可部署。

已有研究主要沿着两条路线推进：一类尝试让大模型直接输出轨迹或控制参数，虽然形式上“端到端”，但往往脆弱、难验证，也难以满足实时闭环的工程约束；另一类则让大模型在线调整 MPC 目标或参数，在一定程度上缓解了运行问题，却将慢速推理与快速控制混在一起，仍然没有真正回答“高层语义如何稳定影响中层规划”的问题。

也正因如此，“快慢思考”框架的价值不仅在于把大模型从实时环路中解放出来，更在于建立一套跨层桥接逻辑：让慢速的大模型负责理解和决策，让快速的经典模块负责执行，并通过清晰、可解释的接口把两者连接起来。AFSP 正是在这一思路下提出的。

核心方法

图2：AFSP 系统架构图。系统通过 Perception2Decision 与 Decision2Trajectory 两座桥，将拓扑感知、语义决策、路径生成与实时控制连接起来。

Perception2Decision：

只保留与交通决策最相关的信息

如果直接把原始图像送入大模型，不仅计算开销高、带宽成本大，而且图像中还包含大量与驾驶决策无关的细节。为此，AFSP 采用一种更加 task-oriented 的表示方式：先在端侧使用轻量化 VLM 提取交通场景中的拓扑图，仅保留车辆、障碍物、距离、方位、相对关系等与决策最相关的结构信息；再将这一紧凑的拓扑表示送往云端，由 LLM 输出符号化驾驶决策，例如 LEFT、RIGHT、KEEP 以及相应驾驶风格。

这种做法的关键并不只是“压缩数据”，而是把视觉输入转换为更贴近交通决策逻辑的中间表示。它让大模型的推理聚焦于真正相关的结构关系，减少冗余视觉细节干扰，也为下游规划层提供了清晰、可解释的语义接口。

图3：Perception2Decision 示例。端侧 VLM 从图像中提取拓扑关系，云端 LLM 在此基础上输出结构化驾驶决策与驾驶风格。

图4：VLM 微调数据格式与两阶段训练策略。模型学习将前视图像转换为包含类别、位置、距离、方向的结构化拓扑描述。

Decision2Trajectory：

让擅长输出语言的大模型稳定影响长程轨迹

大模型天然擅长输出语言，但并不擅长直接给出长程、可执行、可验证的轨迹。相较之下，VLA 或 VLN 类方法虽然能够输出参考轨迹，但本质上仍然是在学习“轨迹本身”，在长程一致性、可解释性与工程稳定性方面仍存在挑战。AFSP 的思路不是要求 LLM 直接生成完整轨迹，而是只保留其中真正有价值的“交通决策逻辑”，再将这些逻辑翻译为对经典规划算法有意义的启发式代价。

具体来说，AFSP 将 LLM 输出的语义决策注入 A* 规划器，以软约束（soft semantic cost）的方式影响搜索过程。这样做有两个好处：一方面，可以让生成轨迹朝着符合语义意图的方向偏置；另一方面，又避免把语言决策当作硬约束，从而保留经典搜索在几何可行性与鲁棒性上的优势。换句话说，系统不是让大模型“替代”传统规划，而是让大模型以一种可落地、可解释的方式“指导”传统规划。

图5：Semantic-Guided A* 的语义代价设计与调参观察。左侧展示 Correct / Delay / Wrong / Overact 四类语义代价，右侧展示不同超参数对轨迹行为的影响。

Agentic Refinement：

把“人工调参”变成“智能调参”

仅有语义引导还不够，经典规划算法在实际使用中往往还依赖大量经验性超参数。研究团队观察到，不同超参数会显著影响路径生成的行为：有的会导致动作过早发生，有的会造成语义不匹配，还有的会引入不必要的振荡。这意味着，即便桥接逻辑设计得再好，如果仍然依赖人工反复调参，系统的可迁移性与可部署性也会受到限制。

为此，AFSP 进一步引入 Agentic Refinement Module。该模块借助大模型的推理能力，把“观察反馈—分析问题—调整参数—再次尝试”的人工调参流程自动化：系统会从云端记忆中检索相似场景的初始参数配置，再根据当前轨迹反馈迭代优化超参数，直到获得更合适的规划结果。由此，AFSP 不仅让大模型参与高层决策，也让其参与规划器的自适应优化。

图6：Agentic Refinement 自动调参案例。系统从初始参数出发，观察动作发生过早等问题，并逐步降低 C_DELAY，使语义动作与障碍物边界更好对齐。

实验验证

拓扑输入能降低时延，同时保留决策质量

在 Perception2Decision 部分，团队首先验证拓扑表示是否足以支撑大模型决策。实验结果表明，在相同提示词下，基于拓扑图输入的 LLM 能够获得与 VLM 直接决策相近的结果，同时显著降低推理时间：场景决策匹配得分平均达到 0.73，而平均推理时延从 VLM 方案的 10.24 秒降低到 4.13 秒。

表1：VLM 微调策略对比。两阶段微调在类别错误率、距离/方向误差等指标上取得较好平衡。

图7：LLM 与 VLM 决策的一致性得分分布及推理时延分布。拓扑图输入在保持较好决策质量的同时显著降低推理时间

语义引导 A* 提升长程意图一致性

在 Decision2Trajectory 部分，团队考察了地图偏移与障碍物扰动条件下的路径生成行为。结果显示，普通 A* 在环境发生轻微变化时，容易偏离预期决策语义；而引入语义引导后，规划结果在 Shift 1、Shift 2、Shift 3 等不同设定下仍能较好保持 left / keep / right 等高层交通意图，体现出更强的长程一致性与鲁棒性。

这也从另一个侧面验证了 AFSP 的桥接逻辑：大模型不必直接生成长程轨迹，只要把高层决策稳定地翻译为中层规划中的代价偏置，就可以让经典搜索自然地生成更符合语义意图的路径。

图8：Semantic-Guided A* 在不同地图扰动下的路径生成结果。相比普通 A*，语义引导路径更能保持指定驾驶意图。Guide1 = [right, keep, left], Guide2 = [left, keep, right], Guide3 = [left, left].

CARLA 闭环验证：更快、更稳、更可解释

图9：CARLA 实验场景示意。车辆需要在包含多类障碍物的道路环境中完成从起点到终点的导航。

在完整系统层面，研究团队将 AFSP 与纯 MPC 以及 A* + MPC 两个基线进行比较。实验分别在正常地图和多种扰动地图下重复开展，评价指标包括完成时间、轨迹长度、平均横向偏差、速度波动和最大横向偏差。结果显示，AFSP 在三种场景下均取得了更优或更稳健的表现：平均完成时间相比纯 MPC 缩短约 12%，相比 A* 缩短约 11%；最大横向偏差相比纯 MPC 下降约 45%，相比 A* 下降约 35%。

图10：Scenario 2 中 A* 与 AFSP 的轨迹细节对比。AFSP 在扰动地图下仍能保持更稳健的路径行为。

这表明，AFSP 不只是“想法新”，更重要的是它在不牺牲传统优化方法稳定性与可部署性的前提下，真正把大模型的认知与推理能力系统性地融入了自主系统决策闭环。

图11：三种规划与控制方案在 Scenario 1 中的表现对比。AFSP 能生成更平滑、更符合动态可行性的轨迹。

图12：完成时间与最大横向偏差对比。AFSP 在三个场景中均表现出更短完成时间和更低最大横向偏差。

表2：CARLA 闭环实验量化对比。指标包括完成时间、轨迹长度、平均横向偏差、速度变化和最大横向偏差。

总结与展望

整体来看，AFSP试图回答的并非“大模型能否指导具身智能实时控制”，而是“能否以工程可落地、系统可解释的方式，使其真正具备这一能力”。相比直接让大模型接管底层控制，AFSP 选择了一条更稳健的技术路线：把大模型放在其最擅长的认知与推理层，把经典算法放在其最擅长的规划与控制层，再通过清晰的接口完成跨层桥接。

从这个意义上说，AFSP 不仅是一种具体方法，也代表了一种面向真实自主系统的设计范式：先做结构化抽象，再做语义决策；先保留高层逻辑，再翻译为中层规划偏置；在此基础上结合反馈闭环，实现持续自适应优化。未来，这一方向有望进一步推动大模型从“会说、会看”走向“能落地、可部署、可验证”的真实自主系统应用。

研究团队

陈嘉易第一作者

香港中文大学（深圳）-深圳市大数据研究院联培博士生

2024年本科毕业于北京邮电大学，现为香港中文大学（深圳）-深圳市大数据研究院联合培养博士生。研究方向为具身智能，聚焦快慢思考架构下的大模型与底层控制算法协同系统设计。

朱光旭 指导导师

深圳市大数据研究院网络与机器智能研究中心，研究员

朱光旭，国家级青年人才，深圳市大数据研究院，网络与机器智能研究中心常务副主任、研究员，香港中文大学（深圳）客座副教授、博士生导师。主要研究兴趣包括：分布式机器学习，多模态感知，网络智能，具身智能等。现任IEEE TMC 与 TWC 等计算与通信领域国际顶级期刊编委，IEEE 通信学会青年专业委员会副主席，曾获IEEE通信学会亚太区最杰出青年学者奖（年度亚太区唯一）以及最佳论文奖、中国通信学会自然科学一等奖、吴文俊人工智能青年科技奖，浙江省自然科学二等奖，中国电子学会自然科学二等奖等荣誉，主持包括国自然青年科学基金（B类）及面青项目、国家重点研发计划子课题、广东省基础研究重大项目课题、广东省青年拔尖人才等国家级省部级项目课题、以及华为，中移动、中国信通院等产研合作课题十余项。

雷峰网