随着大语言模型与视觉语言模型逐步展现出强大的理解、推理与任务规划能力,如何在保证实时性、可验证性与工程可部署性的前提下,将高层语义决策稳定地传递到规划与控制层,成为具身智能系统迈向真实落地的一项关键挑战。 针对这一问题,深圳市大数据研究院、香港中文大学(深圳)、中国科学院深圳先进技术研究院、澳门大学研究团队在论文“Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning”提出了Agentic Fast-Slow Planning(AFSP)分层框架,聚焦大模型推理与自动驾驶实时控制之间的“桥接”问题。 该框架核心思路是“快慢结合”:AFSP将感知、推理、规划与控制按时间尺度解耦——大模型负责慢速、高层的语义理解与决策,经典规划器负责可解释的长程轨迹生成,MPC控制器负责快速闭环跟踪与安全执行。实验数据验证了这条路的效果:在CARLA仿真场景中,AFSP相比纯MPC和A*引导的MPC基线,展现出更强的鲁棒性与效率——最大横向偏差最高降低约45%,任务完成时间缩短超过12%。 近年来,大模型正逐步从“感知工具”演变为自主系统中的“推理引擎”。在自动驾驶中,它们有望承担复杂场景理解、风险判断与任务决策等高层认知工作。 然而,一旦继续向下延伸到轨迹规划和底层控制,就会立即遇到一个核心矛盾:大模型能力强,但时延高、输出形式偏语言;控制与优化模块则需要低延迟、可验证、可部署。 已有研究主要沿着两条路线推进:一类尝试让大模型直接输出轨迹或控制参数,虽然形式上“端到端”,但往往脆弱、难验证,也难以满足实时闭环的工程约束;另一类则让大模型在线调整 MPC 目标或参数,在一定程度上缓解了运行问题,却将慢速推理与快速控制混在一起,仍然没有真正回答“高层语义如何稳定影响中层规划”的问题。 也正因如此,“快慢思考”框架的价值不仅在于把大模型从实时环路中解放出来,更在于建立一套跨层桥接逻辑:让慢速的大模型负责理解和决策,让快速的经典模块负责执行,并通过清晰、可解释的接口把两者连接起来。AFSP 正是在这一思路下提出的。 如果直接把原始图像送入大模型,不仅计算开销高、带宽成本大,而且图像中还包含大量与驾驶决策无关的细节。为此,AFSP 采用一种更加 task-oriented 的表示方式:先在端侧使用轻量化 VLM 提取交通场景中的拓扑图,仅保留车辆、障碍物、距离、方位、相对关系等与决策最相关的结构信息;再将这一紧凑的拓扑表示送往云端,由 LLM 输出符号化驾驶决策,例如 LEFT、RIGHT、KEEP 以及相应驾驶风格。 这种做法的关键并不只是“压缩数据”,而是把视觉输入转换为更贴近交通决策逻辑的中间表示。它让大模型的推理聚焦于真正相关的结构关系,减少冗余视觉细节干扰,也为下游规划层提供了清晰、可解释的语义接口。 大模型天然擅长输出语言,但并不擅长直接给出长程、可执行、可验证的轨迹。相较之下,VLA 或 VLN 类方法虽然能够输出参考轨迹,但本质上仍然是在学习“轨迹本身”,在长程一致性、可解释性与工程稳定性方面仍存在挑战。AFSP 的思路不是要求 LLM 直接生成完整轨迹,而是只保留其中真正有价值的“交通决策逻辑”,再将这些逻辑翻译为对经典规划算法有意义的启发式代价。 具体来说,AFSP 将 LLM 输出的语义决策注入 A* 规划器,以软约束(soft semantic cost)的方式影响搜索过程。这样做有两个好处:一方面,可以让生成轨迹朝着符合语义意图的方向偏置;另一方面,又避免把语言决策当作硬约束,从而保留经典搜索在几何可行性与鲁棒性上的优势。换句话说,系统不是让大模型“替代”传统规划,而是让大模型以一种可落地、可解释的方式“指导”传统规划。 仅有语义引导还不够,经典规划算法在实际使用中往往还依赖大量经验性超参数。研究团队观察到,不同超参数会显著影响路径生成的行为:有的会导致动作过早发生,有的会造成语义不匹配,还有的会引入不必要的振荡。这意味着,即便桥接逻辑设计得再好,如果仍然依赖人工反复调参,系统的可迁移性与可部署性也会受到限制。 为此,AFSP 进一步引入 Agentic Refinement Module。该模块借助大模型的推理能力,把“观察反馈—分析问题—调整参数—再次尝试”的人工调参流程自动化:系统会从云端记忆中检索相似场景的初始参数配置,再根据当前轨迹反馈迭代优化超参数,直到获得更合适的规划结果。由此,AFSP 不仅让大模型参与高层决策,也让其参与规划器的自适应优化。 在 Perception2Decision 部分,团队首先验证拓扑表示是否足以支撑大模型决策。实验结果表明,在相同提示词下,基于拓扑图输入的 LLM 能够获得与 VLM 直接决策相近的结果,同时显著降低推理时间:场景决策匹配得分平均达到 0.73,而平均推理时延从 VLM 方案的 10.24 秒降低到 4.13 秒。 在 Decision2Trajectory 部分,团队考察了地图偏移与障碍物扰动条件下的路径生成行为。结果显示,普通 A* 在环境发生轻微变化时,容易偏离预期决策语义;而引入语义引导后,规划结果在 Shift 1、Shift 2、Shift 3 等不同设定下仍能较好保持 left / keep / right 等高层交通意图,体现出更强的长程一致性与鲁棒性。 这也从另一个侧面验证了 AFSP 的桥接逻辑:大模型不必直接生成长程轨迹,只要把高层决策稳定地翻译为中层规划中的代价偏置,就可以让经典搜索自然地生成更符合语义意图的路径。 在完整系统层面,研究团队将 AFSP 与纯 MPC 以及 A* + MPC 两个基线进行比较。实验分别在正常地图和多种扰动地图下重复开展,评价指标包括完成时间、轨迹长度、平均横向偏差、速度波动和最大横向偏差。结果显示,AFSP 在三种场景下均取得了更优或更稳健的表现:平均完成时间相比纯 MPC 缩短约 12%,相比 A* 缩短约 11%;最大横向偏差相比纯 MPC 下降约 45%,相比 A* 下降约 35%。 这表明,AFSP 不只是“想法新”,更重要的是它在不牺牲传统优化方法稳定性与可部署性的前提下,真正把大模型的认知与推理能力系统性地融入了自主系统决策闭环。 整体来看,AFSP试图回答的并非“大模型能否指导具身智能实时控制”,而是“能否以工程可落地、系统可解释的方式,使其真正具备这一能力”。相比直接让大模型接管底层控制,AFSP 选择了一条更稳健的技术路线:把大模型放在其最擅长的认知与推理层,把经典算法放在其最擅长的规划与控制层,再通过清晰的接口完成跨层桥接。 从这个意义上说,AFSP 不仅是一种具体方法,也代表了一种面向真实自主系统的设计范式:先做结构化抽象,再做语义决策;先保留高层逻辑,再翻译为中层规划偏置;在此基础上结合反馈闭环,实现持续自适应优化。未来,这一方向有望进一步推动大模型从“会说、会看”走向“能落地、可部署、可验证”的真实自主系统应用。 2024年本科毕业于北京邮电大学,现为香港中文大学(深圳)-深圳市大数据研究院联合培养博士生。研究方向为具身智能,聚焦快慢思考架构下的大模型与底层控制算法协同系统设计。 朱光旭,国家级青年人才,深圳市大数据研究院,网络与机器智能研究中心常务副主任、研究员,香港中文大学(深圳)客座副教授、博士生导师。主要研究兴趣包括:分布式机器学习,多模态感知,网络智能,具身智能等。现任IEEE TMC 与 TWC 等计算与通信领域国际顶级期刊编委,IEEE 通信学会青年专业委员会副主席,曾获IEEE通信学会亚太区最杰出青年学者奖(年度亚太区唯一)以及最佳论文奖、中国通信学会自然科学一等奖、吴文俊人工智能青年科技奖,浙江省自然科学二等奖,中国电子学会自然科学二等奖等荣誉,主持包括国自然青年科学基金(B类)及面青项目、国家重点研发计划子课题、广东省基础研究重大项目课题、广东省青年拔尖人才等国家级省部级项目课题、以及华为,中移动、中国信通院等产研合作课题十余项。






