来源:市场资讯

(来源:阿木实验室)

在强扰动、极限机动的飞行场景下,无人机控制始终面临一个核心矛盾:要么依赖MPC的物理约束但缺乏灵活性,要么依赖强化学习的探索能力却难以保证安全与泛化。如何同时做到“飞得极限”又“飞得稳定”,一直是敏捷飞行领域的关键难题。

针对这一问题,苏黎世大学UZH RPG 团队在《IEEE Transactions on Robotics》提出AC-MPC(Actor-Critic Model Predictive Control)框架,将可微优化层嵌入强化学习,使策略直接学习MPC代价结构,实现物理约束与学习能力的深度融合。

实验结果显示,该方法在1.5倍重力侧风下仍保持83.33%成功率,并在真实无人机上实现21m/s高速飞行,完成从仿真到现实的零样本迁移。

文末附有论文与开源代码链接,方便您一键直达。如果本文对您有所帮助,欢迎在文末三连:点赞、转发和推荐,支持我们继续创作更多优质内容!

01

研究方法

传统方法的局限性

  • MPC(模型预测控制):依赖固定代价函数,在执行器饱和或复杂任务目标下,容易陷入局部最优,灵活性不足;

  • 强化学习(RL):具备较强探索能力,但在未见干扰或模型失配情况下容易失稳;同时缺乏物理约束,使其在真实环境部署中存在安全风险。

AC-MPC的核心思路

针对这一问题,研究团队提出了AC-MPC框架。其核心思路是利用可微分优化技术,将四旋翼动力学规律直接嵌入端到端学习架构中,使系统同时具备强化学习的探索能力与模型控制的物理约束能力。

不同于传统神经网络直接输出控制动作的做法,该框架让网络输出MPC优化目标中的权重矩阵Q和偏置项p,再由可微MPC层结合动力学模型求解最优控制量。这一设计使得梯度能够穿过物理求解器进行反向传播,从而实现任务奖励对底层代价结构的直接塑造。

打开网易新闻 查看精彩图片

该图刻画了可微分MPC模块如何作为策略网络的核心算子被强行嵌入强化学习环路,通过将感知特征解耦为瞬态代价参数,确保了控制指令在生成瞬态即已内化了物理边界。

02

技术亮点

AC-MPC框架通过嵌入可微优化层,巧妙结合了强化学习的灵活性和MPC的预测能力,在控制效率和泛化性上都取得了突破。

将可微优化层引入策略网络

  • 该框架彻底摒弃神经网络直接映射原始控制动作的传统逻辑,AC-MPC通过构建具备物理映射能力的混合Actor结构,利用多层感知器输出定义MPC优化目标的二次型加权矩阵Q与线性偏置项p。

  • 作为策略网络最后一层算子的可微MPC层接收上述参数,配合内置的四旋翼动力学方程求解二次规划(QP)问题,从而导出满足执行器推力饱和及体速率约束的最优控制指令。

  • 这种层级化设计确保梯度能够穿透物理求解器并反向传播,使得任务级奖励得以直接驱动底层代价结构的进化,并在实证中揭示了习得价值函数(Value Function)的Hessian矩阵与代价矩阵Q之间极高的线性相关度,证实系统已自发学会捕捉状态空间的曲率结构。

打开网易新闻 查看精彩图片

不同代价矩阵参数化方案下的奖励演化对比。实验结果显示,采用对角矩阵(Diagonal)表征的Q矩阵在水平、垂直及Split-S赛道中均显著优于Cholesky或全矩阵表征。这表明在端到端学习底层代价结构时,适度的物理约束与搜索空间简化能极大地提升采样效率。

学习效率与鲁棒性提升

  • AC-MPC在学习效率上的提升非常明显。由于Actor中显式引入了四旋翼动力学模型,系统即使没有先验训练数据,也具备一定的初始规划能力,从而减少大量违反物理规律的无效探索。

  • 在垂直下冲、Split-S等需要复杂三维机动的赛道中,这种物理约束结合模型预测价值扩展(MPVE)机制,使系统能够用更少的交互更快收敛到更优策略。

  • 即使面对高达1.5倍重力的强侧风,AC-MPC仍可借助内置可微优化层在线修正动力学偏差,保持83.33%的任务通过率。依托MPC的短时预测与实时重规划能力,该框架在面对模型失配或未见障碍物时,也能有效抑制系统崩溃与轨迹震荡。

打开网易新闻 查看精彩图片

表1:不同控制算法在复杂赛道与侧向风扰下的任务成功率(SR)及平均速度(v)对比。面对强度达1.5倍重力的瞬时侧向风场,AC-MPC凭借内置可微优化层实现的在线动力学修正,在维持10.76m/s高航速的同时,将任务通过率从纯学习策略(AC-MLP) 的6.5%强力拉升至83.33%,严谨论证了物理约束在解耦分布外气动干扰及抑制轨迹崩溃维度的决定性优势。

极限性能释放

  • AC-MPC在极限竞速任务中生成的推力指令更符合物理规律。与纯强化学习策略相比,它能够更稳定地将硬件性能推向极限,同时避免在临界工况下出现明显震荡。

  • 这种对执行器能力的精准调动,使无人机在垂直俯冲、翻转机动等任务中,能够更准确地预判重力影响,并自主优化爆发推力与姿态切换时机。

  • 该策略通过了21m/s峰值速度的极限测试,并且不需要针对特定硬件进行额外的物理调整,就能直接从仿真环境零样本迁移到真实的极限场景,非常安全可靠。

理论洞察

  • 本研究最大的亮点之一是解开了强化学习的“黑盒”,揭示了神经网络特征与经典控制理论之间的深层联系。线性探测实验严谨地证明了:习得的价值函数的Hessian矩阵,与神经网络输出的代价矩阵Q之间存在极高的线性相关性。

  • 这说明强化学习系统并不是在盲目拟合数据,而是自己学会了捕捉控制任务中的物理代价结构。这个发现不仅帮我们理解了学习型控制器是如何内化物理规律的,也为打造清晰可解释的自主飞行系统提供了理论依据。

打开网易新闻 查看精彩图片

在简单的水平赛道(左)上两者表现相当;但在高难度的垂直赛道(中)和SplitS赛道(右)中,AC-MPC(蓝/黄线)凭借动力学先验,展现出了比AC-MLP(红线)更高的采样效率和最终性能上限。

打开网易新闻 查看精彩图片

实验证实了RL价值函数的曲率结构与神经网络输出的代价矩阵Q之间存在深层物理映射。

03

实验测试

本研究在高度复杂的仿真环境和真实物理场景中进行了全方位验证,以评估AC-MPC架构在敏捷竞速任务中的综合表现。

通过与多种基准算法(如纯强化学习AC-MLP、传统线性MPC、自适应L1-MPC等)进行对比,实验不仅量化了系统在动力学极限下的性能,还深入分析了物理约束对提升策略稳定性和采样效率的贡献。

性能评估

实验覆盖了从基础水平环形赛道到具备极端三维过载的垂直下冲(Vertical)及Split-S等多种曲率工况。

采样样效率提升显著。在需要复杂三维机动的高难度赛道中,AC-MPC因为底层自带物理动力学先验知识,能在极少的环境交互中快速找到最优飞行策略。

相比于收敛慢、容易陷入局部最优的纯强化学习策略(AC-MLP),该架构在各种复杂赛道上都获得了更高的最终奖励。这种优势是因为预置的物理模型有效引导了策略探索,让系统能自动避开违反物理常识的无效尝试,从而既节省了计算资源,又大幅拉高了任务性能的上限。

打开网易新闻 查看精彩图片

在高难度的垂直与Split-S赛道中,AC-MPC凭借动力学先验,展现出比AC-MLP更高的采样效率与性能上限。

真机部署

跨平台部署能力极为出众:

该框架摒弃了针对特定硬件反复微调的繁琐过程,训练出的策略网络因为自带动力学映射,可以直接在真实场景中完美复刻仿真环境下的最优航迹。

当飞行速度突破21m/s的动力学极限时,内置的可微分MPC模块能自动抹平真实环境中的传感器抖动,建立起一道高度可靠的安全防线。

实验最终证明,用物理上可解释的逻辑链条替代传统的黑盒拟合,不仅能在竞速任务中实现超人水平的飞行效率,更为机器人从虚拟仿真无缝迁移到复杂的真实世界指明了方向。

执行器分析

轨迹飞行

对性能极限的压榨非常彻底:

实验数据表明,AC-MPC在执行极限俯冲等高难度动作时,生成的推力指令非常符合物理规律,能比纯神经网络黑盒策略更稳定、持久地发挥出硬件的最大功率(饱和区)。这种对动力学极限的精准把控,让系统能在毫秒级内准确预判重力影响,自主优化动作和爆发推力的时机。通过过滤高频传感器的随机噪声,该架构把飞行轨迹误差强行控制在亚厘米级,避免了传统策略在性能极限边缘产生的震荡,真正实现了对硬件潜能的极限压榨。

图6:真实环境下的极限飞行与零样本迁移验证。
打开网易新闻 查看精彩图片
图6:真实环境下的极限飞行与零样本迁移验证。

实验记录了AC-MPC策略在未经过物理微调的情况下,直接部署于真实无人机并实现高达21m/s的超人级飞行速度。结果证实,内置的物理约束层能有效抑制感知噪声,确保了从虚拟到现实的确定性迁移。

打开网易新闻 查看精彩图片

表2:AC-MLP与AC-MPC在不同仿真保真度及真实世界部署下的圈速与成功率对比。结果显示AC-MPC在保持极高性能的同时,展现了稳健的跨域迁移能力。

总 结

  • 论文通过大量对比实验验证了AC-MPC的多项优势:在无人机竞速任务中,它相比传统强化学习策略具有更高的样本效率、更强的参数失配适应能力,以及更好的未知扰动鲁棒性。

  • 研究还进一步剖析了AC-MPC的内部学习机制,发现Critic网络学到的值函数与MPC模块中的二次型成本矩阵密切相关。通过线性探针实验,作者证明了值函数的Hessian矩阵与MPC终端成本矩阵之间存在高度相关性,揭示了Actor与Critic之间更深层的耦合关系,也让强化学习与MPC如何协同工作变得更具可解释性。

  • 在实际应用中,AC-MPC已在真实四旋翼平台上实现最高21m/s的飞行速度,性能可媲美先进的纯强化学习方法,同时在泛化能力和稳定性方面表现更优。

  • 总体来看,这篇论文展示了一条很有代表性的技术路线:通过可微优化模块将物理先验嵌入强化学习,在保留MPC预测能力的同时,引入强化学习的灵活性,为复杂动态控制系统的设计提供了一种新的思路。

资源速递

论文题目:

Actor-Critic Model Predictive Control: Differentiable Optimization meets Reinforcement Learning for Agile Flight

论文作者:

Angel Romero, Elie Aljalbout, Yunlong Song, Davide Scaramuzza

论文地址:

https://ieeexplore.ieee.org/document/11301631

代码地址:

https://github.com/uzh-rpg/acmpc_public

求喜欢