【UAV+ISAC】无人机辅助的主动+被动感知：混合SAC算法让通信与感知“双赢”【附pyth...|信号|信道|无人机辅助|毫米波雷达|波束|通信

来源：市场资讯

（来源：EW Frontier）

【EW Frontier】——雷达通信AI科研人的一站式技术平台！

✅ 超1000+实战代码：DOA/调制识别/ISAC/抗干扰/无人机等雷达、通信、电子战全方向（MATLAB+Python）

✅ 专属科研辅导：论文专利选题/仿真/写作、项目定制全程答疑

✅ 优质社群资源：985/211硕博同行交流，最新技术干货实时同步

资源获取通道

知识星球（全部资源无限看）：https://wx.zsxq.com/group/15554455154582

面包多（单个代码精准购）：https://mbd.pub/o/EWFrontier/work

辅导/答疑：

‍客服微信： EWFrontier

无人机辅助的主动+被动感知：混合SAC算法让通信与感知“双赢”

一架按规划路线飞行的物流无人机，在传递少量飞行指令的同时，竟能充当“空中耳朵”，帮助地面基站精准定位未知黑飞目标——这是通感一体化（ISAC）的新范式。

随着低空经济飞速发展，大量无人机将参与物流配送、城市巡检等任务。这些无人机通常按照预先规划的航线飞行，与地面基站（GBS）之间只需要间歇性传输少量飞行指令数据（通信负载很低）。那么，这些“轻载”无人机的空闲时间能不能用来帮地面基站做点更有价值的事？本文给出肯定的答案：让通信无人机在空闲时充当被动感知接收器，接收来自未知目标的反射回波，与地面基站自身的主动感知协同工作，从而大幅提升对黑飞目标的定位精度。

具体而言，本文提出了一个无人机辅助的主动‑被动感知与通信一体化（IAPSC）框架。其中，地面基站发射ISAC信号，通信无人机沿预定轨迹飞行，在部分信号帧中接收未知无人机的回波（被动感知），并将数据回传至基站进行融合。作者推导了融合主动与被动测量后的三维定位克拉美‑罗界（CRB），并将其作为优化目标。考虑到问题涉及离散的帧分配和连续的波束赋形/功率分配，是一个混合动作空间的优化问题，本文提出了混合Soft Actor‑Critic（hybrid‑SAC）算法——在SAC框架内用双层critic网络处理离散动作选择，用actor网络输出连续动作。

仿真表明，hybrid‑SAC相比原始SAC算法提升43%的感知性能，收敛速度快于PDQN等基准，而且定位精度逼近传统遗传算法但计算复杂度大幅降低。

一、引言：无人机与通感一体化为何是天作之合？

1.1 低空经济催生新需求

无人机送外卖、空中巡检、农业监测……低空经济正在成为新的增长极。然而，大量无人机在低空飞行，不可避免地会带来监管难题：未经授权的“黑飞”无人机闯入禁飞区怎么办？传统雷达成本高，视觉方案受天气限制，而利用现有的蜂窝网络进行感知（即通感一体化，ISAC）被公认为最具潜力的解决方案。

1.2 无人机做ISAC：两种思路

目前无人机与ISAC的结合主要有两条路线：

1
无人机独立担当ISAC平台：无人机既做通信基站，又做雷达。优点灵活，但受限于电池、计算能力，难以实现高精度感知。
2
无人机+地面基站协作：地面基站提供强大算力和稳定供电，无人机提供灵活覆盖和视距信道。但现有工作中，无人机仍然主要作为发射端，没有充分利用其作为被动接收器的潜力。

1.3 本文的核心洞察

那些按预定路线飞行的物流/巡检无人机，它们与地面基站之间只需要很少的通信数据（例如每几秒接收一次“继续飞行”指令）。那么，在剩下的时间里，它们能不能“顺便”帮忙监听空中的回波信号呢？

如果能，那么地面基站的主动感知（发射信号并接收目标回波）与通信无人机的被动感知（接收目标反射的同一信号）就可以融合起来。由于无人机的位置已知且具有视距优势，被动感知可以提供与主动感知相互独立的信息，从而显著降低定位的不确定性。

但这里有一个关键的优化难题：每个时间槽被划分为多个信号帧，有些帧用于“主动+被动感知”（此时通信无人机只收不回），有些帧用于“主动感知+通信”（此时通信无人机还要接收通信数据）。如何动态分配帧数、分配功率、设计波束，才能在满足通信需求的前提下最小化定位误差？这是一个混合离散‑连续优化问题，传统凸优化方法计算复杂且仅能收敛到驻点。

为此，本文提出了混合SAC算法——一种专为混合动作空间设计的深度强化学习方法，能够在线学习最优策略。

二、系统模型与问题形式化

2.1 系统组成

考虑一个地面基站（GBS）、一架通信无人机（沿已知轨迹飞行）和一架被感知的未知无人机（位置待估计）。三者位置关系如图5所示。

GBS：配备的均匀平面阵列（UPA），收发一体。
通信无人机：配备的UPA，沿预规划轨迹飞行，位置已知。
被感知无人机：位置未知，视为点目标，雷达截面积（RCS）为。

2.2 帧结构设计（关键创新）

每个时间槽被分为个信号帧，分为两部分（图2）：

APSP（主动‑被动感知部分）：前帧。GBS发射纯感知信号，通信无人机与GBS同时接收目标回波。通信无人机在此阶段只做被动感知，不接收通信数据。
ASCP（主动感知与通信部分）：后帧。GBS同时发射感知信号与通信信号，通信无人机接收通信数据（也仍会收到一部分感知信号和回波，作为干扰处理）。

这种设计的好处：在APSP阶段，通信无人机可以全神贯注地收集微弱的目标回波；在ASCP阶段，则满足其通信需求。主动与被动感知的数据在GBS处融合。

2.3 信道与信号模型

由于无人机飞行高度较高，空地信道以视距（LoS）为主。感知信道（主动和被动）均建模为LoS，通信信道采用Rician衰落。

主动感知：GBS发射，回波被GBS自身接收。信道增益

被动感知：GBS发射，经目标反射后由通信无人机接收。信道增益

接收信号表达式在(6)中给出。关键点：通信无人机收到的直射信号（来自GBS的直接链路）和反射信号可以由GBS提前估计并消除，因为通信无人机的位置已知。

2.4 定位误差下界：克拉美‑罗界（CRB）

为了量化融合主动和被动感知后的定位性能，作者推导了三维坐标估计的CRB矩阵（见附录A）。核心结果是：

每个信号帧对CRB的贡献由两部分组成：主动感知项和被动感知项。
在APSP帧中，两者都存在；在ASCP帧中，仅主动感知项存在（因为通信无人机忙于通信，不贡献被动数据）。
最终定位误差的迹作为优化目标。

2.5 优化问题

目标：在长时间内最小化平均CRB，受约束：

通信无人机每时间槽获得的数据量（保证飞行安全指令能下来）。
帧数分配为整数。
每帧的波束赋形向量满足功率约束。

这是一个混合整数非线性规划，且信道状态随时间变化（通信无人机在移动），因此适合用深度强化学习求解。

三、混合SAC算法：让DRL学会混合动作

3.1 为什么标准SAC不够用？

标准SAC（Soft Actor‑Critic）是连续动作空间的SOTA算法。但在本问题中：

离散动作：（从1到L-1的整数）。
连续动作：波束赋形向量（复数，可通过实部虚部展开为连续向量）。

标准SAC会将离散动作强行映射为连续值（例如用sigmoid输出再取整），这会破坏动作的语义并导致收敛不稳定。PDQN（Parametrized DQN）虽然能处理混合动作，但收敛速度慢且易陷入局部最优。

3.2 hybrid‑SAC的核心架构

本文提出的hybrid‑SAC（图3、图4）在经典SAC基础上做了关键改造：

Actor网络：负责输出连续动作（波束赋形参数）。
Critic网络：有两个evaluation critic和两个target critic。每个critic网络在输出层增加了一个维度，用于计算每个可能离散动作的Q值。具体来说，给定状态和连续动作，critic网络输出一个长度为的向量，每个元素对应取不同时的Q值。
离散动作选择：执行时，取对应的离散动作。
更新规则：在计算TD目标时，使用来避免过估计。损失函数和策略梯度也用同样的最大化处理。

这样，actor网络只需要学习连续动作，而critic网络同时评估离散‑连续组合的质量。两者的训练通过共享的经验回放统一进行。

3.3 状态、动作、奖励设计

状态：包含当前通信数据量、当前CRB、被感知无人机估计位置（通过扩展卡尔曼滤波获得）和通信无人机已知位置。
动作：+ 所有帧的。
奖励：两部分之和。

鼓励降低CRB。：当时，线性惩罚；否则为0。总奖励是负值（最小化CRB），通过调整系数使算法收敛。

算法1给出了完整的训练流程。超参数如表II所示。

四、仿真结果与分析

4.1 收敛性对比

图7显示，hybrid‑SAC在约100个episode后稳定收敛到最高奖励值（约-1.7），而原始SAC收敛到约-2.2，PDQN收敛更慢且值更低。说明hybrid‑SAC既保持了SAC的探索效率，又精准处理了离散动作。

4.2 定位精度对比

图8展示了平均CRB随episode的变化。hybrid‑SAC最终达到约0.17 m²的CRB迹，相比SAC（0.3 m²）提升43%，相比PDQN（0.4 m²）提升更多。更重要的是，这个精度与遗传算法（GA）的0.15 m²非常接近——而遗传算法的计算复杂度远高于DRL（每代需要评估大量个体）。这意味着hybrid‑SAC用更少的计算代价达到了传统优化方法几乎最优的性能。

4.3 不同参数下的表现

发射功率（图9）：功率从5W提高到9W，CRB从0.17降至0.09 m²，说明功率仍是定位精度的决定性因素。
最低通信数据量（图10）：从1MB增加到4MB，CRB显著恶化，且训练波动变大。因为更多帧必须用于通信，挤压了被动感知的时间。
帧数（图11）：帧数从8增加到32，CRB下降。更多帧提供了更丰富的测量信息。
融合被动感知（图12）：如果不使用通信无人机做被动感知（即仅靠GBS自身），CRB约为0.9 m²，远高于融合后的0.17 m²。这直接证明了利用“空闲”无人机做被动接收的巨大价值。

五、结论与研究者启发

5.1 论文贡献总结

1
提出新颖的ISAC架构：让低通信负载的无人机充当被动感知节点，与地面基站的主动感知互补，显著提升对未知目标的定位精度。
2
推导融合主动‑被动感知的CRB：为系统设计和算法优化提供了理论下界。
3
设计hybrid‑SAC算法：在SAC框架内巧妙处理混合动作空间，解决传统DRL难以同时优化离散和连续动作的问题。
4
充分验证：仿真表明，hybrid‑SAC比现有DRL基准快且准，逼近遗传算法性能但复杂度低。

5.2 给研究者的三点启发

启发一：不要浪费“已知的移动节点”通信无人机虽然主要任务是通信，但它们的位置是已知且随时间变化的。把它们当作“移动的被动接收天线”，本质上是在已有的通信链路基础上零硬件成本地增加感知维度。类似思路可以推广到其他场景：例如，已知位置的智能汽车、地面CPE设备，都可以被用于辅助感知。

启发二：混合动作空间不是“麻烦”，而是优化机会很多实际工程问题同时包含离散决策（比如选择哪几个天线工作、选择调制阶数）和连续参数（功率、相位）。强行将离散动作连续化会丢失结构信息，而专门设计混合动作DRL（如hybrid‑SAC、PDQN）可以更高效地探索。本文展示了如何将离散动作选择自然地嵌入critic网络的输出维度——这是一个非常简洁且可迁移的设计。

启发三：CRB可以作为DRL的奖励信号传统DRL设计中奖励往往是启发式的手工函数。本文直接将分析推导的CRB（定位误差下界）用作奖励的核心项。这种做法让优化目标与物理意义直接对齐，避免了“代理奖励”带来的次优性。在其它传感器调度、波束跟踪等任务中，如果存在闭式的性能界（如CRB、互信息下界），也可以考虑直接作为奖励。

5.3 未来方向

多无人机协作：多架通信无人机同时做被动感知，融合更多视角。
实测验证：在真实无人机平台上验证算法实时性。
考虑非理想因素：量化误差、有限采样、信道时变等。

参考文献

[1] K. Yan et al., "UAV-Assisted Integrated Active and Passive Sensing With Communication: A Hybrid-SAC Approach," IEEE Trans. Veh. Technol., vol. 75, no. 4, Apr. 2026.

[2] T. Haarnoja et al., "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning," ICML, 2018.

[3] J. Xiong et al., "Parametrized deep Q-networks learning: Reinforcement learning with discrete-continuous hybrid action space," arXiv:1810.06394.

[4] H. Godrich et al., "Power allocation strategies for target localization in distributed multiple-radar architectures," IEEE TSP, 2011.

结语：当无人机不再只是“飞行基站”，而是成为“空中感知共同体”的一部分，通感一体化的边界将被极大拓展。本文的hybrid‑SAC方法为这种协作式感知提供了一个高效、优雅的求解工具。如果你正在研究无人机、ISAC或混合动作空间的DRL，这篇文章值得细读。