来源:市场资讯
(来源:EW Frontier)
【EW Frontier】——雷达通信AI科研人的一站式技术平台!
✅ 超1000+实战代码:DOA/调制识别/ISAC/抗干扰/无人机等雷达、通信、电子战全方向(MATLAB+Python)
✅ 专属科研辅导:论文专利选题/仿真/写作、项目定制全程答疑
✅ 优质社群资源:985/211硕博同行交流,最新技术干货实时同步
资源获取通道
知识星球(全部资源无限看):https://wx.zsxq.com/group/15554455154582
面包多(单个代码精准购):https://mbd.pub/o/EWFrontier/work
辅导/答疑:
客服微信: EWFrontier
无人机辅助的主动+被动感知:混合SAC算法让通信与感知“双赢”
一架按规划路线飞行的物流无人机,在传递少量飞行指令的同时,竟能充当“空中耳朵”,帮助地面基站精准定位未知黑飞目标——这是通感一体化(ISAC)的新范式。
随着低空经济飞速发展,大量无人机将参与物流配送、城市巡检等任务。这些无人机通常按照预先规划的航线飞行,与地面基站(GBS)之间只需要间歇性传输少量飞行指令数据(通信负载很低)。那么,这些“轻载”无人机的空闲时间能不能用来帮地面基站做点更有价值的事?本文给出肯定的答案:让通信无人机在空闲时充当被动感知接收器,接收来自未知目标的反射回波,与地面基站自身的主动感知协同工作,从而大幅提升对黑飞目标的定位精度。
具体而言,本文提出了一个无人机辅助的主动‑被动感知与通信一体化(IAPSC) 框架。其中,地面基站发射ISAC信号,通信无人机沿预定轨迹飞行,在部分信号帧中接收未知无人机的回波(被动感知),并将数据回传至基站进行融合。作者推导了融合主动与被动测量后的三维定位克拉美‑罗界(CRB),并将其作为优化目标。考虑到问题涉及离散的帧分配和连续的波束赋形/功率分配,是一个混合动作空间的优化问题,本文提出了混合Soft Actor‑Critic(hybrid‑SAC) 算法——在SAC框架内用双层critic网络处理离散动作选择,用actor网络输出连续动作。
仿真表明,hybrid‑SAC相比原始SAC算法提升43%的感知性能,收敛速度快于PDQN等基准,而且定位精度逼近传统遗传算法但计算复杂度大幅降低。
一、引言:无人机与通感一体化为何是天作之合?
1.1 低空经济催生新需求
无人机送外卖、空中巡检、农业监测……低空经济正在成为新的增长极。然而,大量无人机在低空飞行,不可避免地会带来监管难题:未经授权的“黑飞”无人机闯入禁飞区怎么办?传统雷达成本高,视觉方案受天气限制,而利用现有的蜂窝网络进行感知(即通感一体化,ISAC)被公认为最具潜力的解决方案。
1.2 无人机做ISAC:两种思路
目前无人机与ISAC的结合主要有两条路线:
- 1
无人机独立担当ISAC平台:无人机既做通信基站,又做雷达。优点灵活,但受限于电池、计算能力,难以实现高精度感知。
- 2
无人机+地面基站协作:地面基站提供强大算力和稳定供电,无人机提供灵活覆盖和视距信道。但现有工作中,无人机仍然主要作为发射端,没有充分利用其作为被动接收器的潜力。
1.3 本文的核心洞察
那些按预定路线飞行的物流/巡检无人机,它们与地面基站之间只需要很少的通信数据(例如每几秒接收一次“继续飞行”指令)。那么,在剩下的时间里,它们能不能“顺便”帮忙监听空中的回波信号呢?
如果能,那么地面基站的主动感知(发射信号并接收目标回波) 与通信无人机的被动感知(接收目标反射的同一信号) 就可以融合起来。由于无人机的位置已知且具有视距优势,被动感知可以提供与主动感知相互独立的信息,从而显著降低定位的不确定性。
但这里有一个关键的优化难题:每个时间槽被划分为多个信号帧,有些帧用于“主动+被动感知”(此时通信无人机只收不回),有些帧用于“主动感知+通信”(此时通信无人机还要接收通信数据)。如何动态分配帧数、分配功率、设计波束,才能在满足通信需求的前提下最小化定位误差?这是一个混合离散‑连续优化问题,传统凸优化方法计算复杂且仅能收敛到驻点。
为此,本文提出了混合SAC算法——一种专为混合动作空间设计的深度强化学习方法,能够在线学习最优策略。
二、系统模型与问题形式化
2.1 系统组成
考虑一个地面基站(GBS)、一架通信无人机(沿已知轨迹飞行)和一架被感知的未知无人机(位置待估计)。三者位置关系如图5所示。
GBS:配备的均匀平面阵列(UPA),收发一体。
通信无人机:配备的UPA,沿预规划轨迹飞行,位置已知。
被感知无人机:位置未知,视为点目标,雷达截面积(RCS)为。
2.2 帧结构设计(关键创新)
每个时间槽被分为个信号帧,分为两部分(图2):
APSP(主动‑被动感知部分):前帧。GBS发射纯感知信号,通信无人机与GBS同时接收目标回波。通信无人机在此阶段只做被动感知,不接收通信数据。
ASCP(主动感知与通信部分):后帧。GBS同时发射感知信号与通信信号,通信无人机接收通信数据(也仍会收到一部分感知信号和回波,作为干扰处理)。
这种设计的好处:在APSP阶段,通信无人机可以全神贯注地收集微弱的目标回波;在ASCP阶段,则满足其通信需求。主动与被动感知的数据在GBS处融合。
2.3 信道与信号模型
由于无人机飞行高度较高,空地信道以视距(LoS)为主。感知信道(主动和被动)均建模为LoS,通信信道采用Rician衰落。
主动感知:GBS发射,回波被GBS自身接收。信道增益
被动感知:GBS发射,经目标反射后由通信无人机接收。信道增益
接收信号表达式在(6)中给出。关键点:通信无人机收到的直射信号(来自GBS的直接链路)和反射信号可以由GBS提前估计并消除,因为通信无人机的位置已知。
2.4 定位误差下界:克拉美‑罗界(CRB)
为了量化融合主动和被动感知后的定位性能,作者推导了三维坐标估计的CRB矩阵(见附录A)。核心结果是:
每个信号帧对CRB的贡献由两部分组成:主动感知项和被动感知项。
在APSP帧中,两者都存在;在ASCP帧中,仅主动感知项存在(因为通信无人机忙于通信,不贡献被动数据)。
最终定位误差的迹作为优化目标。
2.5 优化问题
目标:在长时间内最小化平均CRB,受约束:
通信无人机每时间槽获得的数据量(保证飞行安全指令能下来)。
帧数分配为整数。
每帧的波束赋形向量满足功率约束。
这是一个混合整数非线性规划,且信道状态随时间变化(通信无人机在移动),因此适合用深度强化学习求解。
三、混合SAC算法:让DRL学会混合动作
3.1 为什么标准SAC不够用?
标准SAC(Soft Actor‑Critic)是连续动作空间的SOTA算法。但在本问题中:
离散动作:(从1到L-1的整数)。
连续动作:波束赋形向量(复数,可通过实部虚部展开为连续向量)。
标准SAC会将离散动作强行映射为连续值(例如用sigmoid输出再取整),这会破坏动作的语义并导致收敛不稳定。PDQN(Parametrized DQN)虽然能处理混合动作,但收敛速度慢且易陷入局部最优。
3.2 hybrid‑SAC的核心架构
本文提出的hybrid‑SAC(图3、图4)在经典SAC基础上做了关键改造:
Actor网络:负责输出连续动作(波束赋形参数)。
Critic网络:有两个evaluation critic和两个target critic。每个critic网络在输出层增加了一个维度,用于计算每个可能离散动作的Q值。具体来说,给定状态和连续动作,critic网络输出一个长度为的向量,每个元素对应取不同时的Q值。
离散动作选择:执行时,取对应的离散动作。
更新规则:在计算TD目标时,使用来避免过估计。损失函数和策略梯度也用同样的最大化处理。
这样,actor网络只需要学习连续动作,而critic网络同时评估离散‑连续组合的质量。两者的训练通过共享的经验回放统一进行。
3.3 状态、动作、奖励设计
状态:包含当前通信数据量、当前CRB、被感知无人机估计位置(通过扩展卡尔曼滤波获得)和通信无人机已知位置。
动作:+ 所有帧的。
奖励:两部分之和。
鼓励降低CRB。:当时,线性惩罚;否则为0。总奖励是负值(最小化CRB),通过调整系数使算法收敛。
算法1给出了完整的训练流程。超参数如表II所示。
四、仿真结果与分析
4.1 收敛性对比
图7显示,hybrid‑SAC在约100个episode后稳定收敛到最高奖励值(约-1.7),而原始SAC收敛到约-2.2,PDQN收敛更慢且值更低。说明hybrid‑SAC既保持了SAC的探索效率,又精准处理了离散动作。
4.2 定位精度对比
图8展示了平均CRB随episode的变化。hybrid‑SAC最终达到约0.17 m²的CRB迹,相比SAC(0.3 m²)提升43%,相比PDQN(0.4 m²)提升更多。更重要的是,这个精度与遗传算法(GA) 的0.15 m²非常接近——而遗传算法的计算复杂度远高于DRL(每代需要评估大量个体)。这意味着hybrid‑SAC用更少的计算代价达到了传统优化方法几乎最优的性能。
4.3 不同参数下的表现
发射功率(图9):功率从5W提高到9W,CRB从0.17降至0.09 m²,说明功率仍是定位精度的决定性因素。
最低通信数据量(图10):从1MB增加到4MB,CRB显著恶化,且训练波动变大。因为更多帧必须用于通信,挤压了被动感知的时间。
帧数(图11):帧数从8增加到32,CRB下降。更多帧提供了更丰富的测量信息。
融合被动感知(图12):如果不使用通信无人机做被动感知(即仅靠GBS自身),CRB约为0.9 m²,远高于融合后的0.17 m²。这直接证明了利用“空闲”无人机做被动接收的巨大价值。
5.1 论文贡献总结
- 1
提出新颖的ISAC架构:让低通信负载的无人机充当被动感知节点,与地面基站的主动感知互补,显著提升对未知目标的定位精度。
- 2
推导融合主动‑被动感知的CRB:为系统设计和算法优化提供了理论下界。
- 3
设计hybrid‑SAC算法:在SAC框架内巧妙处理混合动作空间,解决传统DRL难以同时优化离散和连续动作的问题。
- 4
充分验证:仿真表明,hybrid‑SAC比现有DRL基准快且准,逼近遗传算法性能但复杂度低。
5.2 给研究者的三点启发
启发一:不要浪费“已知的移动节点”通信无人机虽然主要任务是通信,但它们的位置是已知且随时间变化的。把它们当作“移动的被动接收天线”,本质上是在已有的通信链路基础上零硬件成本地增加感知维度。类似思路可以推广到其他场景:例如,已知位置的智能汽车、地面CPE设备,都可以被用于辅助感知。
启发二:混合动作空间不是“麻烦”,而是优化机会很多实际工程问题同时包含离散决策(比如选择哪几个天线工作、选择调制阶数)和连续参数(功率、相位)。强行将离散动作连续化会丢失结构信息,而专门设计混合动作DRL(如hybrid‑SAC、PDQN)可以更高效地探索。本文展示了如何将离散动作选择自然地嵌入critic网络的输出维度——这是一个非常简洁且可迁移的设计。
启发三:CRB可以作为DRL的奖励信号传统DRL设计中奖励往往是启发式的手工函数。本文直接将分析推导的CRB(定位误差下界)用作奖励的核心项。这种做法让优化目标与物理意义直接对齐,避免了“代理奖励”带来的次优性。在其它传感器调度、波束跟踪等任务中,如果存在闭式的性能界(如CRB、互信息下界),也可以考虑直接作为奖励。
5.3 未来方向
多无人机协作:多架通信无人机同时做被动感知,融合更多视角。
实测验证:在真实无人机平台上验证算法实时性。
考虑非理想因素:量化误差、有限采样、信道时变等。
[1] K. Yan et al., "UAV-Assisted Integrated Active and Passive Sensing With Communication: A Hybrid-SAC Approach," IEEE Trans. Veh. Technol., vol. 75, no. 4, Apr. 2026.
[2] T. Haarnoja et al., "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning," ICML, 2018.
[3] J. Xiong et al., "Parametrized deep Q-networks learning: Reinforcement learning with discrete-continuous hybrid action space," arXiv:1810.06394.
[4] H. Godrich et al., "Power allocation strategies for target localization in distributed multiple-radar architectures," IEEE TSP, 2011.
结语:当无人机不再只是“飞行基站”,而是成为“空中感知共同体”的一部分,通感一体化的边界将被极大拓展。本文的hybrid‑SAC方法为这种协作式感知提供了一个高效、优雅的求解工具。如果你正在研究无人机、ISAC或混合动作空间的DRL,这篇文章值得细读。
热门跟贴