移动网络具身智能的主动贝叶斯推理|大模型|智能体|神经网络|移动网络|算法|贝叶斯推理|鲁棒性

BRAIN: Bayesian Reasoning via Active Inference for Agentic and

Embodied Intelligence in Mobile Networks

BRAIN：移动网络具身智能的主动贝叶斯推理

https://arxiv.org/pdf/2602.14033v1

摘要——

未来第六代（6G）移动网络将需要人工智能（AI）智能体，它们不仅自主且高效，而且能够在动态环境中实时适应，并在决策中保持透明。然而，当前网络中主流的代理式 AI 方法在此方面表现出显著的不足。传统的基于深度强化学习（DRL）的智能体缺乏可解释性，且常受困于适应性脆弱问题，包括在非平稳条件下对过往知识的灾难性遗忘。在本文中，我们针对这些挑战提出了一种替代解决方案：基于主动推理的贝叶斯推理（BRAIN）智能体。BRAIN 利用网络环境的深度生成模型，并最小化变分自由能，从而在单一闭环范式中统一感知与行动。我们将 BRAIN 作为 O-RAN 扩展应用（xApp）实现于 GPU 加速测试床上，并展示了其相较于标准 DRL 基线的优势。在我们的实验中，BRAIN 展现出：(i) 针对动态无线电资源分配的稳健因果推理，在不同流量负载下维持切片特定的服务质量（QoS）目标（吞吐量、延迟、可靠性）；(ii) 卓越的适应性，与基准相比对突发流量变化的稳健性高出高达 28.3%（无需任何重新训练即可实现）；以及 (iii) 通过人类可理解的信念状态诊断对其决策进行实时解释。

索引术语——主动推理，具身智能，移动网络，可信性，6G。

I. 引言

人工智能（AI）近年来取得了显著进展，从利用强化学习（RL）掌握复杂游戏与控制任务，到借助大语言模型（LLM）与生成式 AI 产出类人内容。然而，这些成就在很大程度上仍是"去具身化"的：模型运行于仿真或数据驱动的环境中，缺乏直接的物理 grounding（现实锚定）。例如，大语言模型擅长从静态数据集中进行模式识别与生成，但无法与动态变化的环境进行交互。同样，深度强化学习（DRL）智能体通常在精心设计的仿真环境中训练，其奖励函数固定，一旦面对训练分布之外的真实世界动态，往往难以应对。本质上，当今的 AI 系统尚不具备具身智能体所特有的整体性、自适应智能——即能够在真实世界中持续感知、行动并学习的能力 [1]。

这一差距在新兴的第六代（6G）及未来移动网络背景下尤为关键 [2]。未来的这些网络预计将连接数百亿台设备，并支持具有严苛性能需求的前所未有的服务，因此亟需采用“AI原生”的设计原则，将学习与控制智能深度融入基础设施之中 [2, 3]。无线环境本质上是复杂且非平稳的：信道条件、用户移动性和流量模式持续波动 [4]。此外，6G 必须满足各类应用场景下多样化的服务质量（QoS）/体验质量（QoE）要求 [5]。然而，迄今为止大多数所谓的“AI赋能”网络解决方案，仅仅是将现成的深度学习模型（例如卷积神经网络 [6] 或深度自编码器 [7]）应用于特定任务，而未从根本上重新思考网络的认知架构 [8]。尽管这些模型能够从历史数据中学习输入-输出映射关系，但当网络条件偏离训练集时，往往难以有效泛化。

强化学习（RL）通过使 AI 能够直接与环境交互进行学习，引入了一定程度的自主性 [9]。事实上，基于深度强化学习（DRL）的方法已在无线领域展现出潜力，用于解决从动态频谱分配、功率控制到切换优化和端到端网络切片等一系列问题 [10–12]。然而，传统 DRL 方案存在两大主要缺陷，限制了其作为自主 6G 网络“大脑”的适用性。首先，DRL 策略通常由深度神经网络实现，表现为不透明的“黑箱”[13]；其次，标准 DRL 对变化条件的适应能力极为有限 [14]。一旦 DRL 智能体针对某一特定环境或流量场景完成训练，便容易对该条件过拟合。神经策略易发生“灾难性遗忘”：在学习或微调新数据时，会覆盖先前习得的行为 [4]。图 1 在网络切片场景中展示了这一挑战：一个基准 DRL 智能体在适应超可靠低延迟通信（URLLC）切片后，很快“遗忘”了如何为增强型移动宽带（eMBB）切片提供服务，反之亦然，导致每次先前条件重现时都需耗费高昂成本重新学习。

这些局限性表明，有必要对网络 AI 进行根本性的重构。学界日益达成共识：下一代网络应集成更高层次的认知能力——融合记忆、感知与推理等要素，而非仅依赖低层次的模式识别 [8, 15]。本质上，此类系统中的 AI 智能体不再只是离线模型，而是物理网络环境中的主动参与者。这种具身智能体（agentic）愿景自然导向“主动推理”（Active Inference），将其视为网络智能发展的有前景的下一步方向。主动推理被描述为实现此类具身 AI 的理想框架，因其仿效了自然智能系统如何通过以自由能原理为基础的“行动–感知”闭环来学习与适应 [16]。该理论最初源于认知神经科学 [17]，提供了一种基于贝叶斯推理的统一理论，用以解释感知、学习与行动。与传统 RL 不同，主动推理智能体不依赖人工设计的奖励信号；相反，它维护一个关于环境及其期望结果的内部生成模型。该智能体持续更新其对世界隐状态的信念（感知步骤），并通过最小化变分自由能来选择行动以实现目标——变分自由能衡量的是智能体预期与其观测之间的预测误差或“意外度”（surprise）。本质上，智能体会先预测“应该发生什么”（基于其模型和目标），然后采取行动使现实与这些预期一致，从而降低意外度。

本文提出一种面向移动网络资源管理的可解释深度主动推理智能体，并在 AI-RAN 测试平台上实现。本工作是对一篇目前正在审稿中的研讨会论文的详细扩展版本。除原始核心概念外，我们：(i) 通过引入更多先进智能体基线和详尽的消融实验，拓展了实验深度；(ii) 增加了对所有智能体的受控非平稳性压力测试，以量化其鲁棒性与恢复能力；(iii) 引入策略熵分析，使 DRL 与主动推理在探索–利用动态方面的表现具有可比性，并扩充了相关章节与讨论。我们将该框架命名为 BRAIN（Bayesian Reasoning via Active INference，即“基于主动推理的贝叶斯推理”），并将其构想为 AI 原生无线接入网（RAN）控制器的“电信大脑”。图 2 对比了传统 DRL 智能体与我们所提出的 BRAIN 智能体的范式差异。BRAIN 架构采用深度生成式主动推理模型，建模潜在网络状态（如拥塞水平、信道条件、用户移动性）与可观测性能指标之间的关系，同时将期望结果（如切片特定的 QoS 目标）编码为先验信念。在每个控制周期，智能体通过最小化变分自由能执行主动推理：首先推断当前最可能的网络状态（感知步骤），然后计算最优的资源分配动作（行动步骤），以驱动网络预测性能更接近目标（即修正期望结果与实际观测之间的偏差）。这一推理与行动的循环使 BRAIN 能够同时实现在线学习与控制。不同于 DRL 智能体在环境变化时需重新训练，BRAIN 能在新观测到达时实时持续更新其信念，赋予其一种终身学习能力，可优雅地应对分布偏移。此外，由于智能体的内部计算围绕概率信念与自由能贡献展开，我们可以利用这些中间结果来理解并解释其行为。

本研究的核心成果总结如下，分为新贡献（“C”）与新发现（“F”）：

C1. 我们提出了 BRAIN——首个用于 O-RAN 中 AI-RAN 闭环 RAN 切片的深度主动推理智能体。
C2. 我们设计的 BRAIN 智能体具备内在可解释性，通过暴露对潜在切片状态的后验信念，以及对期望自由能（EFE）的分解，从目标一致性（外在价值）和不确定性降低（认知价值）两个维度对每个动作进行解释。

F1. 在动态切片实验中，BRAIN 展现出对非平稳条件的持续适应能力，在动态负载下更可靠地维持异构切片的服务意图。
F2. 与黑箱式 DRL 不同，BRAIN 暴露可解释的内部变量，使得资源分配决策具备因果性和可审计的解释能力。

II. 相关工作

本节将 BRAIN 定位在支撑移动网络中智能体智能的三个互补研究脉络中。首先，我们回顾 RL/DRL 如何在网络控制和编排中落地实施，特别是在开放无线接入网（O-RAN）和切片中，作为实践中主导的智能体范式。其次，我们总结无线 AI 中的可解释性努力，包括可解释人工智能（XAI）和新兴的可解释强化学习（XRL）方法，强调可解释性通常在多大程度上是事后引入的，而非决策过程固有的。第三，我们讨论主动推理作为一种具身智能框架，它通过概率生成建模和变分推断统一感知与行动，并指出目前在通信系统中部署带有面向网络运维人员解释的深度主动推理的证据有限。综上所述，这些研究工作阐明了我们的方法所解决的方法论差距：一种用于实时移动网络控制的、内在可解释且持续适应的智能体。

移动网络上的 RL。 RL 以及 DRL 模型已被越来越多地采用于无线网络中的动态资源管理和控制任务。Liu 等人 [11] 提出了 OnSlicing，这是一个用于跨 RAN、传输、核心和边缘域端到端网络切片的在线 DRL 框架。ORANSlice [12] 是一个专为 O-RAN 生态系统量身定制的用于 5G 网络切片的开源模块化平台。它在灵活框架内集成了切片生命周期管理、资源编排、监控和分析。虽然 RL 策略可以产生显著的效率增益，但其不透明的性质（通常表现为“黑箱”神经网络）阻碍了理解和调试，限制了实际部署。因此，最近的研究已开始探索 XRL 方法，通过明确阐明策略决策和学习到的行为来提高透明度。

移动网络上的 XAI。 为了克服透明度问题，研究人员转向了移动网络领域中的 XAI 技术 [18, 19] [20]。近年来，几项工作探索了使用流行的 XAI 方法（例如 SHAP [21] 和 LIME [22]）来解释无线网络任务的复杂模型 [23–25]。虽然有用，但此类通用 XAI 方法已被证明不足以满足移动网络的需求。它们仅提供表面见解，且往往难以应对网络数据的时间性和高维特性。认识到这些差距，一些研究已开始追求针对特定领域的 XAI 和无线通信的内在可解释模型。研究人员为网络流量模型引入了自定义时间序列解释器，跟踪特征重要性如何随时间演变，并识别导致错误的异常模式 [26, 27]。总体而言，这些努力强调无线 AI 中的可解释性可能需要专家驱动的设计，以满足网络操作的可靠性和见解需求。值得注意的是，XRL 在其他领域（如机器人和自主系统）也日益受到关注，旨在从 RL 智能体中提取人类可理解的策略。然而，在无线网络文献中，可解释 RL 或 DRL 迄今为止看到的探索非常有限。一个值得注意的方法是 SYMBXRL [28]，它在黑箱 DRL 模型之上引入了一个符号解释层。在该框架中，符号表示生成器将数值状态和动作变量转换为离散的一阶逻辑谓词。相比之下，我们提出的框架采用了一种根本不同的范式，通过将可解释性直接嵌入智能体的生成和推理过程中。因此，仍然迫切需要能够解释和证明不同学习智能体行为的新方法。

主动推理。 近年来，它已应用于工程领域，显示出在不确定性下进行状态估计、规划和控制的潜力 [29]。这些早期研究表明，主动推理可以作为一种灵活的、受生物启发的序列决策方法，区别于强化学习 [30]。需要注意的是，用于未知环境中自适应决策的 RL 形式体系被主动推理所涵盖。研究人员已将主动推理应用于机器人控制任务，其中智能体的生成模型使其能够处理模糊的感官输入，但仍追求目标导向的行为 [31, 32]。主动推理的一个有趣方面是其内置可解释性的潜力，尽管这一方面尚未得到具体验证 [16, 33]。

III. 智能体AI设计的问题建模 A. 强化学习

我们将闭环RAN切片控制问题建模为不确定性下的序贯决策任务，可形式化为马尔可夫决策过程（MDP）。在我们的场景中，智能体是近实时RIC控制扩展应用（xApp），环境由gNB及其切片（增强移动宽带eMBB、超可靠低时延通信URLLC、大规模机器类通信mMTC）以及它们的流量和无线条件组成。

B. 主动推理

主动推理是一种源于认知神经科学的全新决策范式，为不确定性下的行动与感知提供了统一的方法[34]。与纯粹从外部奖励反馈中学习策略不同，主动推理智能体利用其对环境的内部生成模型，并采取行动以最小化其观测的"惊讶度"（预测误差）。在我们的场景中，这意味着智能体（我们的BRAIN xApp）被设计为对RAN切片系统具有先验期望；例如，URLLC切片的缓冲区应保持较低（以表示低延迟），eMBB切片的吞吐量应较高。然后，智能体持续调整其动作，使观测到的切片性能与这些内部期望保持一致，从而减少与期望行为的意外偏差。

从数学上讲，主动推理将闭环控制问题转化为变分推断过程。智能体拥有RAN环境的概率生成模型，并将真实网络状态视为待推断的潜在（隐藏）变量。我们可以通过以下联合分布将时间范围 T 上的生成模型形式化：

总之，我们基于主动推理的控制器持续更新其对RAN切片的内部模型，并选择最小化期望自由能的资源控制动作。这导致一种闭环行为，其中智能体通过确保切片性能达到目标目标，使其观测 unsurprising（不出人意料）。值得注意的是，该框架自然处理部分可观测性（将真实网络条件视为待推断的潜在变量），并通过内置偏好编码容纳多个切片目标（每个切片的QoS目标在智能体模型中反映为偏好结果）。其结果是形成一种有原则的控制策略，与标准强化学习不同，它不需要为每个场景外部定义奖励函数，而是源于智能体最小化预测误差并维护其建模服务目标的内在驱动。

IV. 可解释深度主动推理设计 A. 生成模型设计

V. 实验设计 A. GPU加速的AI-RAN测试平台

我们部署了一个私有5G测试平台（见图3），采用基于NVIDIA Aerial Research Cloud (ARC) 平台[36, 37]和Aerial SDK[38]构建的GPU加速O-RAN架构。在我们的设置中，gNB的协议栈被分为两部分：运行在NVIDIA GPU上的O-DU Low（层1 PHY），以及运行在x86 CPU上的O-DU High/CU（高层协议），使用OpenAirInterface (OAI)[39]。两部分通过Small Cell Forum的FAPI接口通信，实现GPU上PHY层DSP任务的在线加速，同时保持标准的OAI软件栈用于MAC/RLC/PDCP/RRC层。

富士康O-RU[40]在n78 TDD频段（中频段FR1）运行，提供射频前端，通过标准O-RAN 7.2前传接口连接。该O-RU支持100 MHz信道带宽（30 kHz子载波间隔下273个PRB），采用TDD模式，TDD时隙配置遵循3GPP Release 15规范（如DDDSU时隙）。测试平台配备了商用和软件化UE以生成多切片流量。具体而言，我们使用COTS 5G UE（Sierra Wireless EM9191调制解调器模块）和基于OAI的软件UE（nrUE）作为两个终端设备。

Sierra Wireless EM9191提供真实的5G NR用户设备，通过空口连接到gNB。OAI nrUE是一个软件UE协议栈（也运行在带有SDR前端的服务器上），模拟第二个5G UE，允许对其流量和切片配置进行细粒度控制。两个UE都支持同时建立多个PDU会话，我们将其映射到不同的网络切片（如下所述）。

B. 用例：智能编排

我们考虑一个多切片RAN场景，其中智能xApp作为自主智能体部署用于闭环切片资源编排。O-RAN近实时RIC托管我们的BRAIN xApp，它观测网络状态并动态控制服务多个切片的gNB。在我们的设置中，单个100 MHz小区（一个O-RU/gNB）服务两个UE，包含三种切片类型：eMBB、URLLC和大规模mMTC，每种具有不同的QoS要求（eMBB要求高吞吐量，URLLC要求低延迟，mMTC要求高可靠性）。gNB的MAC是切片感知的，为每个切片维护独立的缓冲区和调度队列，UE为其各自的切片生成流量（例如，一个UE通过独立的PDU会话在eMBB上承载视频流、在URLLC上承载实时控制流，另一个UE在mMTC上承载间歇性IoT遥测数据）。这为xApp智能体形成了一个丰富的编排环境。

BRAIN xApp通过O-RAN E2接口持续监控切片性能。一个轻量级KPM监控xApp流式传输实时遥测数据[41]；如切片特定的下行吞吐量、缓冲区占用率（队列长度）和下行传输块计数，进入RIC的数据层（使用标准O-RAN KPM服务模型）。这些指标在先前工作[42]中被证明能有效捕获切片流量需求和QoS条件，构成我们智能体观测的状态 s。

在每个控制间隔（数十毫秒量级），BRAIN计算动作 a 以调整RAN切片策略。动作空间包括调整每个切片的PRB分配比例（在eMBB/URLLC/mMTC之间划分小区带宽）以及为每个切片选择调度算法（如比例公平、轮询或加权公平队列）。这些命令通过O-RAN E2控制消息分派给gNB（使用与O-RAN规范一致的自定义控制服务模型），从而闭合控制环路。在这种智能体部署中，xApp自主实时调整网络参数以满足切片服务级目标。

切片特定的QoS优先级被编码到智能体的奖励（或效用）函数中以驱动其行为。在我们的设计中：

eMBB切片以吞吐量为导向（智能体奖励高eMBB数据速率）
URLLC切片对延迟敏感（智能体惩罚大URLLC缓冲区占用以最小化排队延迟）
mMTC切片以可靠性为重点（智能体奖励mMTC传输块的成功传输，这与间歇性IoT流量的可靠覆盖相关）

在这些目标的指导下，BRAIN xApp可以例如在拥塞期间为URLLC分配额外PRB以迅速清空其队列，或在间歇性上行数据包到达时将mMTC切片的调度器切换到更具机会性的模式。来自监控xApp的不断更新的KPM状态使BRAIN能够验证切片性能指标是否得到满足，并在未满足时快速反应。

C. 基线智能体与训练方法

调优基线智能体。为评估我们的BRAIN智能体，我们将其与更广泛的基线智能体套件进行比较，包括学习策略和启发式调度器。具体而言，我们实现了：

❶ 调优启发式（Tuned Heuristic）：在切片间静态划分PRB（根据固定优先级权重），使用加权轮询调度器（非学习基线）

❷ 深度Q网络（DQN）智能体，用于切片控制[43]

❸ 优势演员-评论家（A2C）智能体[44]

❹ ** vanilla策略梯度智能体（REINFORCE）**[45]

❺ 近端策略优化（PPO）智能体[46]

❻ 软演员-评论家（SAC）智能体[47]

所有自定义智能体均用PyTorch实现，并部署为容器化xApp，使其与O-RAN近实时RIC平台兼容。我们通过在线学习方式让每个智能体与我们的RAN测试平台直接交互进行训练（智能体xApp在接收新观测和奖励时持续更新其策略）。为确保公平评估，每个学习智能体训练相同数量的时间步（约次环境交互，在20 ms控制间隔下相当于数小时的网络时间）。我们在多个随机种子上重复每个训练实验（例如，每个智能体5次独立运行），并报告具有95%置信区间的平均性能，以考虑随机变异性。我们比较训练迭代次数和实际挂钟时间的收敛速度，因为像PPO这样的同策略方法需要更多交互但每步计算较少，而像SAC这样的异策略方法可以以更密集的更新为代价从较少交互中学习。

训练。为用一个共同标量表征所有控制器的探索-利用行为，我们报告训练时间上的策略熵。对于每个回合，我们计算用于在每个时间步生成决策的动作选择分布的香农熵，并在回合内取平均：

除整体性能外，我们设计实验以探测每个控制器的适应性和鲁棒性。我们在训练/部署期间引入受控的非平稳性。例如，在实验中途突然改变流量强度或切换信道条件，以评估每个智能体重新调整到新网络动态的速度。这测试了对变化条件的恢复力和强化学习基线中潜在的灾难性遗忘（即，在一种流量分布下训练的策略在分布变化时是否失败）。

我们还对BRAIN智能体的关键参数进行敏感性分析，包括切片偏好模型和奖励加权（外在QoS目标与认识探索奖励）、决策中使用的规划范围长度，以及状态输入中的观测噪声水平。通过改变这些因素，我们评估智能体性能对错误指定偏好或不确定性的鲁棒性。

VI. 评估

分析智能体性能。图4总结了BRAIN智能体与调优启发式基线及各种DRL智能体（A2C、PPO、DQN、SAC、REINFORCE）在AI-RAN测试平台中的训练性能。

在图4a中，BRAIN智能体的奖励曲线陡峭上升，在远 fewer 的回合内收敛，并达到比所有基线（包括调优启发式）更高的渐近奖励。这表明BRAIN以显著更高的样本效率学习有效策略；从有限交互中提取更多累积奖励。相比之下，DRL智能体表现出较慢的奖励增长和较低的平台期，反映了无模型强化学习典型的繁重试错搜索。更快的奖励收敛意味着BRAIN可以用比DRL基准少得多的训练数据达到近最优控制决策——这在现实网络中是关键优势，其中每个训练回合（例如，次优决策的时隙）都有实际成本。

图4b绘制了平均训练损失，BRAIN再次以明显更低且更稳定的损失轨迹脱颖而出。BRAIN智能体的损失始终比深度RL智能体的损失低近一个数量级，并显示出最小振荡。这种稳定性表明BRAIN的学习更新表现良好，防止了经常困扰DRL训练的大梯度摆动或发散问题。相比之下，RL基线（尤其是像DQN或REINFORCE这样更不稳定的）表现出更高的损失值和明显波动，信号学习不太稳定。RL中的这种不稳定性可能源于算法难以适应RAN的非平稳动态：当环境的"规则"（如用户负载、信道条件）持续变化时，传统RL智能体难以重用先前知识，可能需要反复重新学习。

图4c说明了随时间的策略熵，揭示了每个智能体的探索-利用平衡。BRAIN的熵开始时较高（鼓励探索），然后随着训练进行逐渐下降。重要的是，它从未收敛到零；相反，BRAIN的熵逐渐降至中等水平，表明受控的探索策略。这种稳定的熵降低表明BRAIN在早期系统性地探索动作空间，然后在收敛时自信地利用其学习策略，所有这些都未过早失去决策多样性。

可解释性分析。我们将每个切片的需求建模为隐藏状态（低/中/高），并在图5中将智能体的后验信念随时间可视化为热图。

在图6a的eMBB切片中，我们观察到认识价值在早期阶段占主导，绿色区域最为突出。这表明智能体最初探索eMBB流量需求的不确定方面，可能执行观测驱动或探测动作以细化其关于带宽需求的内部信念。随着时间推移，认识项稳步下降，而外在成本增加。这种转变反映智能体已获得足够信念信心，开始转向利用行为，专注于将切片资源分配与性能偏好对齐。

在图6b的URLLC切片中，出现略微不同的模式。认识分量和外在分量在早期阶段更加平衡，意味着智能体同时探索和调节URLLC的延迟关键需求。这种行为反映了URLLC的严格QoS约束，这要求即使早期决策也考虑外在风险。

在图6c的mMTC切片中，我们看到最强且最持久的认识参与。绿色区域主导图的前半部分，表明智能体最初投入大量探索努力以理解mMTC的需求动态，这可能是突发和稀疏的。在之后，外在价值急剧增加，因为智能体开始强制执行目标导向行为。

切片性能。图7报告了三个异构切片的每切片经验KPM累积分布函数（CDF），在AI-RAN测试平台上对所有智能体使用相同的状态/动作接口测量。使用CDF（而非仅均值）很重要，因为它暴露了尾部行为和可靠性：CDF右移表示智能体更频繁地实现更大的KPM值（"更好→"），而更陡峭的CDF表示变异性降低（更可预测的操作）。

图7a显示，BRAIN产生了最有利的吞吐量分布；相对于所有DRL基线和调优启发式，表明在整个操作范围内基本上实现更高吞吐量。定性而言，BRAIN不仅提高了中位吞吐量，还提高了上分位数，表明智能体学习了一种切片策略，即使在满足更严格的URLLC/mMTC需求时也能保持eMBB容量。相比之下，基线表现出i）较低的中位数或ii）较大的离散度，意味着在相同流量组合和控制预算下eMBB服务不太一致。

图7b报告了URLLC PRB比率（即切片和调度决策有效分配/提供给URLLC的物理资源比例）的分布。更高的URLLC PRB比率CDF反映对URLLC更强的资源保护，这与在拥塞下满足延迟敏感目标一致。BRAIN表现出最右移的曲线，表明它在需要时更可靠地分配/维持更高的URLLC资源份额。这种行为与具身主动推理设计一致：智能体的动作后验（通过EFE形成）当信念表明队列压力上升时，自然地增加对URLLC保护动作的精度，而非依赖脆弱的奖励塑造或回合重新训练。几个DRL基线（特别是REINFORCE和调优启发式）在较低PRB比率处显示出 substantially 更多的质量，这通常对应于URLLC配置不足、因此更容易受到队列累积和延迟违规影响的时期。

图7c比较了mMTC切片的交付下行PHY TB分布，我们在设置中将其用作可靠性导向的代理（成功的TB交付反映对间歇性IoT/遥测流量的持续服务）。与DRL基线相比，BRAIN对TB分布提供了适度但一致的改善，表明在不牺牲eMBB吞吐量或URLLC保护的情况下提高了可靠性。重要的是，低性能尾部减少：BRAIN产生更少的"近饥饿"间隔（非常低的TB速率），这对mMTC至关重要，因为突发流量仍必须可预测地交付。

除平均奖励外，我们评估控制器在分布变化下是否维持切片特定的服务保证。具体而言，我们测量每个智能体在受控非平稳事件前后将所有切片保持在QoS目标内的可靠性。在图8中，在非平稳事件之前（），BRAIN实现了最高的全切片QoS满意度，表明它在标称状态下最一致地将所有切片约束保持在目标内。在处，所有基于学习的智能体由于流量激增表现出QoS Sat(t)的急剧下降；然而，BRAIN显示出最小的退化，并最快恢复到其转移前水平。相比之下，DRL基线遭受更大的转移后下降，恢复更慢，稳定在较低的QoS满意度水平；与分布变化下适应性降低和部分遗忘一致。调优启发式在整个过程中基本保持平坦且远低于学习智能体，证实静态切片策略无法对突然的状态变化做出反应。

VII. 结论

这项工作证明，深度主动推理不仅是移动网络中智能体和具身智能的概念契合，也是真实开放AI-RAN协议栈上的实用控制范式。我们引入了BRAIN作为xApp，通过两个紧密耦合的操作闭合网络动作-感知环路：(i) 从流式KPM对潜在切片条件进行贝叶斯信念更新，以及(ii) 期望自由能最小化以选择联合满足切片意图和减少不确定性的资源分配动作。

在具有异构切片的GPU加速AI-RAN测试平台上，BRAIN产生了三个具体成果。首先，它实现了比调优启发式和广泛DRL基线更强的切片性能。其次，它在非平稳性下提供了鲁棒适应：当流量分布突然变化时，BRAIN表现出最小的QoS满意度退化和最快的恢复，无需重新训练。第三，它在运行时提供了面向运营商的可解释性。除经验优势外，更广泛的见解是，主动推理通过将决策基于有原则的贝叶斯信念更新而非奖励工程，实现了真正的智能体、具身控制。

对于未来工作，有前景的方向包括将框架扩展到O-RAN中的分层、多时间尺度主动推理，其中近实时xApp在非实时意图下运行，并使用结构化生成模型进行策略协调。另一个重要的研究方向可以是扩展到多小区和多智能体部署，实现xApp在干扰和移动性耦合下的协调，并研究在真实遥测和前传约束下的分布式信念共享。

原文链接：https://arxiv.org/pdf/2602.14033v1