实时神经接收器推动 AI-RAN 创新|ai|mimo|信号|信道|神经接收器|算法

当今的 5G 新空口（5G NR）无线通信系统依靠高度优化的信号处理算法，在短短几微秒内就能从嘈杂的信道观测结果中重建传输信息。这一非凡成就源于电信工程师和研究人员数十年的不懈努力，他们为了满足无线通信严苛的实时限制而不断改进信号处理算法。

起初，由于在发现时的复杂程度令人望而却步，有些算法因此基本上被人们所遗忘。Gallager 在 20 世纪 60 年代发现的低密度奇偶检查（LDPC）码就是一个典型的例子。David MacKay 在 20 世纪 90 年代重新发现了它们，现在它们已成为 5G NR 的支柱。这个例子说明，如果不能满足电信严格的计算和延迟要求，再好的算法也不管用。

正如《物理层深度学习简介》和《面向 5G 新空口的 3GPP 人工智能研究综述》所述，适用于无线通信的 AI 受到了学术界和行业研究人员的广泛关注。人们越来越认识到，与许多传统物理层算法相比，AI 有可能带来更高的可靠性和准确性，这启发了 AI 无线接入网络（AI-RAN）这一概念。迄今为止，大多数研究均以仿真为依据，因此关于实时推理延迟对拟定解决方案的影响还知之甚少。

无线通信系统对延迟和吞吐量的要求严重束缚了神经网络（NN）的设计，大大限制了其规模和深度。因此，在现实的延迟限制下，在实际蜂窝系统的物理层中部署和验证 AI 组件是一个开放且有趣的挑战。

本文将讨论在未来 AI-RAN 的物理层中部署基于神经网络的接收器组件所带来的机遇和挑战。我们将介绍优化的神经网络架构和实现实时推理所需的工具链。我们还将讨论特定站点训练的潜力以及通过端到端学习来实现无试点通信的概念，深入分析 6G 的可能研究方向。

NVIDIA 开设研究实验室

NVIDIA 已开发出基于神经网络的无线接收器研究原型，该原型以学习型组件取代部分物理层信号处理工作，并且特别关注神经网络架构执行实时推理的能力。详情请参见适用于 5G NR 多用户 MIMO 的神经接收器：

https://arxiv.org/pdf/2312.02601

为了赋能 AI-RAN 研究人员和工程师，NVIDIA 发布了研究代码，该代码提供了设计、训练和评估基于神经网络的接收器所需的整个工具链。NVIDIA TensorRT 则在 GPU 加速的硬件平台上实现了实时推理。NVIDIA 提供的这种独特的软硬件堆栈实现了从 NVIDIA Sionna 中的概念原型设计无缝过渡到使用 TensorRT 的早期现场评估，再到 NVIDIA Aerial 中的商业级部署。

我们已展示了该项目的部分内容，包括神经接收器硬件在环验证、特定站点训练和端到端学习。

从手工信号处理块到神经接收器

神经接收器（NRX）基于训练单个神经网络来联合执行信道估计、均衡和解映射的理念（图 1）。经过训练的神经网络可根据信道观测结果估计传输位，并可直接替代现有的信号处理算法。有关 NRX 概念的更多详情和性能评估，请参见迈向特定环境基站：AI/ML 驱动的神经 5G NR 多用户 MIMO 接收器：

https://developer.nvidia.com/blog/towards-environment-specific-base-stations-ai-ml-driven-neural-5g-nr-multi-user-mimo-receiver/

图 1. 发送和接收信息位：经典接收器和神经接收器

从算法角度来看，NRX 主要由张量运算定义，包括矩阵乘法和卷积。与许多 AI 应用一样，使用 NVIDIA 硬件可显著加速这些操作。此外，NVIDIA 生态系统中的大量剖析和优化工具能够完善 NRX 架构，有效消除性能瓶颈。由此产生的 NRX 架构利用 NVIDIA TensorRT 推理库，在 NVIDIA GPU上将推理延迟减少到 1 毫秒以下。

符合 5G NR 标准和重新配置

尽管 NRX 概念相当简单，但要将其集成到 5G NR 标准中，却需要解决几个工程难题（图 2）。由于实际设置中的网络配置可能会在几毫秒内发生动态变化，因此建议使用的 NRX 架构具有自适应性，并且能够支持不同的调制和编码方案（MCS），既不需要重新训练，也不会增加推理复杂性。

此外，该架构还支持任意数量的子载波，并可实现活动用户数量不等的多用户 MIMO。实际部署时的另一个要点是能够处理符合 5G NR 标准的参考信号。

图 2. 神经接收器架构的主要功能

为了保持 NRX 在未知信道条件下的弹性，该训练在 3GPP 38.901 的城市微蜂窝（Umi）场景中进行，使用随机宏参数，如信噪比（SNR）、多普勒频差和活动用户数等。这样就能预训练出一个适用于各种无线电环境的强大、通用 NRX。

由于 NRX 是一个软件定义架构，因此即使在部署之后，特定站点微调也能给接收器带来持续的改进。本文的后续部分提供了一个详细的微调示例，该示例使用了基于无线电环境光线追踪的仿真结果，即所谓的数字孪生。如需了解更多技术细节，请参见入门教程和神经接收器架构概述 notebook：

https://github.com/NVlabs/neural_rx/blob/main/notebooks/jumpstart_tutorial.ipynb；

https://github.com/NVlabs/neural_rx/blob/main/notebooks/nrx_architecture.ipynb

实时限制下的性能评估

如上文所述，AI 算法的部署有严格的实时限制。如果运行时未满足延迟要求，即使是强大的 NRX 架构也可能变得不管用。换句话说，最适合部署的网络不一定是错误率最低的网络，而是在规定的计算延迟范围内具有最高准确性的网络。

估计特定神经网络架构的推理延迟是一项复杂的任务，因为结果在很大程度上取决于目标硬件平台、特定软件堆栈和代码优化程度。因此，浮点运算（FLOP）次数、权重或层数等指标通常被用作模型计算复杂度的代用指标。但由于推理过程中的高度并行性和潜在的内存瓶颈，这些指标可能会产生误导。所以我们在目标 NVIDIA GPU 上使用 TensorRT 推理库部署了 NRX，保证了延迟测量结果的真实性，并使用性能剖析器消除关键路径上的瓶颈。

在 TensorFlow 中完成训练后，我们将训练好的模型导出为 ONNX 文件，并构建了 TensorRT 推理引擎。TensorRT 会针对目标平台自动优化神经网络的推理，需要时还会提供详细的剖析输出结果。实时教程 notebook 提供了一个示例：

https://github.com/NVlabs/neural_rx/blob/main/notebooks/real_time_nrx.ipynb

正如预期的那样，计算复杂度在很大程度上受 5G 系统配置的影响，包括分配的子载波数和活动用户数等参数。NRX 架构采用可配置的网络深度进行设计和训练，从而在训练后能够控制计算延迟。凭借这一灵活性，NRX 在目标硬件平台或系统参数发生变化时可以轻松进行重新配置。

图 3 显示了使用 TensorRT 在 NVIDIA GPU 上执行 NRX 的性能评估。实时限制下的性能与计算不受限制的网络版本有所不同。不过，即使在实时限制下，NRX 的性能也具有竞争力，甚至优于许多经典接收器算法。

图 3. 通过改变网络深度，进而改变神经网络推理延迟，从而对 NRX 进行性能评估

超越经典算法：特定站点微调

AI-RAN 组件的一个引人瞩目的特点是能够进行特定站点微调，这使得神经网络权重即使在部署后也能得到完善。该微调依赖于两个关键因素：

基于 AI 的算法，如 NRX 等
软件定义 RAN，便于在系统使用过程中提取训练数据

采集数据后，可在本地进行训练或在云端进行离线训练。

为了演示神经接收器的特定站点微调，我们使用 Sionna 光线追踪器，在整个场景中抽取了 1,000 个随机用户位置和速度的训练数据集。图 4 显示了用于评估已微调的接收器性能的用户位置。红点表示基站位置，灰线表示用于评估的用户轨迹。新场景可直接从 OpenStreetMap 中加载。

图 4. 用于 NRX 特定站点微调和评估的环境

由于微调是从预训练的接收器网络权重开始的，因此只需要少量训练步骤和适度的计算资源。NRX 架构本身保持不变。图 5 显示了在单个 GPU 上进行 1 分钟微调，就能大幅降低特定无线电环境下的误码率。特定站点训练可以使较小的 NRX 适应特定的无线电环境，使其能够在 4 倍大的、普遍预训练的 NRX 水平上执行。这大大减少了推理过程中的计算量，同时保持了极低的错误率。

图 5. 通过使用仅 1,000 个数据样本（固定数量）对特定站点的接收器进行微调来提高信噪比

AI 赋能的无线接入网络具有不断适应实际射频环境的独有能力。因此，预计完全由软件定义和 AI 驱动的下一代基站在部署后仍能不断改进。

从符合 5G 标准转向 6G 研究

最后，神经接收器不仅是现有接收器算法的强大替代品，同时也是实现一系列新功能的关键技术，例如使用端到端学习的非导向通信和部署后的特定站点再训练。

图 6 演示了端到端学习方法，其中 NRX 通过可训练的定制群集进行扩展，该可训练的定制群集可用于替代传统的正交调幅(QAM)。

图 6. 通过使用可训练的定制群集扩展 NRX，实现非导向通信方案的端到端学习

可训练的定制群集与无导向时隙结构的结合迫使 NRX 在不依赖任何参考信号的情况下学习信号重构。直观地说，NRX 学习的新群集隐含了可用于联合信道估计和均衡的某类叠加导向方案。经过训练后，由此产生的方案具有与经典 5G 系统相似的错误率，但由于完全消除了导向开销，因此数据传输率更高。如要了解更多详情，请参见端到端学习 notebook：

https://github.com/NVlabs/neural_rx/blob/main/notebooks/e2e_pilotless_communications.ipynb

尽管由此产生的群集不符合 5G NR 标准，但它们表明了 AI 如何实现提高可靠性和吞吐量的新颖 6G 功能。如要了解更多信息，请访问 GitHub 上的 NVlabs/neural_rx。

*本研究得到了欧盟 101096379（CENTRIC）资助协议的资金支持。但本文所表达的观点和意见仅代表作者本人，不代表欧盟或欧盟委员会（拨款机构）的观点和意见。欧盟和拨款机构对这些观点和意见概不负责。