Quantum Reinforcement Learning by Adaptive Non-local Observables

通过自适应非局域可观测量实现的量子强化学习

https://arxiv.org/pdf/2507.19629?

打开网易新闻 查看精彩图片

摘要

混合量子–经典框架利用量子计算进行机器学习,但变分量子线路(VQCs)受限于局域测量。本文提出一种自适应非局域可观测量(Adaptive Non-local Observable, ANO)范式,将其嵌入变分量子线路中用于量子强化学习(Quantum Reinforcement Learning, QRL),联合优化线路参数与多量子比特测量。ANO-VQC 架构作为函数逼近器,被集成到深度 Q 网络(DQN)与异步优势行动者–评论家(A3C)算法中。在多个基准任务上,ANO-VQC 智能体性能优于基线 VQC。消融研究表明,自适应测量可在不增加线路深度的前提下拓展函数表达空间。结果表明,自适应多量子比特可观测量可在强化学习中促成切实可行的量子优势。

索引术语—变分量子线路,量子机器学习,量子神经网络,强化学习,非局域可观测量,厄米算符,DQN,A3C。

I. 引言

量子计算(QC)有望在某些经典硬件难以处理的任务上实现加速。尽管当前含噪声中等规模量子(NISQ)设备仍面临退相干、量子比特数量有限以及量子门操作保真度不足等挑战,但在硬件稳定性提升与误差缓解技术方面已取得显著进展[1]–[3]。这些进步激发了科研人员积极探索量子资源可能相较于纯经典方法带来实质性优势的应用领域。

量子机器学习(QML)是其中尤为活跃的一个方向。其将量子子程序集成到经典学习流程中,以期增强模型的表征能力、优化高维参数空间,或加速核函数计算[4]–[6]。大多数QML方案采用混合量子–经典范式:一个参数化量子线路(PQC)或变分量子线路(VQC)负责数据处理,而经典优化器则调整线路参数,以最小化任务特定的代价函数[7]–[11]。该方法结合了量子态制备与纠缠等量子特性,以及经典优化循环的成熟性与灵活性。已有研究表明,相较于经典模型,VQC能够更高效地表示复杂概率分布[12],[13]。另有若干工作指出,量子学习器所需的查询次数可呈指数级减少,且对噪声更具鲁棒性,凸显了近期量子设备在机器学习任务中的潜力[14],[15]。

在量子机器学习(QML)框架下,量子强化学习(QRL)探索将量子线路——尤其是变分量子线路(VQC)——用作强化学习(RL)任务中的策略函数或价值函数逼近器[16]。在RL中,智能体通过与环境交互以最大化累积奖励,需在探索与利用之间取得平衡。经典算法如深度Q网络(DQN)[17],[18]与异步优势行动者–评论家(A3C)[19]已在多种决策任务中取得广泛成功。

早期QRL研究已证实:基于VQC的智能体可在离散控制环境中实现有效学习[20]–[25]。例如,将VQC嵌入DQN框架的混合量子–经典智能体,在FrozenLake与认知无线电控制等任务中,以少于经典网络的参数量实现了有效的Q值学习[20];在CartPole与Blackjack等环境中,集成于DQN及Double DQN框架的VQC亦凭借高效的量子数据编码展现出相当甚至更优的性能[21]。文献[24]提出了一种专为DQN定制的变分量子算法,证实输入编码方式与可观测量设计等架构选择对离散与连续任务性能均有显著影响。文献[22]引入了参数化量子策略,并提供了理论与实证依据,表明在特定构造的RL环境中可能存在量子优势。文献[25],[26]则探索了VQC增强的A3C方法,发现量子智能体在性能上可与经典基线媲美甚至更优,且得益于量子线路的强表达能力与并行学习策略,收敛速度有所提升。

传统上,量子神经网络(QNN)架构仅在变分层之后施加局域测量(通常是单量子比特Pauli算符),这可能限制VQC可实现的函数空间,进而阻碍对复杂状态–动作关联的学习。为应对这一局限,研究者提出了多种测量策略,例如随机测量[27],[28]以及量子卷积神经网络(QCNN)中的池化测量[29]。近来,一种可学习可观测量框架被提出,以联合优化线路参数与测量基[30],[31];该思路进一步发展为自适应非局域可观测量(Adaptive Non-local Observable, ANO)范式[32]——其动态选取纠缠型测量算符,以最大化模型表达能力。

本文将ANO模型与基于VQC的RL智能体相结合,应用于DQN与A3C等框架,旨在证明:更丰富的测量方案可显著提升各类环境下的策略学习效果。具体而言,本文贡献如下:

  • 我们将自适应非局域可观测量整合至DQN与A3C智能体的VQC主干中,使测量方案可与线路参数同步训练;
  • 我们在多个受控任务(如CartPole、MiniGrid、MountainCar)上评估所提出的ANO-VQC智能体,并与采用局域测量的基线VQC智能体进行性能对比;
  • 通过消融研究,我们证明:ANO可拓展VQC可实现的函数空间,从而带来更快的收敛速度与更高的累积奖励。

结果表明,引入自适应多量子比特测量可释放混合量子–经典智能体的潜在能力,推动我们在强化学习中迈向切实可行的量子优势

II. 用于量子强化学习的自适应非局域可观测量

A. 强化学习公式化描述

强化学习(RL)是一种通过与环境交互进行学习的计算方法,其形式化表述为一个马尔可夫决策过程(MDP),由五元组 (S, A, P, γ, R) 定义,其中:

  • S 是状态空间,表示环境所有可能的配置;
  • A 是动作空间,表示智能体可以采取的所有可能动作;
  • P : S × A × S → [0,1] 是转移概率函数,其中 P(s′|s, a) 表示在动作 a 下从状态 s 转移到状态 s′ 的概率;
  • 奖励函数 R : S × A × S → ℝ 为状态转移 s →a s′ 赋予价值;
  • 常数 γ ∈ [0,1] 是折扣因子,决定累积奖励的衰减速率。

一系列作用于初始状态 s₀ ∈ S 的动作将引发 MDP 的动态演化:

打开网易新闻 查看精彩图片

策略(policy)是一个函数 π : S → A,用于在任意给定状态 s ∈ S 下生成动作 π(s) ∈ A。在强化学习(RL)的语境中,策略 π 也被称为智能体(agent)。强化学习的目标是找到最优策略 π*,使其在序列上获得最高的奖励(见公式1)。

给定一个策略 π,可定义状态价值函数(state-value function):

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

策略内(on-policy)优势梯度(即从策略 π 中采样轨迹(式 1))、熵正则化(entropy regularization),以及各工作进程间无锁异步(lock-free asynchronous)参数更新——这三者的结合构成了 A3C 的核心机制。

在本文工作中,我们在 Q-learning 与 A3C 的范式基础上,采用自适应非局域可观测量(ANO)对其进行建模,以评估其在强化学习任务中的性能表现。

B. 用于量子强化学习的自适应非局域可观测量

在量子机器学习(QML)中,作为量子神经网络(QNN)的变分量子线路(VQC)定义如下:

打开网易新闻 查看精彩图片

其中输入向量 x ∈ ℝⁿ 由编码层 W(x) 编码,该层作用于初始态 |ψ₀⟩ = |0⟩⊗ⁿ,随后接一个参数化变分层 U(θ),参见图1。

打开网易新闻 查看精彩图片

编码层 W(x) 对每个量子比特施加 Hadamard 门,接着是单量子比特旋转门 R(xᵢ),其旋转角度由输入分量 xᵢ 决定。变分层 U(θ) 由相邻量子比特之间的纠缠 CNOT 门以及具有可学习参数 θᵢ 的局部旋转门 R(θᵢ) 构成。最后,通过测量可观测量 H 来获得线路的输出。

式9中VQC的一个限制因素在于固定的厄米算符 H,这导致输出被限制在区间 λ₁ ≤ fᵥqc(x) ≤ λₙ 内,其中 λ₁ ≤ ⋯ ≤ λₙ 是 H 的特征值。

使用传统泡利可观测量(Pauli observables)的 VQC 仅有两个特征值 λ = ±1,这进一步限制了其输出范围:

打开网易新闻 查看精彩图片

为克服固定可观测量所带来的局限性——尤其是输出范围受限以及基于泡利测量的表达能力不足——我们提出将自适应非局域可观测量(ANO)[32]整合进量子强化学习(Quantum RL)框架。ANO 通过引入一个自适应的 k-局域可观测量,显著增强了基于 VQC 的模型,使其具备更灵活、更具表达力的函数逼近能力。

在 ANO 中,一个作用于 k 个量子比特(k ≤ n)的 k-局域可观测量通过以下方式参数化:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

III. 实验

A. ANO-DQN

为评估所提出的 ANO 增强型 Q 学习框架,我们在 CartPole 和 Mountain Car 环境中进行了实验,所用 VQC 设置如式 12 所定义。

  1. Cart-Pole:由连续状态空间 S ⊂ ℝ⁴ 定义,其中 s = (x, ẋ, θ, θ̇) ∈ S 表示小车位置 x、速度 ẋ、杆子角度 θ 及角速度 θ̇。动作空间是离散的:A = {0,1},分别对应向左施加力(a=0)或向右施加力(a=1)。在每个时间步,只要杆子保持直立且小车未超出边界,智能体即获得奖励 R(t) = 1;否则该轮次终止。

我们的结果总结于图3,比较了三种配置:

打开网易新闻 查看精彩图片

  1. (3-局域 w/ R.)含变分层的 3-局域 ANO,其中变分酉矩阵 U(θ) 与自适应可观测量 H(φ) 均被训练以逼近 Q 函数;
  2. (仅 R.)传统 VQC,使用泡利 Z 测量与变分层 U(θ),但采用固定的泡利矩阵;
  3. (仅测量)不含旋转门的 3-局域 ANO,移除变分层 U(θ),完全依赖可训练的 H(φ) 实现学习表达能力。

带有旋转门的 3-局域配置学习速度最快,比另外两种配置更早且更稳定地达到环境设定的 500 步上限。传统的 VQC(“仅 R.”)收敛更慢,且平均奖励更低,表现类似于仅依赖测量的变体。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图4展示了Mountain Car环境的实验结果,表明仅依赖旋转门的配置在此任务中不具备足够的模型表达能力。采用ANO模型后,仅将线路局域性从3提升至6,性能便得到显著提升。此外,在6-局域级别下,增加旋转不变性带来的额外收益微乎其微,因为无论是否引入旋转门,两种变体最终均收敛到相近的高奖励值。这表明,一旦模型具备足够的表征能力(此处为局域性=6),在Mountain Car环境中强制施加旋转对称性已不再明显改善学习效果。

打开网易新闻 查看精彩图片

B. ANO-A3C

对于ANO-A3C设置,我们将ANO模型直接集成进A3C框架,其中行动者(策略)网络与评论者(价值)网络均由量子逼近器 fθ,φ(s, a) 实现(定义见式12),并结合式14与式15。该框架在CartPole与MiniGrid环境中进行基准测试,旨在考察ANO增强的表达能力是否能带来相较于传统VQC智能体在性能或训练稳定性方面的提升。所有实验中,我们考虑三种电路配置:

  1. (3-局域 w/ R.)含变分层的3-局域ANO,同时使用变分酉矩阵U和3-局域自适应可观测量H;
  2. (仅R.)对应传统VQC设置,包含变分层U与固定的泡利Z测量;
  3. (仅测量)不含变分层的3-局域ANO,即U = I,全部表达能力来源于可训练的H。
  4. Cart-Pole:图5绘制了A3C智能体在CartPole任务中所获得的移动平均奖励(±一个标准差,滑动窗口=100)。3-局域 w/ R. 曲线增长最陡峭,约在第12,000轮次时跨越移动平均奖励400;仅测量变体学习速度较慢,平均奖励仅达到约250;相比之下,仅R.配置(传统VQC)奖励低于100。这些结果表明,在CartPole任务中,同时引入旋转门与非局域测量(即3-局域 w/ R.设计)能显著加速学习过程并稳定性能表现。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在A3C与DQN的CartPole实验中,带旋转门的ANO配置均优于仅旋转门与仅测量基线。此外,A3C框架使“仅测量”情况也能以更少波动稳步学习至中等水平奖励,而在DQN框架下则趋于停滞。

  1. MiniGrid:在MiniGrid系列中测试两个任务:MiniGrid 8×8 与 MiniGrid-SimpleCrossing S9N1。由于状态维度较高,采用经典线性层将输入特征降维至4维后输入ANO模型。

MiniGrid 8×8 是一个稀疏奖励的网格导航任务,智能体需在8×8环境中定位并抵达目标格子,仅在成功时获得+1奖励。MiniGrid SimpleCrossing S9N1 则要求智能体穿越一条狭窄走廊,奖励机制与8×8环境相同。图7显示,带旋转门的ANO在第6000轮次时成功率达到0.8以上;仅旋转门情况收敛于约0.4且波动较大;仅测量方案则约为0.3,表明在更具挑战性的任务中,旋转门对实现可靠性能具有优势。

打开网易新闻 查看精彩图片

V. 结论

本文提出了一种将自适应非局域可观测量(ANO)新颖地融入变分量子线路(VQC)以用于量子强化学习(QRL)的方法,将ANO范式作为核心函数逼近器嵌入至DQN与A3C两种框架中。通过联合优化线路参数与多量子比特测量算符,我们的ANO-VQC智能体在包括CartPole、Mountain Car以及多种MiniGrid任务在内的多个基准测试中,持续优于采用固定局域泡利测量的基线VQC。实验结果表明,ANO-VQC模型具有更快的收敛速度与更高的累积奖励。此外,消融研究进一步揭示:提升测量的局域性(locality)可显著扩展量子模型的表征能力,且无需增加线路深度。值得注意的是,在较简单的导航任务中,或当测量局域性足够大时,“仅测量”变体(即无变分旋转层)也能实现有效学习——这凸显了自适应可观测量所赋予的灵活性。

总体而言,我们的研究结果表明:自适应多量子比特测量能够释放混合量子–经典RL智能体中潜在的表达能力,从而在NISQ时代硬件上更高效地探索复杂的价值函数空间。

原文链接:https://arxiv.org/pdf/2507.19629?