量子化学模拟提速：改进张量分解与活性空间编译技术|张量|模拟|算法|编译技术|范数|量子化学

Faster quantum chemistry simulations on a quantum computer

with improved tensor factorization and active volume compilation

量子化学模拟提速：改进张量分解与活性空间编译技术

https://arxiv.org/pdf/2501.06165

摘要

分子体系的电子结构计算是容错量子计算（FTQC）在量子化学和药物设计领域中最富前景的应用之一。然而，尽管近年来在算法方面取得了显著进展，例如量子比特化（qubitization）和张量超压缩（Tensor Hypercontraction, THC）等技术已大幅降低了此类计算的复杂度，但其计算运行时间仍未缩短到足以满足工业实际应用场景的程度。在本研究中，我们提出了一系列针对分子体系电子结构计算的新进展，相较于在同类量子设备上运行的先前最先进算法，我们的方法在预估运行时间上实现了两个数量级的加速。

其中一项进展是一种全新的“块不变对称性偏移张量超压缩”（BLISS-THC）框架，借助该框架，我们实现了迄今为止最紧凑的哈密顿量因式分解。我们将算法编译到“活性体积”（Active Volume, AV）架构上，这是一种最近为基于光子融合的量子硬件所提出的新型技术架构。AV编译通过消除底层表面码中因连接性问题带来的开销，进一步降低了计算的运行时间。

我们对所提出的方法进行了详细的基准测试，重点聚焦于计算上极具挑战性的基准分子P450。通过利用基于交错机制的光子容错量子计算中的多项硬件权衡关系，我们估算了P450电子结构计算的运行时间，并将其表示为设备物理尺寸（footprint）的函数。

I. 引言

高精度的量子化学计算在工业领域具有广泛的应用，范围涵盖反应速率优化 [1, 2]、计算机辅助药物设计 [3–6] 以及电池性能优化 [7–9]。然而，由于最精确方法的计算资源需求呈指数级增长，导致在经典计算机上的运行时间极长且不切实际，因此大多数量子化学计算通常只能采用近似方法，例如密度泛函理论（DFT），而这往往导致预测结果的可靠性较低 [10, 11]。因此，高精度的量子化学计算被认为是量子计算机最具前景的实际应用之一。

一个典型的例子是强关联体系的电子结构计算 [12–17]，例如铁钼辅因子（FeMoco）[15] 或细胞色素P450 [18]，它们在生物系统中都发挥着关键作用。FeMoco 是固氮酶的一部分，能够断裂氮气分子中的三键，最终生成两个氨分子。因此，深入理解其化学机制可能为设计新型固氮催化剂提供新的思路。与此同时，细胞色素P450是一类血红素蛋白，在药物代谢过程中起着至关重要的作用。药物与P450蛋白之间的相互作用可能导致不良后果，例如药物-药物相互作用或活性化合物在体内的系统性清除加快。因此，在计算机辅助药物设计中，这类蛋白常被视为“反靶标”（anti-targets）[19]。

近年来，人们越来越致力于改进现有方法，以提高容错量子计算（FTQC）中电子结构计算的效率。自首次对FeMoco进行资源估算以来 [15]，大量研究集中于估算所需计算资源的上限，特别是非克利福德门（non-Clifford gates）的数量和量子比特（qubits）的数量。得益于改进的量子算法 [20–25] 和对量子化学哈密顿量更优的表示方法 [26–28]，我们已经见证了采样分子系统本征谱所需的量子资源减少了几个数量级。

从算法角度看，早期使用量子相位估计算法（QPE）的研究主要集中在通过在量子计算机上对时间演化算符 U=exp(−iHt)进行 Trotter 分解，来估算电子结构哈密顿量 H的谱。然而，近期的研究趋势已转向采用“量子比特化”（qubitization）方法：这是一种利用量子行走算符将哈密顿量 H的能量 E编码为其本征值 ±arccos(E/λ) 的QPE变体，其中 λ是一个被称为“1-范数”（1-norm）的参数。需注意，此处的1-范数并非指哈密顿量的诱导ℓ¹范数，而是指其算子范数的一个上界。从技术层面看，该1-范数值出现在“块编码”（block encoding）过程中，即量子行走算符中将哈密顿量作用于代表系统的量子比特的部分 [21–23]。目前，qubitization 被认为是电子结构计算的前沿技术，其计算成本与 λ成正比。为了显著缩短量子计算的运行时间，可以采用能够编码具有更低1-范数的因式分解哈密顿量的算法。当前性能最优（资源消耗最低）的量子算法，要么基于“双重因式分解”（Double Factorization, DF）方法 [27]，要么利用“张量超压缩”（Tensor Hypercontraction, THC）技术 [26]。这些方法在预期的量子计算运行时间方面表现出非常令人鼓舞的改进。据估计，对于FeMoco和P450体系，在特定运行表面码的超导架构下，采样电子结构哈密顿量谱所需时间约为10²小时（或约10⁹个非克利福德门）[18, 26]。在此类初步方案基础上，最近的一些工作通过将DF与哈密顿量的“块不变对称性偏移”（block-invariant symmetry-shifts, BLISS）相结合，进一步降低了1-范数 [28, 31–35]。

然而，即使使用当前最高效的算法 [26]，对于诸如细胞色素P450 [18] 这类具有工业重要性的体系，此类计算的实际运行时间仍处于“天”量级。Santagati 等人 [5] 指出，这与制药工业工作流程所需的速度不相容，后者要求计算必须在秒级甚至更快的时间内完成。这一要求源于这样一个事实：在大多数情况下，人们关注的是系综性质的计算。通常，模拟需要进行大量（约O(10⁶)次）[36, 37] 单点能量计算，以获得热力学系综的性质 [38]。目前，严重的近似方法使得量子化学能够处理具有一定规模的相关体系，但对于强关联体系（例如药物与P450蛋白血红素中心相互作用的情况），这些近似不再适用。而精确描述这些体系的计算任务，对于经典硬件而言又超出了当前能力范围。因此，为了让量子计算机真正适用于工业应用，还需要进一步降低计算成本。这很可能需要将算法改进、哈密顿量分解优化与更先进的硬件和更高效的架构相结合。

最近，一种名为“活性体积”（Active Volume, AV）的新架构被提出，用于基于光子融合的容错量子计算（FTQC），该架构通过利用量子计算机中物理组件之间的非局域连接，有望显著减少计算运行时间 [39]。在不具备活性体积能力的传统架构中，执行容错操作需要大量逻辑量子比特的参与，而这些量子比特在其他时间可能处于空闲状态，导致编译器无法并行地将这些量子比特用于其他任务。尽管AV编译的性能已在RSA分解 [39] 和椭圆曲线密码学 [40] 中得到分析，但目前尚无针对化学问题的研究。

在本研究中，我们将BLISS技术与THC相结合。以P450体系为基准，我们证明：通过BLISS-THC方法、AV编译以及对块编码电路的一些改进，相较于在不具备AV功能的等效光子硬件上进行的THC计算，P450电子结构计算的计算运行时间至少减少了233倍。不同加速因素的具体分解见表I，而表II则简要回顾了此前针对P450电子结构计算的各项改进，直至本工作的进展。

为了获得实际的运行时间和空间需求，我们对基于光子融合的容错量子计算机的设计特性进行了务实的综述。例如，在这类设备中，“交错模块”（interleaving modules, IMs）的数量成为描述量子计算机物理尺寸的关键指标。对于光子容错量子计算机而言，物理量子比特的数量（在其他架构中常被引用）对设备占地面积几乎没有意义，这是由于一种称为“交错”（interleaving）的特性 [41]。通过将纠缠光子存储在光纤中，交错机制实现了物理运行时间与交错模块数量之间的权衡，从而将纠错码距离与设备的物理尺寸解耦。

因此，我们的工作将物理运行时间表示为量子计算机中交错模块数量的函数。对于具有大量交错能力的设备，我们可以计算出在特定时间范围内完成计算所需的最少交错模块数量，从而能够将我们的结果与先前的研究 [18] 进行比较。此外，我们还探索了通过算法层面的权衡进一步缩短运行时间的可能性，即在分配给计算内存的量子比特数量与用于执行操作的“工作区”（workspace）量子比特数量之间进行权衡。

本文其余部分的结构如下：在第二节中，我们讨论了一些所引用的哈密顿量因式分解技术，回顾了THC和BLISS方法，并最终发展出BLISS-THC方法。在第三节中，我们介绍了新哈密顿量的块编码量子电路。随后，在第四节中，我们为硬件和运行时间的计算奠定基础，回顾了活性体积架构、交错机制、工作区量子比特以及运行时间的权衡关系。基于前述各节内容，我们在第五节中展示了针对P450基准体系的结果，分析了BLISS-THC哈密顿量，从逻辑资源计数中获得相对加速比，提供实际运行时间并计算最小设备需求。我们的结果展现出多种时空权衡关系，特别是与纠错码距离和工作区大小相关：具有较小码距离/较大工作区的设备计算速度更快。这使得我们将算法改进所带来的量子比特节省转化为运行速度的提升。最后在第六节中，我们提出了未来研究的方向建议。

II.极乐四氢大麻酚

A.理论概述

C. 块不变对称性偏移（BLISS）框架

总的来说，系数编码了一种基于对称性的规范不变性 [45]，这有助于将 1-范数降低到比传统哈密顿量理论上可达到的水平更低的程度。BLISS 方法最终利用了这样一个事实：传统的哈密顿量 H 本身包含了冗余信息，而这些信息仅在考虑包含所有可能对称性扇区的完整福克空间时才必要。在该量子电路的背景下，输入和输出波函数通常属于一个单一且明确定义的对称性扇区，这意味着编译后的哈密顿量只需在该特定扇区内与原始哈密顿量相等即可。我们通过显式写出块不变哈密顿量来结束本节，如下所示：

D. 块不变对称性偏移的张量超压缩

尽管最近的研究表明，先前的THC实现方案在谱界方面与传统的对称无关方法相比仅相差2到3倍，但在P450的S = 5/2对称性扇区中，它们仍比理论下界高出4到5倍。我们通过提出一种块不变对称性偏移的张量超压缩（BLISS-THC）方法来改进这些结果。为了提供一个既能适用于标准THC表示、也能适用于BLISS-THC的统一框架，本节的结果采用哈密顿量的马约拉纳表示形式，其中。该表示方式之所以更受青睐，是因为马约拉纳算符具有厄米性和自逆性，并且在进行Jordan-Wigner变换后，能与泡利串建立清晰的一一对应关系。我们的主要结果是基于马约拉纳的块不变电子结构哈密顿量：

III. 量子电路

在本节中，我们考虑 BLISS-THC 的哈密顿量块编码，这是一个作为量子系统某子空间中因子化哈密顿量的酉量子电路。由于 BLISS-THC 和 THC 生成形式相同的哈密顿量，我们提出一个与文献 [26] 中电路非常相似的量子电路，但进行了一些修改，这些修改被证明对其复杂性有益。由于电子结构计算几乎完全由对行走算符（walk operator）的调用构成，因此即使是对块编码的微小修改也可能影响整体运行时间。

接下来，我们将对电路进行教学性的解释，突出我们在其构建上的修改，并将读者引导至相关文献以获取更多细节。块编码是一系列子程序的组合：Prepare†、Select 和 Prepare，其中 Select 子程序如图1所示，Prepare 子程序如图2所示，以及对后者的反计算（uncomputation）。我们首先从第 III A 节中的 Prepare 过程开始。在了解该过程及算法中涉及的量子比特寄存器之后，我们继续讨论 Select 过程，并首先聚焦于电路中实现单体和双体算符的部分（见第 III B 节）：图1中用橙色高亮显示的是所谓的 Givens 旋转电路。在第 III C 节中，我们将考虑完整的 Select 电路，以及一些可以促进时间与空间复杂度之间权衡的变体。

V. 硬件与运行时间计算框架

A. 活性体积与物理资源估算

本小节概述了我们用于估算在基于光子融合的量子计算硬件上执行量子计算所需物理资源的方法。我们考虑了文献中的两种架构：一种是基准（BL）交错式基于融合的量子计算（FBQC）架构 [41]，另一种是活性体积（AV）架构 [39]。为了简化资源估算，我们假设这两种架构均采用表面码，并通过格子外科手术（lattice surgery）[49] 来实现逻辑操作。

我们将首先量化逻辑资源，然后将这些估算值转换为物理资源数量。对于上述两种架构，衡量逻辑资源的标准指标是“时空体积”（spacetime volume）。粗略地说，时空体积可以通过将逻辑量子比特的数量乘以完成计算所需的逻辑周期数来计算。一个逻辑周期包含 d 个码周期，其中 d 表示纠错码距离（code distance），而一个码周期是指测量所有纠错综合征（syndrome）所需的时间。我们通常以逻辑周期为单位来衡量时间，因为一个逻辑周期正是实现一次格子外科手术操作所需的时间 [50]。

由于时空体积是计算中两个主要资源——量子比特数量和时间——的乘积，因此该指标能够很好地反映这两者之间的权衡关系。量子架构决定了逻辑量子比特的布局以及逻辑操作的实现方式，因此架构的选择会对时空体积产生深远影响。因此，我们的首要任务是分别量化基准架构和AV架构的时空体积。

在基准架构中，假设共有 2m 个逻辑量子比特，其中一半为存储量子比特（memory qubits），我们实际上将 m 定义为存储量子比特的数量；另一半为工作区量子比特（workspace qubits）。除了存储和工作区量子比特外，还有一组额外的量子比特专门用于蒸馏“魔态”（magic states），以实现 T 门操作，如图 5(a) 所示。在该架构的最简单版本中，我们配置了足够多的魔态工厂，使其每个逻辑周期能生成 1 个 T 门 [51]。这样，在生成下一个 T 门的同时，工作区量子比特可以使用上一个逻辑周期中生成的魔态。这种简单的生成与消耗策略确保了整个计算时间仅取决于所需生成的 T 门总数。事实上，我们可以将总的 T 门数量（即 n_T）作为时空体积指标中时间维度的代表性代理。因此，基准架构的时空体积为 2m × n_T，其中 m × n_T 也被称为“电路体积”（circuit volume）。

V. 结果

B. 从因式分解到活性体积、电路体积与加速比

在确定了因式分解的所有参数后，我们现在可以编译该电子结构计算中核心的量子相位估计算法流程，同时忽略初始态制备过程中可能产生的开销，以及为提高结果统计置信度而重复整个算法所产生的额外开销。该流程的计算体积及其量子比特“峰值使用量”（qubit highwater）[61] 将强烈依赖于所选用的 Select 电路，我们有多个版本可供选择：第三节中提出的 Select 电路与先前文献 [26] 中的版本略有不同，主要体现在我们采用了融合加法器、对比特精度进行了更严格的分析，以及对 THC 矩阵中对角项的处理方式。此外，批量加载角度的可能性为每个 Select 版本提供了多种变体。目前，我们重点关注所有角度一次性批量加载的电路版本：即带有我们修改的 Select 电路，以及用于对比的文献版本。为了纠正文献参考中逻辑资源计数的一些不准确之处，我们已根据参数 ℵ=10、ℶ=18[62]、λ=388.9Eh和 M=320[18]，重新估算了 THC 算法的资源消耗。

仅凭两个量子计算的逻辑资源估算，我们就可以推导出它们之间的相对加速比，而无需显式计算各自的运行时间。对于总运行时间的加速比，考虑电路修改、BLISS-THC 和 AV 编译的影响，以下两个量子程序是相关的：

C. 从计算量到运行时间和设备占用

对于方程（52），我们假设两种计算的码距相同，但实际上我们可以做得更好：由于其较低的计算量，基于AV的BLISS-THC计算需要更低的码距。虽然这会根据方程（40）为运行时间提供额外的提升，但降低每个逻辑量子比特的距离也会减少所需的占用空间。根据IVB节，我们最小化码距并计算在分配备用资源到工作空间后的运行时间。通过这样做，我们可以确保两种不同计算之间的直接比较，同时保持IM数量不变。请注意，233倍的运行时间改进，如前一小节中获得的，作为速度提升的下限，与物理错误率和阈值无关。这两个参数都包含在方程（44）的误差抑制常数中。在Goings等人的论文中，运行时间是在α = 1的情况下获得的；对于早期容错量子计算机，这是一个乐观的假设，我们希望与更现实的α = 0.5场景进行对比。

在表V中，我们最终展示了两种相关计算的运行时间、IM数量和码距：在基线架构上运行的[26]中的THC算法，以及在AV架构上运行的我们的BLISS-THC算法。

对于这两种计算，我们保持IM数量不变，并区分α = 1的乐观场景和α = 0.5的现实场景。在所有情况下，总墙钟速度大约为476倍。使用光纤长度来调整交错量，占用空间与考虑的计算运行时间进行权衡。延迟长度越短，每个交错模块的资源状态比例越低，这使得计算更快，但增加了所需的交错模块数量。

当我们希望将量子计算机保持在尽可能小的物理尺寸时，需要最大化延迟长度。为了仍然减少运行时间，我们可以改变工作空间与内存量子比特的比例：我们为工作空间分配的量子比特越多，可以并行执行的逻辑块就越多。

在以下示例中，我们希望计算在特定时间框架内运行我们的BLISS-THC算法所需的最小IM数量。假设我们将交错长度固定为2km——一个较大的值，在这个值下我们开始注意到光纤损耗[41]的影响。由于算法固定了内存量子比特的数量，最小IM数量由我们将需要在工作空间中使用多少量子比特决定。在表VI中，我们提供了运行时间为73小时的结果，这是Goings等人[18]报告的算法运行时间，该算法使用个物理量子比特。我们还考虑了1小时的运行时间作为通往工业实用性的中间里程碑。表VI展示了α = 1和α = 0.5的IM数量，以及我们将在下一小节中讨论的修改后的Select的运行时间。

D. 批量加载

为最终加速计算，我们利用算法中量子比特峰值使用量（qubit highwater）与活性体积（AV）计数之间的权衡。此前，我们决定仅考虑一次性加载所有Givens旋转角度的Select电路版本——这些电路在托佛利门数量和AV计数方面是最优的，但具有较高的存储量子比特峰值使用量。事实上，对于P450体系，Select的局部峰值使用量主导了整个算法的量子比特需求。允许如图4所示的分批加载角度的电路，我们可以降低整个算法的量子比特需求，代价是增加活性体积（AV）。一旦存储中的量子比特被释放，它们就可以重新分配给工作区，从而在假设AV增长能够被克服的前提下，实现可能的运行时间加速。

图8展示了不同批处理大小的BLISS-THC-b的各种实例的AV数量，还展示了Alias Sampling中施加的量子比特最小值，该值是魔术态优化QROAM的量子比特最小值。从这个图中，我们选择了最小化运行时间的BLISS-THC-b实例。表VI不仅包含针对目标运行时间的IM数量，还提供了相应BLISS-THC-b计算的最低运行时间。对于具有较低IM数量的设备，我们发现BLISS-THC-b能够提供加速，而对于具有更多IM的设备，运行时间保持不变。对于后者，优化默认为所有角度在一个批次中加载的情况，将BLISS-THC-b变回BLISS-THC，因为没有其他批处理数量可以提供运行时间加速。在较小的设备中，通过将角度加载到7个批次中，可以实现最佳运行时间。

作为批处理的替代方案，我们还考虑将哈密顿数据转换为一元表示，从而放松角度加载。虽然人们会期望这会带来较大的量子比特高位寄存器，但它仅被批处理略微击败，如我们在附录D中讨论的那样。

VI. 结论

新的算法和方法只有在能够在与工业研发周期相匹配的时间内，为具有实际意义规模的系统提供准确结果时，才能在工业环境中得到应用。这意味着，要评估量子计算在工业应用中的实用性，必须获得实际的运行时间，而不仅仅是门复杂度或渐近复杂度分析。然而，准确评估运行时间是一项复杂的任务，需要综合考虑诸多因素。首先，运行时间的估算处于量子算法、量子编译、量子纠错以及量子系统设计等多个领域的交汇点。因此，诸如纠错码阈值、码距离、逻辑错误率等参数变得至关重要，同时还需要考虑量子比特连接性、魔态蒸馏协议等关键问题。

在本研究中，我们充分考虑了上述各个方面，从而能够以细胞色素P450中的血红素基团为例，全面展示分子体系电子结构计算的最新进展。其中一项重要改进是引入了BLISS-THC方法，这是分子系统量子模拟领域一系列递进式技术进步中的最新前沿成果，且适用于所有类型的量子架构。为了使BLISS-THC在数值上可实现，我们大幅降低了所有类型THC方法所需经典预处理的运行时间。目前，在单个消费级Nvidia GeForce RTX 4090 GPU上，对一个P450哈密顿量进行THC因式分解仅需约6分钟（外加6分钟的优化预热时间）。正因如此，我们得以对P450哈密顿量实施更为紧凑的因式分解流程。BLISS-THC不仅改善了哈密顿量的1-范数，还降低了张量的因式分解秩。此外，我们将经典预计算的开销降至极低水平，使其相较于以往方法已几乎可以忽略不计。这消除了基于成本函数的方法相较于基于对角化的双重因式分解（DF）等方法的一大劣势。

我们实现加速的最主要贡献来自于转向AV（活性体积）编译。这种运行量子程序的模式仅适用于某些特定类型的量子硬件，例如基于光子融合的架构。通过结合BLISS-THC与AV编译，并辅以一些小的算法改进，我们使电子结构计算的运行时间相较于参考的THC算法提升了233倍。这一加速效果独立于码距离的节省，因为后者依赖于更详细的误差模型信息。在本文考虑的场景中，加速比甚至可进一步提升至476倍。我们提供了多种规模的基于光子融合的量子计算机的运行时间估算，其中利用“交错”（interleaving）机制在运行时间与交错模块（IMs）数量之间进行权衡。

然而需要注意的是，交错模块的数量不能无限增加。当考虑更大数量的IM时，系统可能会遇到本文未探讨的额外瓶颈，例如“反应极限”（reaction limit）[40]。我们将对高IM配置的深入研究留待未来工作。我们还表明，对于BLISS-THC算法而言，传统上在基准架构中会减慢计算速度的量子比特权衡，在AV架构下有时反而可以被用来加速计算。

本工作中的某些改进不仅降低了计算体积，还减少了量子比特的峰值使用量（qubit highwater）。为了缩短实际运行时间（wallclock runtime），我们反复将这些空间节省转化为时间节省，方法是扩大AV架构中的工作区。因此，所有非时间资源的节省都被重新投入到设备中，以实现比以往算法更大的加速比。然而，我们也应考虑设备的物理尺寸（footprint）。本文中的许多权衡可用于将电子结构计算适配到比基准架构更小的量子计算机上。

基于这一思路，我们通过调整工作区量子比特的数量，推导出了在固定计算时长下的最小设备尺寸。通过修改算法，还可以实现更大的空间节省：原始的THC流程所需的辅助量子比特数量远远超过表示系统本身所需的量子比特数。虽然BLISS-THC已为P450体系直接减少了299个量子比特，但我们发现，通过进一步优化，可将量子比特峰值使用量降至仅271个，而活性体积（AV）仅增加3.2倍。尽管我们已展示如何利用这种权衡来缩短运行时间，但在设备规模受限的情况下，接受一定的AV代价以换取更小的量子计算机，也是一种合理的选择。

本文绝非量子计算机上电子结构计算运行时间优化的终点。未来仍有许多极具前景的方向可以实现进一步的加速。尽管我们通过引入BLISS显著提升了THC的性能，将P450体系的1-范数从389 Eₕ降低至130.9 Eₕ，但我们尚未达到理论上的1-范数极限69.3 Eₕ [42]。其他哈密顿量因式分解技术 [31, 32] 可能会让我们更接近这一极限。

引入活性体积（AV）代表了一种算法成本评估范式的转变，它改变了我们对某些子程序的思考方式。未来，我们有望对量子电路进行深刻修改，使其在新的成本模型下实现最优设计。例如，克利福德门（Clifford gates）如今已成为数据加载器中的主要成本，这可能开辟一个全新的优化空间供我们探索。本着这一精神，我们也应考虑根据实际数据来评估诸如数据加载器等子程序的成本，而非仅仅依据其最坏情况下的计数。事实上，这一思路可远远超出数据加载器的范畴：通过使量子程序更加贴近实际，所有子程序的运行时间都有可能被进一步缩短。此外，目前我们仍在使用子程序AV的上界估计。若能对AV成本进行更精确的分析，即使不改变算法本身，也将立即显著改善预期的运行时间。

我们乐观地认为，本文中的资源估算结果在未来还将得到进一步改进。为此，我们需要量子计算堆栈各个层面、来自多个学科的共同努力。例如，量子纠错领域的新进展 [63–66] 对成本模型的影响也需要被纳入考量。通过持续优化这一应用场景的资源消耗，我们的目标是让实用型量子计算更早实现，并为通向工业价值的道路做出贡献。

原文链接：https://arxiv.org/pdf/2501.06165