Are Your Continuous Approximations Really Continuous?Reimagining VI with Bitstring Representations
质疑连续近似:以比特串重塑变分推断
https://openreview.net/pdf?id=SaidYid1Mq
摘要
在大规模模型中高效地执行概率推理是一项重大挑战,这主要是由于计算需求高以及模型参数的连续性所致。与此同时,机器学习社区也在努力对大规模模型的参数进行量化,以提高其计算效率。我们在此基础上提出了一种通过变分推断(VI)来学习量化参数的概率分布的方法。这种方法使得在离散空间中也能有效地学习连续分布。
我们考虑了二维密度估计和量化神经网络,并引入了一种使用概率电路(probabilistic circuits)的可处理学习方法。该方法为管理复杂分布提供了一个可扩展的解决方案,并能清晰地揭示模型的行为特征。我们在多种设置下验证了我们的方法,证明了其有效性。
1. 引言
概率推理是现代机器学习的核心,它为在不确定性下的推理提供了有原则的框架。在贝叶斯推理中,不确定性通过参数的后验概率分布来刻画。然而,精确的贝叶斯推理通常是难以计算的,因此需要近似求解。
变分推断(Variational Inference, VI;Blei等,2017;Jordan等,1999;Wainwright和Jordan,2008)通常被用于这一任务,作为一种可扩展的解决方案。但VI的一个局限在于它依赖于连续参数化形式,且常常受限于高斯假设,这可能在表示能力和计算效率上带来问题,尤其是在大规模场景中。
为了应对计算上的限制,机器学习界越来越多地采用参数量化技术。这些方法通过降低数值精度来提升效率,利用低比特位表示来进行存储和计算。最近的一些研究显示,即使使用FP8混合精度(如Liu等,2024)、FP4(Wang等,2025),甚至1比特神经网络架构(Ma等,2024),也能取得出人意料的良好性能。
于是引出了一个有趣的问题:我们是否也可以在量化参数的离散表示空间中直接进行概率推理?
作为一个初步的思想实验,请参考图1,它展示了如何将一个通常用高精度浮点数表示的高斯混合模型,用低精度的比特串表示等价表达。
本文提出了BitVI,一种在比特串模型中进行近似概率推理的新方法。BitVI 利用了数值表示固有的离散特性,在比特串空间中直接逼近连续分布。通过结合概率电路(Probabilistic Circuits, PCs;Choi等,2020),我们的方法提供了一种可在复杂分布上进行学习与推理的可操作方式,而无需高精度表示。
图2 展示了 BitVI 仅需4比特精度即可建模复杂分布的能力。我们在以下两个方面验证了 BitVI 的效果:
(i)标准基准密度函数,展示其对已知分布的逼近能力;
(ii)贝叶斯深度学习中的神经网络模型(基于Bayesian Benchmarks),其中 BitVI 实现了可扩展且直接的不确定性量化。
我们的结果突显了 BitVI 在效率与准确性方面的优势,使其成为传统推理方法之外的一种有力替代方案。
2. 方法
在计算机上执行计算时,感兴趣的参数不可避免地将以离散形式表示。每一个实数值都会通过计算机硬件中的一系列比特串(bitstrings)来表示,并通过一个映射函数 → R 映射到实数轴上,其中 B 表示比特位的数量,映射方式由所选用的数值系统决定(例如定点数表示法,见图5)。
因此,任何在计算机中表示的“连续”分布 p 或 q ,都可以被表达为关于比特串的离散分布。接下来,我们将说明如何将连续分布表示为关于比特串的一个具有可处理性和灵活性的变分族(variational family)。
2.1 BitVI:在比特串表示上的变分分布
设 q̂ 是一个定义在二进制字符串的可测空间 (Y, A) 上的概率分布,其概率测度为 Q̂ ,其中 A 为对应的 σ-代数。再设 (R, B) 是实数空间,B 为其波莱尔 σ-代数(Borel σ-algebra)。进一步地,定义一个可测映射函数ϕ: Y → R,它根据所选的数值系统(例如定点表示法,见图5),将每个二进制字符串映射为一个实数。
通过该映射函数 ϕ,我们可以定义在 (R, B) 上的诱导概率测度 Q ,即 Q̂ 在 ϕ 下的前推测度(pushforward measure)。具体来说,对于任意一个波莱尔集 B ∈ B ,我们有:
因此,通过指定一个关于比特串的分布 q̂ 和相应的数值系统,我们就可以获得一个在实数轴上的诱导变分分布 q。
接下来,我们的目标是找到变分分布的一个参数化形式 θ,使其与某个真实分布之间的 KL 散度最小化(见公式 (5))。当使用一个确定性概率电路来表示 q 时,参数 θ 对应于电路中所有权重 {wi}i 的集合。
需要注意的是,根据构造方式,我们电路模型中的叶节点建模的是连续均匀分布,因此它们不引入额外的参数。
最终得到的确定性概率电路是一棵树,其深度与比特串表示中使用的比特数成正比。电路中的每一个和节点(sum node)代表一个比特位的选择,其权重对应于该选择的条件概率。
例如,在一个使用3位定点数表示、包含1个整数位且无符号位的系统中,数值 0.5 对应的比特串是010。它的概率计算方式是基于各个比特位的选择(b₀ = 0, b₁ = 1, b₂ = 0),并沿着电路路径进行评估:
其中 表示小数部分的比特数。图6 展示了电路所反映的决策过程。
ELBO 的计算
确定性概率电路的一个便利特性是:它的熵可以相对于电路边数在线性时间内计算(Vergari 等,2021),详见附录D。
因此,在计算 ELBO 时,我们只需使用蒙特卡洛积分(Monte Carlo integration)来近似公式 (6) 中的期望对数概率项。
为此,我们首先通过逆累积分布函数变换(inverse CDF transform)进行重参数化,而这一变换在确定性概率电路中也可以解析地实现。
具体而言,我们采用如下的 ELBO 重参数化形式:
3. 实验
我们在第3.1节中首先从一个二维密度估计任务开始,以展示我们的方法在捕捉复杂非高斯分布方面的有效性。
接下来,在第3.2节中,我们通过将 BitVI 应用于贝叶斯神经网络(NNs),探索在贝叶斯深度学习设置下对高维后验密度的学习能力,展示了其在预测建模中进行有效不确定性量化的能力。
此外,我们还进行了一系列消融实验(见附录F.1),以评估数值精度与模型表达能力之间的权衡,研究比特串长度对性能的影响,以及神经网络中层次结构的作用。
3.1 二维密度估计
首先,我们在二维的非高斯目标分布任务中展示了我们所提出方法的灵活性。
在图2中,我们展示了使用4比特和8比特精度的 BitVI 对一些典型基准目标密度函数的近似结果。这些目标分布包括:混合分布、Neal漏斗分布、双模态高斯分布、环形分布和香蕉形分布。
此外,图8 展示了对两种密度函数的详细对比,表明 BitVI 能够很好地捕捉整体密度结构以及变量之间的交叉依赖关系,并且随着比特数的增加,近似质量也随之提升。
作为参考,图8中还展示了真实的目标密度以及由全协方差高斯变分推断(FCGVI)得到的近似结果。
3.2 高维密度估计:贝叶斯神经网络
接下来,我们尝试使用 BitVI 来近似贝叶斯神经网络(NN)参数的后验密度。
为了简化实验,所有神经网络实验中我们都采用了相似的网络结构:所有实验均使用两个隐藏层,仅改变每层的神经元数量。此外,我们使用了层归一化(layer norm;Ba等,2016),以限制权重的缩放范围。
图4 展示了一个不确定性量化(uncertainty quantification)的示例。我们使用一个具有 [8,8] 隐藏单元的神经网络,在“双月”二分类问题上进行了测试。
预测密度结果显示,与确定性模型和均场高斯变分推断(mean-field Gaussian VI)基线方法相比,BitVI 不仅能够提供具有代表性的不确定性估计,还能生成良好的决策边界。
为了对神经网络建模任务进行更定量的评估,我们使用了贝叶斯基准测试套件(Bayesian Benchmarks¹),这是一个用于评估机器学习中贝叶斯方法性能的标准社区工具集。
该套件包含了一些常见的评估数据集(通常来自UCI数据库,Kelly等,2025),并允许在固定评估设置下进行多种方法的比较。
我们在二分类任务中评估了我们的方法,并特别关注了一些小样本场景下的二分类任务(样本量范围为 100 ≤ n ≤ 1000),共涉及25个数据集。
我们遵循该评估套件中的标准设置,对输入点进行了归一化处理,并使用了预定义的数据划分方式。
有关神经网络结构和评估设置的更多细节,请参见附录 E.2。
表1展示了 BitVI(使用 2 位、4 位 和 8 位精度)、均场高斯变分推断(MFVI)以及全协方差高斯变分推断(FCGVI)的实验结果。
我们的方法在低比特设置下仍能与标准的 VI 基线方法表现相当,具有竞争力。使用 4 位和 8 位表示的 BitVI 在性能上与 MFVI 和 FCGVI 相当,这表明即使在基于比特串的表示空间中,也可以有效地进行概率推理,而不会显著损失预测能力。甚至在某些情况下,2 位精度仍然具有可行性。
4. 结论
本文提出了BitVI,一种用于近似贝叶斯推理的新方法,该方法直接在离散比特串表示空间中进行操作。我们展示了:即使在基于比特串的数值表示上,也可以直接进行推理,同时实现有效的近似推断和不确定性量化。
我们的实验表明 BitVI 在不同任务中具有良好的灵活性:
在第3.1节中,我们展示了其对复杂非高斯二维密度函数的近似能力;
在第3.2节中,我们在高维的贝叶斯深度学习后验推理任务中验证了其有效性,表明它能够在保持计算效率的同时提供稳健的不确定性估计。
尽管 BitVI 为灵活的变分推断提供了有前景的方向,但仍存在一些局限性:
由于电路模型对每个参数的比特串进行建模,我们的方法引入了大量需要优化的新参数,这在高维设置下可能带来进一步的挑战。为了扩展到高维场景,我们的方法还采用了均场近似(mean-field approximation)来逼近后验分布,这意味着模型参数之间的依赖关系未被建模。
然而在实际应用中,建模所有参数之间的依赖关系可能是不必要的。因此,一个有前景的未来方向是利用更紧凑的概率电路表示形式,例如 (Peharz 等, 2020) 所提出的方法。
附录A. 背景与相关工作
连续表示与离散表示之间的关系是计算科学中的一个基本问题。从本质上讲,数字计算依赖于离散结构,实数值被编码为有限长度的比特串(Knuth, 1997,第4章)。浮点运算则是在这种离散框架下对连续值的一种近似,它在保证数值运算效率的同时也引入了固有的精度限制(Sterbenz, 1974,第1章)。
近年来,随着量化技术和低精度算术的发展,这一基础性联系在机器学习领域重新受到关注。虽然这些技术最初主要是出于硬件资源限制的考虑,但它们也带来了一个新的机遇:如果能够直接在离散的比特串表示空间中进行推理,就可能在概率建模中实现新的效率提升。
贝叶斯推理提供了一个在不确定性下进行推理的原则性框架,但在大多数现实场景中,精确推理仍然是难以实现的。因此,研究者们发展出了一系列近似推理技术,其中就包括变分推断(Variational Inference, VI)(Blei等,2017;Jordan等,1999;Wainwright和Jordan,2008)。
VI 将推理问题转化为一个优化问题:通过拟合一个参数化分布来逼近后验分布,并最小化其与真实后验之间的反向KL散度。尽管VI具有良好的可扩展性,但它通常受限于其对连续参数化的依赖,而这种依赖可能会因均场假设或单峰性假设等限制性近似引入数值不稳定性和偏差。
这些局限性在低精度环境下尤为明显,从而引发了一个关键问题:我们是否可以在离散表示空间中直接进行推理?
概率电路(Probabilistic Circuits, PCs)是一种近期提出的、用于研究复杂概率分布的可处理表示的框架(Choi等,2020)。根据PC的结构特性,在电路下某些推理任务可以在多项式时间内完成(即模型复杂度的多项式级),同时保持较高的表达能力。
虽然PC通常用于精确概率推理,但它在近似贝叶斯推理中也有成功应用,例如:
作为替代模型进行编译推理(Lowd 和 Domingos,2010);
作为结构化离散模型的变分分布(Shih 和 Ermon,2020);
在离散概率程序中使用(Saad 等,2021)。
与我们的研究最相关的是,Garg 等(2024)利用基于比特串表示的PC在概率程序中实现了高效的近似推理。这项工作表明,PC 是一种自然且有前景的表示框架,适用于近似贝叶斯推理和不确定性量化。
附录B. 动机
给定一个目标密度 p ,我们的目标是找到一个变分近似 q ,使其最小化 p 相对于 q 的散度。
通常情况下,我们将关注的是 q 相对于 p 的反向 Kullback-Leibler(KL)散度(reverse KL divergence),而不是正向KL散度。
此外,我们假设 q 具有参数形式,其参数为 θ,即 qθ 。因此,目标是找到参数 θ,使得:
关键在于,当在计算机上计算公式 (5) 或公式 (6) 时,每一个 x 都不可避免地会以离散形式表示。
事实上,每一个实数值都会通过一系列比特串(bitstrings)来表示,并通过一个映射函数 映射到实数轴上,其中 B 表示比特位数,映射方式由所选用的数值系统决定。因此,任何在计算机中表示的分布 p 或 q ,都可以用一个关于比特串的分布来表达。
图5 展示了使用8位定点表示法对一个实数值进行表示的过程。
附录C. 技术细节C.1. 定点数表示系统
定点数(Fixed-point)表示系统是将比特串转换为实数值的一种可能方式。下面我们简要回顾这种数值表示系统的符号-幅值形式(sign-magnitude form)。
在该表示方式中,最高有效位(most significant bit)用于表示数字的符号:
1 表示负数,
0 表示正数。
其余的比特称为幅值位(magnitude bits),进一步划分为:
- 整数位
(integer bits),
- 小数位
(fractional bits)。
顾名思义,整数位用于编码所表示实数的整数部分,而小数位则用于编码其小数部分。
具体来说:
整数位表示的是2的非负次幂是否存在;
小数位表示的是2的负次幂是否存在。
例如,在图5中所示的比特串对应如下计算:
0 × 2² + 1 × 2¹ + 0 × 2⁰ + 0 × 2⁻¹ + 1 × 2⁻² + 1 × 2⁻³ + 1 × 2⁻⁴ (不包括符号位)
这代表了该比特串所编码的数值的整数与小数部分的构成方式。
C.2 概率电路
我们将简要回顾与本研究相关的一些概率电路(Probabilistic Circuits, PC)的核心概念。如需更详细的介绍,我们建议读者参考文献(Choi 等,2020)。
简而言之,概率电路是一种表示概率分布的有向无环图(DAG)。
一个概率电路由以下类型的节点组成:
- 和节点
(Sum nodes,记为 S),
- 积节点
(Product nodes,记为 P),
- 叶节点
(Leaf nodes,记为 L)。
概率电路是一种计算图:
- 和节点
对其子节点的输出进行加权求和;
- 积节点
对其子节点的输出进行乘积运算;
- 叶节点
代表单变量或多变量函数,例如高斯分布。
在对概率电路的结构施加某些约束条件后,可以高效地执行诸如边缘化(marginalization)等推理任务。下面将简要回顾其中的一些结构性质。
在本研究中,我们仅考虑同时满足平滑性(smoothness)和可分解性(decomposability)条件的概率电路,因为这两个条件对于高效执行常见的推理任务(如密度评估和边缘化)是必要的。
C.3 多变量比特串表示
到目前为止,我们所构造的诱导变分分布仅定义在实数轴上(即单变量情况)。为了将该方法扩展到多变量情形,我们考虑了两种方式:
- 均场变分族(mean-field variational family);
- 建模维度之间依赖关系的变分族
为了表示不同维度之间的依赖关系,我们在所有维度的比特状态上联合构建一个确定性概率电路(deterministic PC)。
在使用定点数表示系统的情况下,所构建的电路模型通过轴对齐分割(axis-aligned splits)递归地将定义域划分为超矩形(hyper-rectangles),并在构建过程中交替使用不同的维度进行划分。
需要注意的是,这种构造方式最终形成一棵二叉树,其叶节点数量为 2B×D ,其中 B 为比特位数,D 为维度数。因此,这种方法更适合于低维或低精度场景。
然而,如果在模型中引入条件独立性,则可以获得更紧凑的表示形式(见 Peharz 等,2020;Garg 等,2024)。有关该构造方式的更多细节,请参见附录 C。
其中,记号略有滥用地表示:
- C₀
表示 Sd,ϵₙ 的左子节点,对应比特值为 0 的情况;
- C₁
表示右子节点,对应比特值为 1 的情况。
由于我们在树的每一层交替使用不同的维度,因此每一步的决策仅基于当前“选定”的维度。
计算 tree-CDF 变换的逆变换仍然可以高效完成,其时间复杂度为O(B × D),其中 B 是比特位数,D 是维度数。
为了鼓励 q 在无限精度极限下具有平滑的密度函数,我们在优化电路权重时引入了一种深度正则化方案(depth regularization scheme)(详见附录 C.4 的进一步说明)。
如正文所述,在多变量分布的情况下,我们构建了一个电路模型,用于表示定义在超矩形(hyper-rectangles)上的分布。
设 Ω 表示该分布的定义域,我们递归地构造一个将定义域划分为可测子集的二进制划分(dyadic partition)。
这个过程通过在树的每一层选择一个分割维度,并根据数值系统的表示方式对超矩形进行划分来实现。例如,在定点数系统中,划分位置位于中间。
在下一层,我们从剩余未被划分的维度中选择一个新的分割维度,并相应地继续划分。
我们确保所有维度都被划分过之后,才重新开始新一轮的划分。
当每个维度都已经被划分了 B 次之后,构建过程结束,其中 B 是数值系统中使用的比特位数。
图7 展示了输入定义域 Ω 被递归划分为多个子定义域(即超矩形)的过程。
C.4 深度正则化
附录 F. 额外实验结果
以下部分包含额外的实验结果。
F.1. 消融实验(Ablation Studies)
目标分布复杂度的增加
我们考虑了一个消融实验,用于控制目标分布的复杂度。为此,我们构造了一个等距高斯混合分布,并在每个高斯具有不同方差的情况下,评估 BitVI 在使用不同位数时的熵表现。
图 9 显示了 BitVI(黑色曲线)在使用 16 位时对复杂度不断增加的目标分布(灰色曲线)的拟合结果,以及在不同位数下 BitVI 的熵变化。下方的熵图显示了表示每个目标所需位数的截断点,这表明 BitVI 自然地表现出一种简洁(parsimonious)的行为。
F.2. 模型复杂度与比特串深度之间的权衡
在神经网络(NN)应用中,一个有趣的问题是:我们是否真的需要在模型权重的数值精度上做到非常精细?近年来的大规模模型训练与推理研究表明,比起数值精度,模型更受益于更多的参数数量,从而获得更高的灵活性。
围绕这个问题,我们研究了模型是否能从概率处理中获得更高数值粒度(numerical granularity)的好处。
在表 2 中,我们同时改变了神经网络的复杂度(即两个隐藏层中的单元数)和比特串的深度。我们考虑了 2 到 12 位的模型(仅使用小数位)。在“two moons”数据集上的负对数预测密度(NLPD,越小越好)结果表明,即使是低比特深度的模型也能表现良好,而表达能力的主要决定因素是神经网络中的单元数量。
在附录 F 中,我们还提供了关于准确率(accuracy)和期望校准误差(ECE)的类似表格。
比特串是否捕捉到了神经网络中的层次结构?
最后,我们使用一个神经网络模型来研究 BitVI 所捕捉到的层次结构。我们从在 Banana 二分类数据集上训练得到的一个 10 位 BitVI 神经网络模型出发,逐步降低训练后模型的小数精度,去掉模型中更细粒度的层级。
图 10 展示了 10、8、6、4 和 2 位模型的结果(每个模型使用 2 位整数位,除了 2 位模型)。即使 4 位模型(2 位整数 + 1 位小数)也能很好地捕捉整体结构,而 2 位模型(没有整数位;只有符号位和一位小数)则表现较差。
原文链接:https://openreview.net/pdf?id=SaidYid1Mq
热门跟贴