Unary新兴计算范式中的改进数据编码：从随机计算到高维计算|伪随机|序列|数据编码|深度思考模型|算法|计算范式|随机数|高维

Improved Data Encoding for Emerging Computing Paradigms- From Stochastic to Hyperdimensional Computing

新兴计算范式中的改进数据编码：从随机计算到高维计算

https://arxiv.org/pdf/2501.02715

摘要：

数据编码是新兴计算范式中的一个基本步骤，尤其在随机计算（SC）和高维计算（HDC）中，它在决定整体系统性能和硬件成本效率方面起着关键作用。本研究提出了一种先进的编码策略，利用对硬件友好的低差异（LD）序列类别，特别是Van der Corput序列的2的幂次方基（VDC-2ⁿ），作为随机数生成的来源。我们的方法通过解决与随机性相关的挑战，显著提高了SC和HDC系统的准确性和效率。通过采用LD序列，我们改进了相关性属性并降低了硬件复杂性。实验结果表明，我们的方法在SC和HDC系统的准确性和节能方面取得了显著改进。我们的解决方案为在资源受限的环境中整合SC和HDC提供了一个强大的框架，为高效且可扩展的人工智能实现铺平了道路。

关键词：数据编码、新兴计算、高维计算、低差异、伪随机性、准随机性、可扩展人工智能、随机计算。

I. 引言

数据编码一直是新兴计算模型中的一个基本步骤，也是一个具有挑战性的任务。随机计算（SC）和高维计算（HDC）作为机器学习系统高效硬件设计的两种有前景的范式已经出现。SC和HDC都使用由‘0’和‘1’组成的长序列，而不是传统的二进制值（具有位置编码或位重要性）作为其基本计算元素。比特流（BSs）和超向量（HVs）分别作为SC和HDC中的原始组件，充当原子数据元素。这些原子数据元素是通过适当的随机源生成的。最先进的方法通常使用伪随机数生成器作为随机源来生成比特流[1]、[2]或超向量[3]–[6]。

通过适当的随机数生成器（RNG）确保高质量的随机性对于实现SC和HDC系统的期望精度和硬件效率至关重要。在数论中，伪随机性和准随机性是两个已经确立的概念。伪随机性指的是那些在统计上看似随机但实际上是由确定性算法生成的序列或过程。

伪随机序列表现出关键的随机性特征，例如在短区间内具有均匀分布和不可预测性，但如果已知生成器的初始条件或种子，它们仍然是可重现的[7]。这些序列通常被称为高差异序列，其中差异表示序列点偏离均匀性的程度[8]、[9]。线性反馈移位寄存器（LFSR）是生成伪随机序列的著名来源。

相反，准随机序列（如Sobol和Halton序列）提供更均匀和均匀的分布。这些序列是由一种特殊的确定性算法生成的，旨在比伪随机序列更均匀地填充空间（对于多维序列是超立方体）。准随机序列具有低差异（LD）特性，差异越低，均匀性越好。图1（a）和（b）分别展示了伪随机和准随机序列的点分布，突出了准随机序列中序列点的均匀分布。图1（c）和（d）比较了这些序列中点的值分布，准随机序列显示出更均匀的分布。

另一个表示适当随机性的重要因素是比特流（BS）或超向量（HV）对之间的相关性程度，如图1（e）和（f）所示。相关性的程度在结果质量中起着关键作用。例如，使用按位与进行的SC乘法需要独立的（或不相关的）比特流，而使用相同按位操作的SC最小值则需要高度相关的输入比特流[10]。在HDC系统中，符号数据（例如，像素位置、字母、信号时间戳等）在学习模型的编码阶段需要正交（不相关）的超向量[11]、[12]。

采用伪随机性将数据编码为比特流或超向量可能导致模型性能下降和硬件成本增加。为了达到期望的精度水平，通常需要迭代运行模型，这导致计算开销增加、系统运行时间延长、能效低下和性能下降。先前的研究表明，伪随机序列在级联电路架构中表现不佳，其中比特流之间的中等程度相关性至关重要[13]。为了缓解这些挑战，我们提出了一种基于准随机性的新颖编码方法，旨在提高SC和HDC系统的整体性能。

II. 背景与相关工作

在随机计算（SC）中，任何数据值都由一系列随机比特（‘0’和‘1’）表示[14]、[15]。比特流（BS）中‘1’出现的概率对应于数据值。具有 n 位精度的数据值 x 由一个比特流 X 表示，整个比特流中‘1’出现的概率为。生成比特流的一种常见方法是将给定数据与来自随机数生成器（RNG）源的随机值进行比较。尽管大多数最先进的工作使用线性反馈移位寄存器（LFSR）（图1（g））作为RNG，但文献[16]、[17]中的作者提出使用Sobol序列作为SC的确定性方法，显著提高了模型精度。另一种在SC中的确定性方法，称为一元计算（Unary Computing, UC）[18]、[19]，使用一元比特流，其中所有的‘1’都排列在一起。UC免受‘0’和‘1’比特的随机波动的影响，这是SC中一个重要误差来源。

类似地，在高维计算（HDC）中，任何原子数据单元，称为超向量（HV），以高维度表示，包含‘-1’（或‘0’）和‘1’的元素。在HDC中，符号数据——如字母、数字、传感器数据以及时间和空间信息——可以通过不同的正交超向量来表示。这种结构化的信息编码也被称为全息表示[20]。正交性是通过随机性实现的，它生成独立的超向量。理想情况下，一个超向量包含相等数量的‘1’和‘0’，每个元素分别占向量的50%[21]–[23]。

III. 提出的框架

鉴于在随机计算（SC）和高维计算（HDC）中使用伪随机性所带来的效率低下问题，我们提出了一种高效、轻量级且高度准确的确定性比特流生成器，通过利用 Van der Corput（VDC）序列[13]、[24]来实现。VDC序列是低差异（LD）序列的另一个例子，它们表现出确定性但准随机的特性。在我们的方法中，VDC序列作为主要的随机性来源，是轻量级随机数生成器（RNG）硬件设计的理想选择。一般来说，VDC序列通过其基数来识别，用 B 表示。一个VDC-B序列数是通过在基数为 B 的数字系统中反转数字生成的，结果是一个在 (0, 1) 区间内的值。我们的提议采用2的幂次方基数的VDC序列（VDC-2ⁿ）。使用VDC-2ⁿ序列的优势在于其简单的硬件设计以及在生成比特流时的高精度。任何VDC-2ⁿ序列都可以通过硬连线一个 n 位计数器（包括T触发器）来实现（图1（h））。我们提出的方案的一个显著特点是它能够通过不同的硬连线方案同时产生多个不同的序列。另一个与现有方法显著不同的重要属性是，我们的设计在单次运行中就能实现高精度，而伪随机方法需要多次执行才能达到最佳精度。这一特性增强了系统的整体效率和吞吐量，这对于资源受限的设备尤其有益。

图2（a）展示了一个非线性函数（具体为 sin(x) ）的随机计算实现，比较了其传统设计（➊）[1]与我们利用VDC-2ⁿ序列修改后的设计（➋）[25]、[26]。此外，我们还展示了基本的SC除法操作（➌）[27]及其使用所提出的RNG的增强设计结构（➍）[28]、[29]。在SC操作[24]和三角函数[25]的设计中纳入VDC-2ⁿ序列，显著提高了精度，同时降低了整体硬件成本。

同样，我们证明了在HDC模型中配备这种确定性序列可以提高整体性能，同时降低硬件成本。图2（b）展示了将我们的方法应用于HDC的编码阶段的过程。虽然基线方法（➎）结合并绑定（使用逐元素乘法）位置和级别超向量（HVs）来对图像进行编码，但使用准随机序列生成HVs消除了对位置HVs及其后续乘法操作的需求（➏）[30]–[32]。

作为这种方法的扩展，我们引入了UnaryHD架构（➐），其中通过使用量化后的低差异序列进行超向量生成，将一元编码应用于HDC模型[33]、[34]。这种方法简化了硬件实现，提供了显著的成本节约，并有助于在HDC系统中实现更高效的数据编码。为了进一步提高HDC系统的性能，我们提出了一个端到端的一元结构。这种简化的设计特点是一个轻量级的、单一来源的动态超向量生成器。该超向量生成器设计的主要目标是在单次迭代中实现最佳的随机性，同时与随机序列的循环性质相一致。与使用LFSR的基线HDC不同，我们的提议设计不使用多个随机序列来生成 m 个不同的 D 维向量。相反，我们生成一个 D 维序列，并用它来创建不同的超向量[35]。这一设计的另一个关键贡献是一个用于生成级别超向量的轻量级硬件。在文献中首次，我们不是随机地而是确定性地使用我们的一元生成器来生成级别超向量，消除了对随机性的需求。我们的提议设计包括一个左移模块、一个向上计数器和一个比较器（➑）。

IV. 结果与贡献

为了评估我们提出方法的有效性，我们首先将其应用于随机计算（SC）设计。表I和表II评估了实现 sin(x) 函数的精度和硬件成本。这一评估突出了我们方法在设计SC三角函数和非线性函数方面的潜力，这些是人工智能、计算机视觉、机器人技术和通信模型中的基本组成部分[25]、[41]。如结果所示，与最先进的基线架构相比，我们提出的设计显著提高了精度，并分别将能耗降低了高达77%和92%。

使用确定性序列生成高质量的超向量（HVs）显著提升了高维计算（HDC）模型的性能。表III和表IV对比了图2（b）中（➏）和（➐）所展示设计在图像分类任务中的精度。结果显示，使用确定性超向量编码的HDC模型优于基线模型。图3展示了将图2（b）中（➑）的端到端一元结构应用于DermaMNIST数据集[42]时的性能表现。此外，鉴于该数据集相较于传统手写数字分类任务的复杂性增加，我们引入了基于周期（epoch）的训练选项。结果表明，在HDC编码中采用我们的确定性解决方案，相比基线模型，能够促进更早的学习进展[43]。除了改进学习动态外，所提出的架构还提供了卓越的硬件效率。与基线方法相比，所提出的超向量生成器将功耗降低了98%，并将能效提高了15%，使其成为资源受限的边缘设备中动态向量生成的有前景的设计。

V. 结论

本研究提出了一种新颖的确定性序列生成器，并探索了其在随机计算（SC）和高维计算（HDC）范式中的重要应用。主要贡献总结为以下四个研究亮点：➀ 在SC和HDC系统中利用对硬件友好的准随机序列生成高质量的比特流。➁ 与现有最先进技术相比，同时提高模型的吞吐量、效率和精度，并降低硬件成本。➂ 为SC和HDC设计引入一种新颖、简化且高效的随机数生成器（RNG），为资源受限的设备提供了一种有前景的方法。➃ 开创性地将一元计算与HDC相结合，实现了轻量级且节能的HDC系统。

原文链接：https://arxiv.org/pdf/2501.02715