Modularizing and Assembling Cognitive MapLearners via Hyperdimensional Computing
通过超维计算实现认知地图学习器的模块化与组装
https://arxiv.org/pdf/2304.04734
摘要
生物体必须学会如何控制自己的身体以实现有目的的运动,即根据当前状态和选择的动作预测下一个身体位置。这种学习与最大化(或最小化)环境奖励(或惩罚)信号的目标无关。认知地图学习器(CML)由三个独立但协同训练的人工神经网络组成,这些网络学习构建任意双向图的节点状态和边动作的表示。通过这种方式,CML 学会了如何遍历图节点;然而,CML 并未学习何时以及为何从一个节点状态转移到另一个节点状态。
本研究创建了使用高维向量表达节点状态的 CML,适用于超维计算(HDC),这是一种符号机器学习(ML)形式。通过这种方式,图知识(CML)与目标节点选择(HDC)被分离,使每种 ML 方法可以独立训练。第一种方法使用 HDC 构建了任意数量的分层 CML,其中每个图节点状态为下一级 CML 指定目标节点状态以供遍历。其次,展示了基于 HDC 的刺激-响应经验模型在每个 CML 中的应用。由于超向量可以叠加在一起,多个经验模型可以在无需重新训练的情况下并行运行。最后,CML-HDC ML 单元被模块化:使用代理符号进行训练,使得可以操作任意的、特定应用的刺激符号,而无需重新训练 CML 或 HDC 模型。这些方法为构建异构 ML 系统提供了模板。
关键词——超维计算、认知地图、模块化、终身学习、状态表示学习、神经工程
I. 引言
尽管分类是人工神经网络(ANN)的流行应用,但大量研究表明,预测是生物神经网络认知的关键组成部分 [1, 2]。例如,当一头小牛出生时,它会花费数小时学习如何协调腿部肌肉运动以实现移动,即从一个地方到另一个地方的定向运动。通过不断尝试,它学会了哪些物理状态和动作集合是可用的。传统强化学习旨在最大化(或最小化)环境奖励(或惩罚)[3],而预测性学习则是任务无关的,其目标是尽量减少以下两者的误差:a) 其实际观察到的下一个状态,b) 在当前状态和选择的动作下预测的下一个状态。
学习双向图的拓扑结构是预测性学习的一种抽象形式,其中每个节点表示一个可观测状态,每条边表示在该状态下可用的动作。最近引入了一种认知地图学习器(CML),它使用三个独立但协同训练的人工神经网络来构建 a) 节点状态、b) 节点特定的边动作以及 c) 边动作效用值的内部表示 [4]。值得注意的是,尽管 CML 从未被明确训练用于路径规划,但用户可以指定一个目标节点状态,CML 将从当前节点状态沿着一条近乎最优路径(最少边数)遍历到目标节点状态(图 1a)[4]。需要注意的是,CML 并未学习何时以及为何从一个节点状态转移到另一个节点状态;相反,目标节点状态必须由外部来源提供。
本研究解决了将多个 CML 整合并编排为有限状态机(FSM)的数学问题(图 1b, c),这是一个在传统 ANN 中臭名昭著的难题 [5]。整合的一个关键挑战是接口问题:使输入和输出类型保持一致。例如,在数字逻辑 {0,1} 的情况下,一致的信息表示允许独立优化的逻辑单元被组合在一起,以解决比单个布尔运算更大的问题,例如将 AND、OR 和 XOR 逻辑门排列成一个数字加法器。此外,一致的接口允许组件的互换性,而无需重新设计系统的其余部分。
高维向量(长度 )在此被提议作为一种信息表示方法,适用于根据超维计算(HDC)代数组装和控制认知地图学习器(CML),这是一种矢量符号架构(VSA)的形式 [6, 7]。近年来,HDC 已成为最受欢迎的非人工神经网络(ANN)机器学习方法之一。与学习突触权重值不同,HDC 通过对一组超向量由 {0, 1} [8]、{-1, +1} [9] 或复数值 [10] 组成)的相似性进行操作来编码学习。作为一种代数,这种学习可以明确地表示为方程,这些方程可以被编辑和逆向工程,从而实现人类可解释性和干预能力 [11]。
本研究的贡献如下:
- 从训练好的 CML 的节点状态矩阵中生成详细的可行超向量,。
- 展示了 CML 可以围绕用户指定的节点状态矩阵进行训练,允许构建任意高度的 CML 层次结构。
- 实现了一个 HDC 刺激-响应模型,用于学习并决定单个 CML 的目标状态。
- 演示了将多个这样的模型整合到一个单一的 HDC 经验模型中,以并行控制多个 CML,而无需重新训练 HDC 模型或底层的 CML。
- 开发了一种方法,将预训练的 CML-HDC 机器学习单元模块化,接受特定应用的超向量输入,而无需重新训练 HDC 模型或 CML。
第 II 节描述了 CML 的构建与训练,并介绍了 HDC 代数规则。第 III 节描述了从 CML 节点状态表示生成超向量的方法,从而实现多个独立训练的 CML 的后续集成。第 IV 节详细说明了集成结果,随后在第 V 节中讨论了本研究的未来应用方向。
II. 背景
A. 认知地图学习器(CML)
认知地图学习器是由三个独立但协同训练的单层人工神经网络(ANN)组成的系统 [4]。尽管 CML 可以学习其他任务,但本研究聚焦于双向图(图 2)。每条边表示仅在两个节点状态之间允许的动作。双向性要求每个动作都是可逆的。在本研究中,“节点”和“状态”将互换使用,“边”和“动作”亦然。
其次,通过计算目标状态与当前状态之间的差异并乘以 矩阵的转置,来计算每个动作的效用值 [4](图 2a),公式如下:
B. 超维计算(HDC)
虽然超维计算与大脑神经活动中的信息表示理念有相似之处,但它是一种代数,而不是一类新的人工神经网络(ANN)。HDC 不依赖人工神经元和突触,而是通过超向量(长度 的向量)进行符号计算。HDC 的核心度量是相似性,因此主要关注点从不同元素的位置(例如,最高/最低有效位以及纠错码)转移到不匹配的数量上。通过这种方式,每个元素在定义特定符号时变得同等重要(或不重要)。随着这些随机生成的向量长度增加,它们实际上可以保证接近伪正交 [6]。因此,如果两个符号不是伪正交的,则它们之间必然存在某种相关性。在本研究中,根据乘法、加法和置换(MAP)方法 [9],使用由均匀随机 {-1, +1} 元素组成的密集超向量。
向量之间的相似性通过余弦相似性来衡量,即它们的点积除以各自幅值的乘积:
当捆绑偶数个超向量时,会加入一个随机超向量 η 以打破平局。由于信息是沿着整个超向量编码的,因此捆绑操作类似于在 s 上创建每个符号的叠加态。给定复合超向量 s 和由符号 组成的字典 D ,可以识别(并重建)构成 s 的各个向量:
超向量的乘法(或绑定),用符号 ⨂ 表示,将两个符号绑定在一起,类似于键值对的配对。与加法不同,结果超向量与其组成部分的任一向量都不相似。在这里,按元素逐位相乘是绑定操作符,并且该操作是自可逆的。
III. 方法
A. 训练超向量节点状态
B.训练一个HDC经验模型
为了衡量EXP模型的性能,选择了噪声相似性阈值以最小化虚假的CML状态变化(假阳性),同时接受每个场景中漏检的CML状态转换(假阴性)增加。特异性是通过计算真阴性(TN)与真阴性(TN)和假阳性(FP)总数的比值来衡量的。
灵敏度是通过计算真阳性(TP)与真阳性(TP)和假阴性(FN)总数的比值来衡量的。
IV. 结果
B. 单体HDC体验模型
然而,层次化的CML只是将初始目标状态选择算法进一步推到CML的更高层次。直接使用HDC进行符号机器学习使得学习输入符号与CML目标状态之间的关联成为可能(图7)。CML A、B和C分别接收输入x、y和z,每个输入包含k=1-5个符号。每个EXP模型学习k种场景,将每个输入与一个目标状态关联起来。
该组合 EXP 在总计 3000 个训练场景上进行了验证,通过清理过程后对生成的目标状态进行分类(参考文献 20, 21)。对于所有的 n 和 d 组合,该组合 EXP 在训练场景上的灵敏度和特异性均为 1。
为了测试该组合 EXP 方法的鲁棒性,每个输入被扩展为 2000 个可能符号,包括 k 个训练符号和 k 个新符号。一个测试周期包括使用来自其他两个输入中随机选择的符号对每一个 3000 个训练场景进行测试。也就是说,每个测试场景包含三个符号,其组合为 1 到 3 个训练符号与 0 到 2 个新符号不等。当对 EXP 进行查询时,该组合场景会产生一个组合响应(见图 7b)。
相同的响应向量被传递给每个 CML,根据其各自的 W q 进行清理。
每个测试周期重复进行 10 次,每次随机选择其他输入符号的索引,因此每次试验包括 3 万个场景,共进行了 5 次试验(3 个输入、k 个训练符号、10 个周期)。组合响应的相似性被测量并与每个 CML 的 W q 进行比较。响应与其目标节点状态的相似性被绘制为 k 的函数(见图 8 和图 9),箱线图依次表示最大值、第三四分位数、均值、第一四分位数和最小值。
如前所述,噪声底线是可学习场景数量的限制因素。由于三个 CML 中的任意一个在某个场景中可能不会接收到新的目标状态(参考文献 31),因此噪声底线阈值被设定为噪声下的最大相似性,以避免“恢复”出虚假的目标状态。不出所料,随着 k 的增加(即 EXP 中捆绑的 3k 个场景),整体响应相似性下降。对于 d = 10 3 ,当 k = 3 时,无论 n 为何,响应相似性均与噪声底线重叠(见图 8)。设定阈值 θ = 0.08 可在两种 n 情况下维持接近完美的特异性(≥ 0.99),即使灵敏度随 k 增加而下降(见表 I)。对于 d = 10 4 ,响应相似性在所有 n 下始终高于噪声底线(见图 9),因此在阈值 θ = 0.04 下可获得完美的灵敏度和特异性。测试结果显示,当 k = 10 时,灵敏度也仅有轻微下降,为 0.99 ± 0.01 。
C. CML 与代理符号的接口
虽然 EXP 对一定程度的冗余传感器输入具有鲁棒性 [13],但如果训练过的输入符号集合发生变化,则需要对 EXP 重新训练以适应新的符号集合(见图 1c、10a)。为了避免每次输入发生变化时都重新学习具体场景,可以使用 HDC 将场景编码为代理输入符号,并将应用特定的输入映射到这些代理符号上。例如,在图 10a 中,CML A 的输入为 x 和 sD;然而,HDC 允许使用两个输入构建一个通用的 EXP(见图 10b)。
V. 讨论
在CML中,将知识分隔在不同的人工神经网络(ANNs)中,使得节点状态表示能够被精确提取(或定义)。通过将CML节点状态表示为超向量(hypervectors),可以利用高维计算(HDC)来组装并同时操作独立训练的CML,而无需进行后续的重新训练。由于这些实验中的限制因素是噪声基底(noise floor),采用长度为 d≥103 的超向量确保了能够充分利用范围为 [θ,1] 的相似性。
终身学习是指在尽量不损害已有知识的前提下,持续接纳新学习或行为的能力 [15]。CML(认知图学习器)在算法上实现了将图遍历与目标节点决策机制的分离,使得更复杂的机器学习系统能够得以构建。HDC(高维计算)允许输入场景存在一定变化的情况下仍能得到相同的响应;否则,也可以轻松地将新情景添加到现有的 EXP 模型中。或者,也可以使用更高层级的机器学习算法,根据环境或历史上下文来判断应该使用哪个 EXP 模型。
“即插即用”的机器学习是 CML-HDC 模块预期的一个应用方向。图中的每个节点可以表示机械臂的一个位置,而整张图定义了一个特定行为,例如抓取或行走。通过为每个附属部件(例如机械臂或腿)训练一个 CML-HDC 的 EXP 输入-响应模型,就可以将该部件添加(或移除)到一个基础机器人上,并在不进行任何额外再训练的情况下运行(前提是目标相似度仍高于噪声底线)。
然而,像四足行走这样的任务则需要各个(可能不对称的)附属部件之间的协同配合。将四个 CML 的节点状态捆绑起来是一种简单的方式,用以构建一个层级化的 CML,其中的节点定义了四条腿各自的状态。例如,更高层级的 CML 节点可能表示 Eadweard Muybridge 拍摄的动物运动照片中的单个画面 [16]。
该应用也展示了 CML 与代理符号接口的优势。即便假设四条腿完全相同,其输入符号在前后、左右腿配置上也可能不同。可以用一个统一的 CML-HDC 模型覆盖预期输入与输出范围,再将每条腿唯一地映射到该 EXP 模型中。
或者可以使用算法将实数传感器数据映射为高维超向量符号 [17, 18]。然而,由于人工神经网络(ANN)在分类任务中有着丰富的历史——即将原始传感器数据映射为任意类别标签,因此近期的一些工作尝试将ANN训练为任务无关的特征提取器 [5, 19],然后再将这些稀疏的特征向量映射为任意的超向量符号,以供后续的HDC计算使用 [20, 21, 22]。这种方法实际上将ANN本身变成了模块化的机器学习组件,相当于机器学习中的“模拟转数字”(A2D)转换器。
最后,CML算法在实数值神经网络上运行;但前文提到的生物学示例是基于脉冲神经网络(SNN)。未来的研究将聚焦于基于共振-发放(resonate-and-fire, RF)神经元实现的 CML 的 SNN 版本 [23]。这类SNN通过神经元在周期 τ 内脉冲的时间进行信息编码,而非通过计数脉冲频率进行速率编码。重要的是,某个时间 t 的脉冲相对于周期为 τ 的本地振荡器可以表示为一个复数值的相位向量(phasor)。因此,RF神经元也便于通过基于复数相位向量的全息压缩表示(Holographic Reduced Representations, HRR)接口HDC系统 [10]。
VI. 结论
认知图学习器(CML)由多个独立但协同训练的人工神经网络组成,用于学习在双向图中进行遍历。本研究构建了CML,其图节点状态以高维向量表示,具备进行高维计算(HDC)所需的数学特性,HDC 是一种符号机器学习方法。将CML节点状态表示为超向量,使得HDC可以在无需后续再训练的情况下组装并并行运行多个独立训练的CML。本研究构建了任意数量的分层CML,其中每个图节点状态指定下层CML应遍历到的目标节点状态。为每个CML建立了一个基于HDC的刺激-响应经验模型,并将它们打包以实现并行操作,仍无需重新训练。最后,开发了一种映射算法,使HDC模型能够基于代理符号进行训练,之后再将其映射为具体应用场景的输入符号,从而构建出可组合的CML-HDC机器学习模块。
原文链接:https://arxiv.org/pdf/2304.04734
热门跟贴