结构相似性：使用范畴论形式化类比|使用范畴论|态射|相似性|谓词

Structural Similarity: Formalizing Analogies Using Category Theory

结构相似性：使用范畴论形式化类比

https://www.mdpi.com/2813-0405/3/4/12?utm_source=chatgpt.com

摘要

类比是人类认知中用于学习和发现新概念的重要组成部分。关于类比的定义以及如何发现或构建新类比，存在许多不同的方法。我们提出了一种新颖的方法，该方法延续了结构映射（structure mapping）的传统，使用着色多重图（colored multigraphs）来表示领域。我们定义了一个着色多重图的范畴（category），以便利用某些范畴论（Category Theory, CT）的概念。范畴论是一种描述和处理保结构映射（structure-preserving maps）的强大工具。该理论在认知科学中有诸多有用的应用，我们希望向更广泛的受众介绍其中一种应用。本文对范畴论及其所使用的概念进行了介绍和阐释。我们展示了如何在着色多重图范畴中运用范畴论中的“积”（product）和“拉回”（pullback）等概念，根据不同的要求来发现领域之间可能存在的类比关系。随后，我们利用拉回的对偶概念——“推出”（pushout）——作为概念整合（conceptual blending）的手段，以生成一个新的领域。

关键词：类比；范畴论；结构映射；着色多重图

引言
类比被视为人类认知的核心要素，因为它们在教学、学习以及新概念的形成中发挥着重要作用[1,2]。两个领域之间的相似性可用于将知识从一个领域迁移到另一个领域，从而获得新的洞见或解释复杂概念。关于类比，存在诸多问题，例如：如何最好地定义类比？如何从两个领域中构建类比？什么样的类比才算“好”？当在人工智能推理中引入类比以提升其性能或增强其可解释性时，这些问题同样至关重要。任何类比方法的关键部分都在于对所涉知识和概念的表示方式[3]。例如，Liu 等人[4]将知识图谱嵌入到一个抽象的线性空间中，以实现关系从一个领域到另一个领域的迁移。Gentner 提出的结构映射理论（structure mapping theory）[5]则专注于仅基于结构的领域间映射，并已被用于结构映射引擎（structure mapping engine）[6]中自动生成类比。

在本文中，我们使用范畴论（Category Theory, CT）——一个关注保结构映射（structure-preserving maps）的一般性和特定性质的数学领域——将领域定义为着色多重图范畴中的对象，而将类比定义为这些对象之间的态射（maps）。这种基于范畴论的类比视角使我们能够运用范畴论的概念来分析这些映射及其所包含的信息。

在本节剩余部分，我们将介绍我们的类比概念，并辅以一个具体示例和范畴论的基本概念。主体部分将把类比形式化为着色多重图范畴中的态射，并展示如何利用范畴论中的“拉回”（pullback）和“推出”（pushout）概念，构建新的着色图，以表示两个领域之间可能的类比和概念整合（blends）。

1.1 类比

一个类比包含两个领域：源域（base）和目标域（target），以及它们之间的一个映射[5]。该映射引出两者共有结构的一种泛化形式，可用于将知识从源域迁移到目标域，或生成一个融合两者特性的新概念（即概念整合，concept blending）。结构映射[5]是一种经典的寻找两个领域共性的方法，它关注的是各领域之间的共享结构，而非所涉对象的属性。一个常见例子是：太阳系类似于玻尔的氢原子模型，因为太阳与行星之间的某些关系类似于原子核与电子之间的关系[5]。

在示例中，领域通常被表示为有向多重图（directed multigraphs），其中节点代表对象，边代表这些对象之间的关系（见图1中的示例）。我们引入一种基于此类有向多重图的领域形式化方法。领域中的每个节点和边都有一个名称，用于相互区分，并且两个节点之间可能存在多条边。一个多重图由两个集合构成：节点集合 N 和边集合 E，以及两个函数 s 和 t，它们从 E 映射到 N，分别将每条边 e 映射到其源节点 s(e) 和目标节点 t(e)。在结构映射中，对象之间的关系是判断哪些对象被视为相似的决定性特征，而对象自身的属性则不予考虑。我们为有向多重图的边添加“着色”（coloring），以捕捉某些关系是相同或相似的这一事实。着色由一个颜色集合 C 和一个函数 c 描述，该函数将每条边映射到其对应的颜色。在图1的例子中，太阳与行星之间的引力关系可与原子核和电子之间的引力关系相对应，但太阳与原子核本身的属性之间并不存在明显的相似性。

图中的边表示二元关系，因此我们只能用多重图来描述包含二元关系（以及通过自环表示的一元关系）的领域。本文也不涉及高阶谓词。高阶谓词和 n 元关系可以通过其他领域表示方法纳入，例如使用范畴和类型的方式，如 Ott 和 Jäkel [7] 所述。我们使用一个着色图的范畴来形式化类比并确定可能的映射。

1.2 范畴论
范畴论（CT）是一种连接众多数学领域的理论。它通过对数学对象进行抽象描述——重点关注对象之间的关系——来揭示并利用这些对象之间的共性与差异。因此，范畴论本身可被视为一种关于数学对象之间类比的理论。此前已有研究建议在认知科学中，特别是类比构建的建模中使用范畴论，例如：使用交换图（commutative diagrams）来分析类比，并用余等化子（coequalizers）描述重新表征（re-representation）[8]；或使用函子（functors）描述一个抽象概念在源域和目标域中的具体实例化，并用这些函子之间的自然变换（natural transformation）来描述类比[9]。范畴中的保结构态射（structure-preserving morphisms）可与大多数形式化方法结合使用，例如启发式驱动的理论投射（Heuristic-Driven Theory Projection）[10]。

在讨论态射时，一个关键问题是某些态射或组合是否彼此相等。范畴的某些部分可以很好地用图表表示，其中箭头代表态射；若所有具有相同起点和终点的有向路径（即具有相同定义域和陪域的态射复合）都相等，则称该图为交换图（commuting diagram）。

我们现在可以定义着色多重图的范畴，并展示如何利用范畴论中的“拉回”（pullback）和“推出”（pushout）概念来描述类比。

类比的形式化

在本节中，我们使用着色有向多重图的范畴来形式化类比。我们将首先定义相应的范畴，然后展示如何利用范畴论中的“拉回”和“推出”概念，对类比理论中的核心概念进行形式化。

2.1 领域的范畴

我们希望聚焦于领域之间的关系映射，以此作为发现和构建类比的基础。每个领域由对象（例如：太阳和行星）以及这些对象之间的关系（例如：太阳吸引行星）组成。关系总是具有方向性（“太阳比行星大”与“行星比太阳大”并不相同），且每对对象之间可以存在多种关系。如前所述，领域被建模为带有自环的有向多重图。为边添加颜色，用以表示不同边之间的相似性。例如，在图1中，“吸引”关系彼此之间比与“更热”关系有更多的共同点。从本节起，带颜色的有向多重图将简称为“着色图”。

我们现在希望形式化定义一个着色图的范畴 ColG，以便更好地分析着色图之间映射的结构。我们扩展第1.2节中的定义，将其纳入颜色因素。ColG 中的每个对象是一个着色图，包含三个集合：节点集 N、边集 E 和颜色集 C。除了将每条边映射到其源节点（s: E → N）和目标节点（t: E → N）的函数外，还有一个将每条边映射到其颜色的函数（c: E → C）。这里的“颜色”不限于传统意义上的色彩，而可视为一种通用标签。

到目前为止，我们已将领域的重要结构信息编码到着色图中，并定义了能够保持这种结构的态射。然而，两个图之间可能存在许多态射，并非每一个态射都能构成一个好的类比。此外，还有一个额外的问题：态射必须映射整个图。例如，太阳系图 S中的“更热”（hotter）边在原子图 A中没有对应项，但仍会被某个态射强制映射到 A中的某些其他边上。

我们现在希望利用“积”（product）和“拉回”（pullback）这两个概念，来构建领域之间可能的映射——这些映射受到更多限制，同时允许部分对应（partial correspondence）。

2.2 基于可能类比的拉回

接下来我们要引入的概念是“积”，它是集合笛卡尔积（Cartesian product）的范畴论推广。一个范畴中两个对象的积是该范畴中的另一个对象，它包含了这两个因子对象的全部信息。图3a通过一个交换图展示了积的结构。

一个乘积在同构意义下是唯一的。类别Set包含每一对集合的笛卡尔积和相应的投影，这些投影满足上面定义的乘积的性质。因此，Set具有所有乘积。这对每个类别来说并不一定成立。

以上述太阳系的例子而言，积会产生一个包含大量边的庞大图，因为所有可能的边映射组合都被考虑在内。接下来我们将定义拉回（pullback），并探讨如何通过对一个简单图取拉回，强制仅将特定颜色的边与其他同色边进行组合。

所有符合图颜色约束的可能类比都被叠加在拉回图中。
图5所示的拉回示例中不包含太阳与行星之间的“更热”（hotter）关系，因为在氢原子中不存在对应的边。
我们现在可以在拉回图的相应子图中，考察将火星（Mars）、金星（Venus）和太阳（Sun）这些节点与电子（electron）和原子核（nucleus）节点进行配对的所有可能组合。
对于两个领域节点之间的单射映射（injective mappings），共有六种可能的配对组合。每种配对由图 S 中的一个节点和图 A 中的一个节点组成，而一个子图则由其中两个这样的配对构成。
该拉回图的相应子图包含了这两个节点对之间的所有边。
图6展示了这六个生成的子图：其中两个子图不含任何边（a、b），两个子图仅包含两条边（c、d），还有两个子图包含四条边（e、f）。

最后这两种子图包含最多的结构，因此是更优的映射。它们对应于将太阳与原子核匹配、并将某一行星与电子匹配的情形，这两种映射同样有效。

我们可以通过修改映射 f和 g来放宽对颜色匹配的要求。如果两种不同颜色的边被映射到同一条边，那么它们的所有组合都会出现在拉回图中。另一种方法是通过向中间图添加节点和边，来强制某些特定的节点或边必须匹配。因此，拉回可用于基于先验知识生成一个叠加了所有可能类比的图。随后，我们可以重构所有可能的匹配，并以子图中边的数量作为偏好排序的依据。

图7展示了另一个基于不同中间图的拉回。该中间图现在包含三个节点（而非一个）和四条颜色均为黑色的边。这个图所编码的约束条件与图5中的不同。在这里，节点已经被预先配对：态射 f将节点 mars 映射到 m，sun 映射到 s,n，venus 映射到 v,e；而态射 g将 nucleus 映射到 s,n，electron 映射到 v,e。然而，每条边都被映射到中间图中唯一一条具有正确源点和目标点的边，以满足图态射的条件，而不再考虑任何颜色约束，因为中间图未对颜色进行区分。

所得到的拉回图仅包含两对节点：sun 与 nucleus、venus 与 electron，因为节点 m仅被原始两个图中的一个所匹配。但由于边的颜色未被区分，太阳系图 S和原子图 A中所有具有正确源点和目标点的边的组合，都在拉回图中得到了表示。

在此例中，由于映射到单色（uni-colored）中间图时丢失了颜色所承载的区分信息，导致拉回图中出现了大量可能的边。在这种情况下，要判断哪些边应被用于子图以描述类比就变得更加困难。

2.3 利用推出进行概念整合（Blending）

我们可以利用从一个领域到另一个领域的部分映射来构建一个新的组合领域，即所谓的“概念整合”（conceptual blend）。我们基于使用推出（pushout）实现这种概念整合的思想[15,16]，来定义从源域（base domain）到目标域（target domain）的非对称知识迁移。

范畴论中的许多概念都存在对偶形式，即把所有态射的方向反转。积（product）的对偶称为余积（coproduct），它是两个集合不交并（disjoint union）的推广。图8a展示了描述余积的交换图。

我们首先通过拉回构建了一个包含所有可能类比的图，如图5所示。图6中得到的各个子图描述了不同的类比关系，并可用于通过推出（pushout）生成一个整合图（blended graph）。在图9的示例中，我们选择了图6中的子图（f），因为它是边数最多的子图之一。所生成的整合图包含这一公共子图，此外还包含两个原始图中出现但未包含在公共子图中的所有节点和边。

对该子图进行推出——其中将太阳（sun）与原子核（nucleus）匹配、金星（venus）与电子（electron）匹配——得到一个新图：该图包含这两个被合并的节点及其合并后的边，以及一个额外的节点“火星”（Mars）和若干额外的边。在整合图中对火星的这种安排，可以被理解为暗示此类系统中可能存在多个环绕运行的物体，从而引申出原子中可能存在多个电子的概念。同时被迁移过来的“更热”（hotter）关系则提示我们：在使用此类比进行解释时，必须明确指出这一差异，以避免错误的知识迁移或产生混淆。

我们从一个简单的图出发，用于匹配两个领域图的颜色，构建了一个拉回（pullback），以找出类比的所有可能匹配。随后，从中选取其中一个匹配（以拉回图的一个子图形式表示），并将其用于推出（pushout），以生成一个整合图（blended graph）。

讨论
我们将知识领域形式化为着色多重图，并运用范畴论（CT）展示了如何利用这种结构来描述并发现两个领域之间可能的类比。我们通过对一个表达先验知识的图取拉回（pullback），生成了一个包含所有可能映射的新图。随后，我们选取该拉回图中描述某一可能匹配的子图，并将其用于推出（pushout），以构建两个领域的整合（blend）。

我们并不假设人类在发现、教授或学习类比时实际使用了范畴论，但我们知道人类确实能够执行某种关系之间的映射，而本文所提出的方法正是对这一过程的一种形式化描述。我们展示了范畴论在此类问题中的实用性。

着色图是领域的一种常见可视化表示，而范畴 ColG 提供了构建匹配与整合的基本工具。然而，这种形式化方法最适合处理二元关系和一阶关系。Ott 和 Jäkel [7] 提出了另一种基于相同思想但更为抽象的方法，可用于纳入 n 元关系和高阶关系。

本文仅展示了该方法潜力的一小部分。下一步工作可以是更明确地界定在众多可能的类比中应选用哪一个。这可以通过为领域图赋予更多信息来实现，例如标明哪些关系对定义该领域最为关键。此外，本文所使用的方法也可被实现于自动类比生成系统中。对领域及其类比关系的良好形式化，不仅有助于我们更深入地理解人类推理机制，还能用于改进人工智能推理系统，使其对人类用户而言更具可解释性和可理解性。

原文链接：https://www.mdpi.com/2813-0405/3/4/12?utm_source=chatgpt.com