Object-Centric Learning的理论基础及因果 NFs|object|子集

Provably Learning Object-Centric Representations可证明的学习对象中心表示https://arxiv.org/pdf/2305.14229

首次对无监督对象中心表示的可识别性进行理论研究

我们的定义与共同命运的格式塔法则Gestalt law of common fate（Koffka，1936；Tangemann等人，2023）和Spelke对象的概念 concept of a Spelke Object （Spelke，1990；Chen等人，2022）相关，它们认为属于同一对象的像素一起移动。

摘要

学习以对象为单位的结构化视觉世界表示有望显著提高当前机器学习模型的泛化能力。虽然最近为此所做的努力已经显示出有希望的经验进展，但关于何时可能进行无监督对象中心表示学习的理论解释仍然缺乏。因此，理解现有对象中心方法成功的原因以及设计新的理论上有根据的方法仍然是一个挑战。在本项工作中，我们分析了在何时可以无可证明地学习对象中心表示，无需监督。为此，我们首先引入了两个关于由几个对象组成的场景的生成过程的假设，我们称之为组合性和不可约性。在这种生成过程下，我们证明了真实对象表示可以通过一个可逆和组合的推理模型被识别，即使在对象之间存在依赖关系的情况下也是如此。我们通过在合成数据上的实验来经验性地验证我们的结果。最后，我们提供证据表明我们的理论具有对现有对象中心模型的预测能力，表明模型的组合性和可逆性与它们的经验可识别性之间存在密切的对应关系。

1 引言

人类智能表现出从有限的经验泛化到广泛的新情境的无与伦比的能力（Tenenbaum等人，2011）。为了构建具有类似能力的机器，一个基本问题是哪些类型的感官输入的抽象表示能够实现这种泛化（Goyal & Bengio，2022）。认知心理学研究表明，一个关键的抽象是能够以个体对象的形式表示视觉场景（Spelke，2003；Spelke & Kinzler，2007；Dehaene，2020；Peters & Kriegeskorte，2021）。这种以对象为中心的表示被认为能够促进核心认知能力，如组合泛化（Fodor & Pylyshyn，1988；Lake等人，2017；Battaglia等人，2018；Greff等人，2020）和对离散概念的因果推理（Marcus，2001；Gopnik等人，2004；Gerstenberg & Tenenbaum，2017；Gerstenberg等人，2021）。

因此，大量的努力已经被投入到赋予机器学习模型从原始视觉输入中学习对象中心表示的能力。虽然最初的方法大多是有监督的（Ronneberger等人，2015；He等人，2017；Chen等人，2017），但最近一波新的方法探索了在没有直接监督的情况下学习对象中心表示（Greff等人，2019；Burgess等人，2019；Lin等人，2020；Kipf等人，2020；Locatello等人，2020；Weis等人，2021；Biza等人，2023）。这些方法已经开始展示令人印象深刻的结果，显示出扩展到复杂视觉场景（Caron等人，2021；Singh等人，2022a；Sajjadi等人，2022；Seitzer等人，2023）和真实世界视频数据集（Kipf等人，2022；Singh等人，2022b；Elsayed等人，2022）的潜力。

然而，尽管有这种经验上的进步，我们仍然缺乏对何时可能进行无监督对象中心表示学习的理论理解。这使得隔离现有对象中心模型成功和失败背后的原因，并开发改进它们的原则性方法变得具有挑战性。此外，目前还不可能设计理论上有根据的新颖对象中心方法，而不是仅基于启发式，许多启发式在更现实的环境中会崩溃（Karazija等人，2021；Papa等人，2022；Yang & Yang，2022）。

在本项工作中，我们的目标是通过研究在没有任何监督的情况下何时可以无可证明地学习对象中心表示来解决这种缺陷。为此，我们首先指定了多对象场景的数据生成过程作为一个结构化的潜在变量模型，其中每个对象由潜在变量的一个子集或潜在槽来描述。然后，我们在这个模型下研究对象中心表示的可识别性，即，我们调查在哪些条件下，推理模型将保证恢复每个对象的真实潜在变量的子集。

因为如果没有对生成过程的进一步假设，识别真实潜在变量是不可能的（Hyv¨arinen & Pajunen，1999；Locatello等人，2019），以前的可识别性结果主要依赖于潜在变量的分布假设（Hyv¨arinen & Morioka，2016；2017；Hyv¨arinen等人，2019；Khemakhem等人，2020a；b；Klindt等人，2021；Zimmermann等人，2021）。相比之下，我们不做这样的假设，从而允许对象之间任意的统计和因果依赖性。

结构和主要贡献。在本项工作中，我们采取了一种立场，即问题的以对象为中心的特性对生成器函数施加了非常特定的结构，从而从潜在槽生成场景（第2节）。具体来说，我们定义了这个函数应该满足的两个关键属性：组合性（定义1）和不可约性（定义5）。非正式地说，这些属性意味着每个像素只能对应一个对象，并且信息在同一个对象的不同部分之间共享，但不同对象的部分之间不共享——受到独立因果机制原则（Peters等人，2017）的启发。

在这个生成模型下，我们然后在第3节证明了我们的主要理论结果：真实潜在槽可以通过一个具有组合逆的可逆推理模型在没有监督的情况下被识别（定理1）。为了量化组合性，我们引入了一个对比函数（定义7），如果且仅当一个函数是组合性的，它就为零；为了量化可逆性，我们依赖于重建误差。我们在合成数据上验证了推理模型通过最大化可逆性和组合性确实能够识别真实潜在槽，即使潜在变量之间存在依赖关系（第5.1节）。

最后，我们检查了现有以对象为中心的学习模型在图像数据上的表现，并发现模型的组合性和可逆性与它们在识别真实潜在槽方面的成功之间存在密切的对应关系（第5.2节）。

据我们所知，本项工作为对象中心表示提供了第一个可识别性结果。我们希望这为更好地理解无监督对象中心学习中的成功和失败奠定了基础，并且未来的工作可以基于这些洞见发展出更有效的学习方法。

符号说明。粗体小写z表示向量，粗体大写J表示矩阵。对于n ∈ N，让[n]表示集合{1，...，n}。此外，如果f是一个具有n个组成部分的函数，让fS表示f限制在由S ⊆ [n]索引的部分函数上，即，fS := (fs)s∈S。

2生成模型

尽管人类对于什么构成一个对象有明确的直觉，但从数学上正式定义这个概念并不简单。实际上，并不存在一个普遍认同的对象定义；基于不同标准的多种正式化定义共存（Green, 2019; Spelke, 1990; Koffka, 1936; Greff et al., 2020）。我们通过定义一个潜在变量模型来处理多对象场景的问题（见图1的概览），并认为以对象为中心的特性需要对生成器施加非常特定的结构，我们在第3节中利用这一结构来证明我们的可识别性结果。

作为一个起点，我们假设观察到的多对象场景数据样本x是通过一个微分同胚映射 从一组潜在随机向量z生成的，该映射从潜在空间Z到观察空间X。

我们对p(z) 的唯一假设是它在 Z上是完全支持的。特别是，我们不要求独立性，并允许z的各个组成部分之间存在任意的依赖关系，这是出于某些对象的存在或属性可能与其他对象的存在或属性相关联的动机。

2.1 插槽和组合性

请注意对z的依赖性，它表示一个物体在不同的场景中可能出现在不同的位置。

如果没有对f的进一步约束，像素子集Ik(z)和Ij(z)可以在任何k = j的情况下重叠，这意味着潜在槽位k、j可以影响相同的像素，从而有助于生成相同的物体（见图2B，顶部）。为了避免这种情况，我们在f上施加了一种结构，我们称之为组合性。定义1（组合性）。设f：Z→X是可微的。如果

组合性意味着每个像素最多只是一个潜在槽位的函数，因此在对角矩阵上施加了一个局部稀疏结构，这在图2的底部进行了可视化。直观地说，通过适当排列像素，可以将组合生成器的雅可比矩阵转换为块状结构。然而，这种块状结构是局部的，因为所需的排列可能会因场景表示z的不同而不同。

2.2机制和不可约性

虽然组合性确保了不同的潜在槽位不会生成相同的对象，但我们还需要对f施加额外的约束，以确保每个槽位只生成一个对象，而不是人类认为的多个对象。以图3A所示的例子为例，其中f将潜在槽位的前半部分映射到表示为S1的像素，后半部分映射到S2。很明显，对人类来说，这些像素组很可能被认为是不同的对象。另一方面，尚不清楚什么正式标准会导致这种区别。

直观地说，图3A中的两个“子对象”S1和S2的问题似乎在于它们在某种意义上是相互独立的。为了避免在槽位内分割对象，我们希望强制属于同一对象的像素彼此依赖。但是，什么是这种实例级对象独立性的有意义概念？由于我们正在处理根据方程式（1）采样的单个场景，因此它本质上不能是统计的。相反，我们的直觉更符合对象算法独立性（Janzing & Scholkopf，2010）的概念，这是独立因果机制（ICM）原则的形式化3，该原则假设物理生成过程由“不相互通知或影响的自治模块”组成（Peters等人，2017）。图3A中的两个像素子集S1和S2正是从这个意义上说彼此独立的：它们来自不共享信息的自主过程。因此，在接下来的内容中，我们从先前实现的ICM原则（Daniusis等人，2010；Janzing等人，2012；Gresele等人，2021，更多细节见§4）中汲取灵感，以形式化我们对对象独立性的直觉。首先，我们定义了映射，该映射将来自第k个潜在槽位的信息局部呈现给受影响的像素Ik(z)，我们将其称为机制。

3理论:插槽可识别性‍‍‍‍‍‍

（这个与NFs有什么关联呢？）

证明概述

对对象中心学习的影响

定理1为对象中心表示学习突出了重要的概念点。首先，它表明对潜在变量 z 的分布假设不是槽可识别性所必需的；相反，对生成器 f 施加结构就足够了。这与最先进的（SOTA）对象中心学习方法一致（Locatello等人，2020；Singh等人，2022b；Seitzer等人，2023；Elsayed等人，2022），它们基于自动编码框架，因此没有对施加额外的结构。然而，虽然这些模型通过重建目标直接强制执行可逆性，但它们是否以及在多大程度上强制执行组合性尚不清楚。具体来说，组合性在任何对象中心方法中都没有被显式优化。然而，SOTA模型在实践中的成功表明，它可能在一定程度上通过模型中的其他归纳偏差隐式地被强制执行。我们通过实验探讨了这一点（见图6），并将更理论的探索留作未来的工作。

4 相关工作

对象中心生成模型。以前的工作也曾基于潜在槽为多对象场景制定了生成模型（Roux等人，2011；Heess，2012；Greff等人，2015；2017；2019；van Steenkiste等人，2018；von Kügelgen等人；Engelcke等人，2020b；2021），尽管没有研究可识别性。我们对生成模型的假设（第2节）与这些先前工作有一些直观的相似之处，但也在几个根本的方面有所不同。首先，几乎所有对象中心生成模型都声明组合性（定义1）是一个期望的要求。然而，这种约束实际上并没有被大多数现有方法执行，特别是那些基于空间混合模型的方法，其中每个槽可能影响每个像素（Greff等人，2015；2017；2019；van Steenkiste等人，2018；Engelcke等人，2020b；2021）。更接近的是一种枯叶模型方法，通过分层对象来顺序生成场景，使得每个像素最多只受一个槽的影响（Roux等人，2011；von Kügelgen等人；Tangemann等人，2023）。与此相反，我们直接通过生成器的结构假设来定义组合性。其次，我们的不可约性标准（定义4和5）与先前工作的假设在概念上相似，即不同的对象不共享信息，而同一个对象的部分则共享（Hyvärinen & Perkio，2006；Greff等人，2015；2017；van Steenkiste等人，2018）。然而，这些工作使用统计标准，如不同对象像素之间的统计独立性和同一对象像素之间的依赖性。但这会导致对象的错误特征描述：例如，咖啡杯的存在应该增加桌子也存在的可能性，尽管它们是不同的对象（Träuble等人，2021；Schölkopf等人，2021）。在这里，我们不是用统计学的方式来形式化对象之间的独立性/依赖性，而是受到算法独立性机制的启发。

对象和因果机制。在因果建模（Spirtes等人，2001；Pearl，2009）中，机制通常指的是一个函数，它从其直接原因和可能的噪声项确定效应变量的值，导致在原因给定的情况下效应的条件分布。因此，我们可以将对象视为由导致它们的潜在变量引起的效应。虽然因果变量通常不是独立的，但有观点认为产生它们的机制应该是独立的（Schölkopf等人，2012；Peters等人，2017）。由于这是函数或条件之间而不是随机变量之间的独立性，所以以统计学的方式形式化它是非平凡的（Janzing & Schölkopf，2010；Guo等人，2022）。因此，提出了各种实施该原则的方法（Daniusis等人，2010；Janzing等人，2010；2012；Shajarisales等人，2015；Locatello等人，2018；Besserve等人，2018；2021；Janzing，2021），通常用于观察到原因和效应的设置。我们关于独立子机制的概念与Gresele等人（2021）的工作最密切相关，他们也研究表示学习，并更广泛地以雅可比Jf的形式定义机制：他们假设潜在变量是独立的，并将机制独立性形式化为雅可比的列正交性。与此相反，我们的秩条件（等式5）的灵感来自具有依赖潜在变量的对象中心表示学习。

可识别表示学习。由于这是首次对无监督对象中心表示的可识别性进行研究，我们在假设生成过程和我们旨在实现的可识别性类型方面与现有工作有所不同。首先，关于可识别表示学习之前的工作通常对潜在分布进行假设，例如在给定辅助变量的条件下独立性（Hyvärinen & Morioka，2016；2017；Hyvärinen等人，2019；Khemakhem等人，2020a；Hälvä & Hyvärinen，2020；Hälvä等人，2021），或者访问来自相似潜在对的视图（Gresele等人，2019；Klindt等人，2021；Zimmermann等人，2021；von Kügelgen等人，2021），同时让生成器f完全不受限制。与此相反，我们不对pz进行假设，而是对生成器f的结构（雅可比矩阵）进行限制。近期的工作也利用了对Jf的假设，例如正交性（Gresele等人，2021；Zheng等人，2022；Reizinger等人，2022；Buchholz等人，2022）、单位行列式（Yang等人，2022）或固定的稀疏结构（Moran等人，2021；Lachapelle等人，2021；Lachapelle & Lacoste-Julien，2022）。虽然后者与我们对组合性（定义1）的定义相关，但我们关键地允许Jf上的稀疏模式随z变化（符合对象在空间中不是固定的这一基本概念），并对槽而非单个潜在变量施加稀疏性。其次，现有的工作通常旨在确定潜在组件zi的个体身份，直到排列（或线性变换）。然而，这对于对象中心表示学习是不合适的，我们的目标是捕获并隔离对应于每个对象的潜在子集在明确定义的槽中。识别这样的潜在组类似于独立子空间分析（ISA；Hyvärinen & Hoyer，2000）中的努力。然而，ISA的结果通常限于线性模型和独立组，而我们允许非线性模型和依赖性。我们的槽可识别性概念与von Kügelgen等人（2021）引入的块可识别性概念最相关，可以被视为对多块设置中的扩展或概括。

5 实验

5.1合成数据

5.2现有的以对象为中心的模型

6 讨论

实验的局限性。

我们强调，这项工作的主要目标是为对象中心学习建立理论基础。因此，我们将实验重点放在验证定理2（第5.1节）和探索现有对象中心模型中我们理论的预测（第5.2节）。虽然我们在第5.2节的实验提供了证据，表明现有模型通过最小化实现更高的SIS，但将这些实验扩展到更多模型和数据集将有助于更全面地理解现有模型的性能在多大程度上可以从我们的理论中理解。我们将这样一项更大规模的经验性研究留作未来的工作。

理论的局限性。

虽然我们相信我们的理论假设抓住了对象中心学习中重要概念的精髓，但它们在实际情况中会以不同的程度被违反。例如，生成器f的组合性（定义1）假设被半透明/反射破坏，因为那时一个像素可能受到多个潜在槽的影响。此外，遮挡尚未完全被我们的理论所涵盖，因为遮挡物体边缘的像素将受到多个潜在槽的影响。另外，在实践中通常假设生成器f对其作用的潜在槽的排列是不变的。然而，排列不变性导致f的不可逆性，因为排列的潜在因素会产生相同的观测结果。我们预计我们的理论结果可以适应包含排列不变生成器，但我们将此留作未来的工作。

与现有对象定义的关系。

在我们的框架下，对应于一个对象的像素组具有这样的属性：分别编码这些像素的部分所需的潜在能力超过了将像素作为一个整体编码所需的潜在能力（定义5）。直观地说，这意味着有潜在信息在对象的不同部分之间共享。通过将对象的位置视为这样的潜在信息，我们的定义与共同命运的格式塔法则Gestalt law of common fate（Koffka，1936；Tangemann等人，2023）和Spelke对象的概念 concept of a Spelke Object （Spelke，1990；Chen等人，2022）相关，它们认为属于同一对象的像素一起移动。此外，通过将颜色或纹理视为共享的潜在信息，我们的定义与格式塔的相似性法则（Koffka，1936）相关，该法则认为具有视觉特征的项目倾向于作为单个对象被组合在一起。

理论的扩展。

虽然我们的理论结果提供了相对一般的条件，在此条件下可以识别对象中心表示，但我们的结果有几个可能的扩展方式。首先，我们假设我们主要结果的逆命题也可能成立，即，给定第3节中的生成模型，组合性和可逆性不仅是槽可识别性的必要条件，也是充分条件。对这个猜想的正式证明将进一步强调这些属性的重要性。此外，将我们的理论方法扩展到识别不仅仅是对象，还有抽象概念，如部分-整体层次结构（Hinton，2021）或单个对象属性，将是有趣的。在这种情况下，我们需要调整组合性的概念，以考虑在生成过程中相互作用的抽象概念。最后，扩展我们的结果以利用弱监督信息，如运动，将是有趣的，因为实证研究表明这对对象中心学习是有帮助的（Tangemann等人，2023；Kipf等人，2022；Elsayed等人，2022；Chen等人，2022）。

结束语。用对象来表示场景是视觉智能的关键方面，也是人类泛化的重要组成部分。虽然实证对象中心学习方法越来越成功，但到目前为止，我们还缺乏对数据和模型属性的精确理论理解，这些属性足以无可争议地学习对象中心表示。据我们所知，这项工作是第一个提供这种理论理解的工作。与可逆性一起，生成器的两个直观假设——组合性和不可约性——足以识别真实的对象表示。通过将可识别性理论扩展到对象中心学习，我们希望促进对现有对象中心模型的更深入理解，并为下一代模型提供坚实的基础。