Markov Categories and Entropy

马尔可夫范畴与熵

https://arxiv.org/pdf/2212.11719

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要
马尔可夫范畴是一种用于描述和处理概率论与信息论问题的新颖框架。本研究将范畴论形式体系与熵、互信息、数据处理不等式等传统量化概念相结合,证明信息论的多个量化维度可以通过增强型马尔可夫范畴来捕捉——该范畴中的态射空间需配备散度甚至度量结构。

遵循信息论的常规实践,我们通过选定散度来量化联合信源与其独立分量状态之间的偏离程度,从而获得互信息的度量方法。更具突破性的是,马尔可夫范畴为信源与信道提供了确定性的定义方式,使得熵能够通过量化信源或信道偏离确定性的程度来精确界定。这一方法不仅重构了香农熵、雷尼熵以及生态学中用于量化多样性的基尼-辛普森指数,更为广义熵的概念化定义提供了理论框架。

本文无需读者具备范畴论基础知识。

引言
本研究致力于融合信息论的两大核心主题:一方面是对信息流的定性描述,例如通过随机依赖关系的图形化表示或范畴论思想进行刻画;另一方面是基于熵、互信息等度量以及数据处理不等式等工具的定量推理。我们借助丰富范畴理论将定量维度纳入范畴论框架(但理解本文无需预先掌握该理论)。

自信息论发展初期,学界便对用范畴结构描述概率过程产生兴趣(最早公开文献可追溯至钦佐夫1965年的著作)。近年来,由弗里茨在2020年系统定义的马尔可夫范畴引发持续关注¹,这类范畴可视为核范畴的抽象化,其内置的图形演算能忠实反映信息流特征。事实上,马尔可夫范畴的图形演算已被证明满足d-分离定理[FK22],因此可与贝叶斯网络、马尔可夫随机场并列,视作概率图模型的一般性理论。这种图形表示与数学结构间的对应关系,使我们得以通过图形操作简洁证明定理

概率论及相关领域的多项定理已通过该方式被重新证明乃至推广,包括:充分统计量相关定理[Fri20, Jac22]、科尔莫戈罗夫与休伊特-萨维奇零一律[FR20]、统计实验比较的布莱克韦尔-谢尔曼-斯坦定理[FGPR20]、德菲内蒂定理[FGP21, MP22b],以及遍历分解定理[MP22a]。马尔可夫范畴还被用于建模信息流特性[FGGHL+22],成功捕捉依赖性与独立性、信号传递等定性概念。

本研究转向信息论的量化概念,重点探讨散度与熵,并揭示其如何适配马尔可夫范畴体系。为将定量表述融入范畴论框架,我们采用丰富范畴理论[Kel82]——该理论以更广义结构替代传统范畴中对象间的态射集合。具体而言,我们引入度量或散度空间,用以衡量两态射间的"差异程度",即判定图表偏离交换性的程度。尽管度量看似比广义散度更具理想性质,但本文框架将保持普适性。我们重点考察三类散度:库尔贝克-莱布勒散度(相对熵)、更广义的雷尼散度,以及全变分距离。

信息论常将互信息定义为对随机独立性状态的偏离度量。这天然契合马尔可夫范畴体系——其中基于两个特定态射的等式关系(详见第3节)可抽象定义随机独立性。通过量化该等式的偏离程度,能精确重构香农互信息与雷尼互信息等度量。

马尔可夫范畴同样通过态射等式定义确定性概念(详见第4节)。通过量化该等式的偏离程度,并选择恰当散度,可完整复现香农熵与雷尼熵;若采用全变分距离,则得到生态学中用于量化多样性的基尼-辛普森指数[Lei21]。因此,本方法为(至少离散情形下的)广义熵提供了等价的抽象定义。

注¹:此处"当前形式"特指弗里茨2020年论文中确立的马尔可夫范畴公理化体系。

关于范畴论与熵的前期研究熵及其性质历来受到范畴论学界的关注。文献[BFL11][Lei19][FP21]从范畴论角度对香农熵进行了刻画,形式化了信息损失度量的思想;文献[BF14]针对离散情形,文献[GP18]针对一般标准博雷尔情形,通过贝叶斯推断刻画了相对熵(KL散度);文献[Ful22]给出了二维推广。熵可通过凸空间操作胚的视角研究,文献[Bra21]证明熵是该操作胚上的导子,其导子性质的同调视角研究见于[BB15]。熵的组合性质亦通过多项式函子得以探究[Spi22]。在量子领域,冯·诺依曼熵的范畴刻画[Par22]与量子相对熵的刻画研究[Par21]相继出现。从热静力学与热力学视角出发,熵及相关量的范畴意义研究可见[BLM21]。代数层面,文献[DGB13]给出了代数熵概念的范畴推广。此外,经典与量子熵及其与语境性的关联在[CD20]中亦有探讨。

本研究并非度量几何与范畴论结合研究熵的首例。该思想的早期雏形可追溯至格罗莫夫[Gro13],其工作除启发了本研究外,还催生了若干独立研究路径,如热带概率论[MP17, MP19c, MP19d, MP19b, MP19a]。最后,范畴论、度量几何与熵亦是专著[Lei21]的核心主题,该书探讨了作为多样性度量(如生态学语境)的类熵量。

本文结构第1节概述马尔可夫范畴,重点介绍两大实例:有限字母表与随机矩阵(含噪信道)构成的范畴FinStoch,以及无限可测字母表与马尔可夫核构成的范畴Stoch。

第2节回顾散度(统计距离)概念,定义马尔可夫范畴的丰富结构(定义2.5),解析相关不等式(特别是数据处理不等式,第2.1节)。通过回顾马尔可夫范畴中的联合分布与边缘分布概念,给出丰富结构的等价刻画——该刻画可视为观测变量数量单调性条件与广义链式法则的结合(第2.2节)。随后通过实例证明:KL散度(相对熵)、雷尼α散度、全变分距离均可赋予Stoch与FinStoch以丰富结构,而察利斯q散度一般无法实现此结构。第2.4节证明,在实例中,非离散概率测度间的散度可表示为可数划分上的上确界,并将此结果表述为本文框架的首个丰富泛性质。第2.5节进而定义条件散度,用以量化信道间几乎必然等价的偏离程度。

第3节回顾马尔可夫范畴中的独立性与条件独立性概念,将互信息定义为对独立性状态的偏离度量。该定义契合传统信息论视角,并在对应散度下重构香农互信息与α互信息(第3.2节)。通过构造证明:所有互信息度量均满足数据处理不等式(第3.1节),这再次导出观测变量数量的单调性条件。同时证明,用于量化几乎必然条件独立性偏离的条件散度度量,可复现经典条件互信息(第3.3节)。

第4节回顾马尔可夫范畴中的确定性信源与信道概念,将熵定义为对确定性状态的偏离度量。该定义在离散情形下复现若干经典随机性度量(第4.2节):KL散度对应香农熵,雷尼α散度对应(阶数为2-α的)雷尼熵,全变分距离对应基尼-辛普森指数。类似地,对几乎必然确定性偏离的量化可得条件熵(第4.4节)。在非离散情形下,这些熵度量对无原子分布取最大值(第4.3节)。我们论证此现象源于可测空间在描述连续情形的局限性,并提出更具几何性的研究路径(第4.5节)。

附录A详述作为马尔可夫范畴丰富基底的散度空间范畴结构。理解正文无需阅读附录或预先掌握丰富范畴论知识。

1 背景:马尔可夫范畴
马尔可夫范畴是对含噪处理单元及其可共享输入输出数据系统的抽象。

字母表与信道
首先,马尔可夫范畴由一系列对象(记为X、Y等)构成,我们将这些对象视为可能的状态空间、数据空间或字母表。在本文中,我们将其表示为水平走向的导线。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这些可视为无噪声的信道。
我们可以将概率测度建模为无输入的信道,具体方式如下。首先,我们有一个称为单位元的特定对象,记作 I,它在图示中不画出(以空白区域表示)。它代表无信息的状态。在 FinStoch 和 Stoch 中,它是单点空间,即无需对状态进行区分。X 上的一个信源或(随机)状态现在是一个态射 p : I → X,我们将其描绘如下。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在 Stoch 和 FinStoch 中,该态射只是以概率 1 交换坐标,即 ( x , y ) ↦ ( y , x )
。这些同构必须以构成所谓对称幺半范畴的方式兼容(更多信息参见例如 [ML98, 第七章第 1 节])。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在 FinStoch 中,这恰好是随机矩阵每列之和为 1 的条件,即转移概率归一化。

这些结构和性质正是构成马尔可夫范畴所需要的。为便于参考,以下给出严格而简洁的定义。

定义 1.1.马尔可夫范畴是一个对称幺半范畴 ( C , ⊗ , I )
,并为每个对象 X X选定一个与张量积相容的交换余半群结构,且满足所有态射都是余幺的。

有时会省略余幺性或归一化条件,此时不称马尔可夫范畴而称为垃圾共享(GS)范畴[Gad96, FL22] 或拷贝丢弃(CD)范畴[CJ19]。

关于马尔可夫范畴理论的更多信息,我们推荐原始文献 [Fri20] 以及引言中引用的其他材料。需注意,在大多数其他文章中,图形演算采用垂直方向(从下到上)而非从左到右。

2 马尔可夫范畴上的散度

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不等式 (2) 和 (3) 的一个解释是:可以通过更简单的组件来界定通过顺序组合与并行组合获得的信源与信道复杂配置之间的散度。例如,下图所示两个系统之间的距离或散度:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

熟悉丰富范畴论的读者可能会在定义 2.5 中识别出丰富结构。确实如此,感兴趣的读者可参阅附录 A 中的更多细节。另请注意,该定义中我们使用了 C 的幺半结构,但未使用其马尔可夫结构。然而后者将在定理 2.7 中用于给出更简洁的描述。

打开网易新闻 查看精彩图片

2.1 数据处理及其他不等式
在定义 2.5 中,我们已看到,为了通过 (4) 式在马尔可夫范畴上定义散度,对于如下形式的每个图表:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

我们实际上可以得到序贯不等式 (10)。

张量积条件 (3) 同样是一种三角不等式,但作用于另一种"方向",即并行处理的方向。它表明我们可以通过独立过程的各组件来界定并行组合后的散度。同样,这通常与散度是否满足度量三角不等式无关。

2.2 用联合分布与边缘分布刻画
我们拥有带散度马尔可夫范畴的等价刻画,该刻画聚焦于联合态射、边缘态射及其分布,而非序贯组合。首先回顾:给定 X 上的有限支撑概率分布 p 和 Y 上的有限支撑概率分布 q,p 与 q 的联合分布(若将 X 与 Y 视为随机变量,亦可称为 X 与 Y 的联合分布)是 X × Y 上的一个概率分布 r,使得:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.3 特定散度
信息论、概率论和统计学中使用的若干散度,都是定义 2.5 意义下 Stoch 与 FinStoch 上散度的实例。以下给出一些例子及一个反例(第 2.3.4 节)。对 Stoch 与 FinStoch 上所有散度的完整分类目前仍是一个开放问题。

原文链接:https://arxiv.org/pdf/2212.11719