pandas 200个函数被压缩成15个：数学家怎么做到的|代数|原语|向量|数学家|新论文|算子

200多个方法，15个核心算子，压缩比超过13:1。这不是某个程序员在炫技，是UC Berkeley的研究团队分析了100万个Jupyter笔记本后，给pandas做的一次"解剖手术"。

他们想知道：当你调用df.pivot()或df.melt()时，底层到底在发生什么？这些看起来毫不相关的API，有没有可能共享同一个"基因"？

一个没人回答过的问题：DataFrame到底是什么

听起来很基础，但直到2020年，学术界才有人给出正式定义。Petersohn等人在论文里把DataFrame写成一个四元组：(A, R, C, D)。A是数据数组，R是行标签，C是列标签，D是每列的数据类型域。

这个定义比"一张表"精确得多。它捕捉了DataFrame跟SQL表的本质区别：行和列都有序、都有标签、完全对称。你可以转置，可以把数据值提升为列标签，这些操作在关系数据库里根本不存在。

研究团队分析了100万个真实使用的notebook，发现85%以上的pandas操作都能被15个算子组合表达。fillna、isnull、str.upper、cummax——全是MAP的特例。sort_values、set_index、reset_index、merge、groupby、pivot——各自对应代数里的一个原语。

15个算子从哪来：SQL的遗产与DataFrame的独创

这15个算子可以分成三类。前9个直接来自关系代数：PROJECTION（选列）、SELECTION（选行）、RENAME（重命名）、JOIN（连接）、GROUPBY（分组）、AGGREGATE（聚合）、UNION（并集）、DIFFERENCE（差集）、CARTESIAN（笛卡尔积）。

WINDOW算子来自SQL的窗口函数扩展。真正有意思的是最后四个：TRANSPOSE（转置）、MAP（映射）、TOLABELS（值转标签）、FROMLABELS（标签转值）。

这四个算子是DataFrame独有的"超能力"。它们的存在，完全是因为DataFrame把行和列当作对称的一等公民。关系数据库里，元数据是元数据，数据是数据，井水不犯河水。但在pandas里，今天还是数据的东西，明天可能就是索引——这种流动性让数据分析变得灵活，也让优化变得困难。

MAP算子尤其值得多看一眼。它接收一个函数，独立作用于DataFrame的每个元素。听起来简单，但pandas里200多个方法中，大量都是MAP的"变装"：apply、applymap、map、transform——本质上是同一个操作在不同上下文里的包装。

作者的不满足：15个还能不能再压缩

论文作者读到这儿时，盯上了那9个关系代数算子。PROJECTION、RENAME、GROUPBY、JOIN——这些感觉有亲缘关系。在数学的另一个分支里，有人已经研究过这类结构：范畴论（Category Theory）。

范畴论研究的是"结构之间的结构"。它的核心观察是：很多看起来不同的数学对象，共享相同的变换模式。比如集合与函数、向量空间与线性映射、数据类型与程序——都可以放进同一个框架。

作者发现，DataFrame的算子可以重新表述为范畴论中的"透镜"（Lens）和"光学器件"（Optics）。这是一种描述"部分更新"的数学工具：你有一个大图景，但只修改其中一小部分，同时保持与整体的联系。

用透镜重新建模后，15个算子开始显露出更深的共性。SELECTION和PROJECTION都是"限制"（Restriction）的实例。JOIN和GROUPBY都涉及"跨结构的重索引"。TRANSPOSE和TOLABELS/FROMLABELS则是"索引与数据的角色互换"——这在范畴论里对应着特定的伴随函子（Adjunction）。