之前写DeepSeek R1论文解读的时候,有个细节我一直没想通。
他们的Cold Start流程是用R1-Zero生成推理轨迹,过滤后当训练数据。这就是合成数据。但按信息论的说法,这不应该有用。数据处理不等式说得很清楚:对数据做确定性变换,信息只会减少不会增加。你没引入新数据,信息从哪来?
但它就是有用。效果比纯人类标注数据还好。
不止DeepSeek。AlphaZero从几KB的围棋规则自我对弈,生成了百万字节的战略知识。整个AI行业都在大规模使用合成数据,而且越用越多。理论说不行,实践说行。
这不只解释了合成数据的问题。它还回答了几个做AI的人一直凭直觉知道但说不清楚的事:为什么数据质量比数据量重要?为什么LLM的泛化能力远强于视觉模型?为什么训练数据的顺序会影响效果?
香农忽略了什么
要理解这些,得先看看经典信息论到底假设了什么。
1948年,克劳德·香农发表了《通信的数学理论》。他用熵这个概念,第一次精确定义了信息的度量方式。从电报到WiFi到5G,整个现代通信的理论基础都是这篇论文。
但香农的框架有一个隐含假设,很少有人注意到:
它假设观察者的计算能力是无限的。
在通信领域,这没问题。发送端编码、接收端解码,编解码器的算力不是瓶颈。但如果观察者是一个正在学习的神经网络呢?它的参数量有限,训练时间有限,算力有限。这时候,香农的框架就出现了裂缝。
具体来说,经典信息论有三条推论。乍一听都很合理,但做AI的人会觉得哪里不对:
一、确定性变换不能创造信息(数据处理不等式)。
二、信息和数据的排列顺序无关。
三、如果模型完美匹配了数据分布,它就学会了数据中的一切。
每一条,在AI实践中都被证明是错的。第一条的反例开头已经说了——合成数据不应该有用,但它就是有用。后面两条也一样站不住脚。
倒着读一本书,信息一样多?
香农信息论和柯尔莫哥洛夫复杂度都认为,信息的度量与数据排列顺序无关。一篇从前往后写的英文文章和同一篇字母倒过来排列的文章,「信息量」应该完全相同。
但做过大模型训练的人知道,从左到右读英文的训练效果,明显好于倒着读。
密码学给了一个更极端的例子。RSA加密的核心是:两个大素数相乘很容易,一步就算完。但从乘积反推回两个素数?目前没有已知的高效算法。
同样的信息,一个方向轻松提取,另一个方向几乎不可能。
如果信息真的和顺序无关,这种不对称性不应该存在。
4条规则能涌现出多少知识
第三个悖论可能是最有意思的。
经典观点说,如果一个模型完美匹配了训练数据的概率分布(困惑度最低),它就「学会了」数据中的所有信息。
但Conway的生命游戏只有4条简单规则:细胞根据邻居数量存活或死亡。就这4条。从这4条规则出发,会涌现出滑翔机(glider)、振荡器(oscillator)等各种复杂的动态结构。
这些结构不在规则里。你盯着规则看,怎么看都看不出来会有「滑翔机」这种东西。但它们确实存在,而且是可学习的模式。一个足够强的模型,能从这4条规则中学到远比规则本身丰富得多的知识。
三个悖论指向同一个漏洞:经典信息论没有考虑观察者的计算能力。
信息取决于谁在看
今年1月,CMU和NYU的六位研究者发了一篇论文,叫《From Entropy to Epiplexity》。作者之一Andrew Gordon Wilson说他们研究了近两年,「抑制不住地兴奋」。
说实话,「信息取决于观察者算力」这个直觉不算全新。2020年的V-information论文就证明了计算约束下信息可以被「创造」,直接违反了DPI。更早的1988年,Bennett提出过逻辑深度(logical depth),1996年物理学家Gell-Mann提出过有效复杂度(effective complexity),都从不同角度摸到了类似的东西。ML社区在实践中也早就知道特征工程和数据增强能提升性能,跟DPI矛盾,只是没人太在意理论解释。
但之前的工作更像是散落的碎片,各自解释一个侧面。这篇论文的价值在于把这些直觉整合成了一套完整框架,同时覆盖合成数据、数据排序、涌现等多个现象,而且给出了可操作的测量方法。不只是说「有这么回事」,而是说「怎么量、怎么用」。
他们的核心思路很优雅:把数据中的信息拆成两部分。
第一部分叫 Epiplexity(认知复杂度)。在给定算力范围内,观察者能从数据中提取的可学习结构。
第二部分叫 Time-bounded Entropy(时间有界熵)。在给定算力范围内,看起来像随机噪声的那部分。
关键来了:同一份数据,对不同算力的观察者,这两个量是不同的。
算力越强,能看到的结构越多(epiplexity升高),噪声变少(entropy降低)。算力越弱,结构藏在「看不见」的地方,整个数据更像噪声。
打个比方。同一本医学教材,对医学生来说,里面满是可学习的结构(高epiplexity)——症状和疾病之间的关联、用药逻辑、鉴别诊断的决策树。对小学生来说,同样的内容大部分看起来像噪声(高entropy,低epiplexity)。数据没变。变的是观察者的「算力」。
对AI模型也一样。同一份训练数据,GPT-2和GPT-4能从中提取的结构量完全不同。不是数据变了,是模型的算力变了。
密码学给了一个特别漂亮的验证。伪随机数生成器产生的序列,多项式时间的观察者几乎不可能与真随机数区分。所以它的time-bounded entropy接近最大值(看起来全是噪声),但epiplexity几乎为零(没有可学习的结构)。
翻译成人话:你的算力不够,你就发现不了数据里的规律。对你来说,它就是噪声。
这不是一个哲学观点。论文给出了严格的数学定义和证明。
这把尺子量出了什么
理论漂亮是一回事,能不能用是另一回事。研究者拿这个框架实际测量了,结果挺值得说。
文本数据的epiplexity远高于图像数据。
这可能是第一次从信息论角度解释「为什么语言模型比视觉模型泛化更强」。文本里藏着更密集的可学习结构,所以LLM学到的东西能迁移到更多下游任务。我们直觉上一直知道,但缺少理论解释。
他们还用国际象棋做了实验。用不同数据集预训练模型,测试在从未见过的棋局上的表现。结果很清楚:高epiplexity数据集训练出的模型,在新棋局上明显更强。
更实用的是,测量方法出奇简单。
他们提出了一种叫 prequential coding 的估计方法,核心思想是看训练损失曲线。损失从高到低下降的「面积」越大,说明模型从数据中学到了越多结构,epiplexity越高。
你不需要复杂的数学推导。看训练曲线,就能大致判断数据质量。
回到那个问题
前面三个悖论现在都能解释了。
合成数据为什么有用?因为数据处理不等式假设了无限算力的观察者。对无限算力来说,确定性变换确实不增加信息。但对有限算力的模型来说,一个好的合成过程可以把隐藏的结构变成可学习的结构,提高epiplexity。
数据顺序为什么重要?因为有限算力的观察者从不同方向提取信息的难度是不对称的。从左到右和从右到左,对无限算力没区别,但对有限算力有巨大差异。
涌现为什么发生?因为有限算力的观察者能发现生成规则本身没有明确包含的模式。规则简单,但规则运行的结果中蕴含的可学习结构远超规则本身。
飞轮还在转吗
之前写Ilya Sutskever那篇文章时,他说:「2020到2025是规模时代,但现在规模已经够大了。」很多人觉得scaling law快到头了,原因很简单:世界上的高质量文本数据快用完了。
但这引出了一个更大胆的问题:如果更好的模型能生成更好的合成数据,更好的合成数据又能训练出更好的模型,这个飞轮能一直转下去吗?
直觉上觉得不行。合成数据不能凭空创造关于真实世界的新知识。AlphaZero学到的所有战略,本质上都是围棋规则的推论,不是新的物理定律。你不可能靠AI生成数据来教AI它不知道的事实。这像是踩着自己的脚想把自己举起来。
但epiplexity给了一个不同的视角。
合成数据做的事情不是「增加知识」,而是「提高结构密度」。你有一本没目录、没索引的百科全书。一个好的合成过程相当于给它重新排版、标注重点、加上交叉引用。信息没变,但对有限算力的读者来说,可学习的结构变多了。epiplexity提高了。
所以飞轮可能还在。只是驱动它的东西变了:从「更多的数据」变成「更高密度的结构」。不是加油,是换挡。
不过有一个关键前提:你需要一种方法来验证合成数据的质量。代码可以编译运行,数学可以形式化证明,所以这两个领域的合成飞轮最先跑通了。Demis Hassabis也说过,代码和数学可以靠合成数据无限生成训练素材,正是因为有自动验证。
没有验证机制的领域呢?模型生成的「知识」可能只是幻觉。这时候合成数据不但不增加epiplexity,反而引入noise。Nature上那篇model collapse论文就是这个警告:纯合成数据训练,模型会不可避免地退化。
所以更准确地说:飞轮能不能转,取决于你有没有验证器。有验证器的领域(代码、数学、游戏),踩自己的脚上天是可能的。没有验证器的领域,自举大概率坍缩。
所有人都在说data quality matters,但一直没人能精确定义什么是quality。Epiplexity给了一个候选答案:高epiplexity的数据就是高质量的数据。而验证器,是确保合成数据确实有高epiplexity的守门员。
Karpathy之前在访谈里说过一个观点,我印象很深:人类记忆差,反而是优势。因为记忆力不好,迫使人类去寻找模式,而不是死记硬背。LLM的问题恰恰相反,过度记忆,反而忽略了可以泛化的规律。
用epiplexity的语言重新说这句话:人类的有限算力反而迫使我们只提取高epiplexity的结构,忽略noise。而LLM的巨大参数量让它可以把noise也记住,结果反而泛化变差。
费曼说过:「如果你不能简单地解释它,说明你还不理解它。」
我做了两年多内容,最大的体会是边学、边做、边分享形成的飞轮。当你试图教别人一个概念,费曼学习法会逼你把东西梳理得更清楚。现在我觉得这个过程可以用一个更精确的词来描述:你在用有限的算力(时间、注意力、已有知识),从数据中提取结构。提取得越多,你就越「理解」了这个东西。
同一份数据,不同的人看到不同的信息。这不是鸡汤。这是一个数学事实。
只是信息论花了70年才真正意识到它。
论文地址:https://arxiv.org/abs/2601.03220
热门跟贴