香农、信息论、AI、Scaling Law，以及信息的观察者效应|信息论|新论文|观察者|飞轮|香农

之前写DeepSeek R1论文解读的时候，有个细节我一直没想通。

他们的Cold Start流程是用R1-Zero生成推理轨迹，过滤后当训练数据。这就是合成数据。但按信息论的说法，这不应该有用。数据处理不等式说得很清楚：对数据做确定性变换，信息只会减少不会增加。你没引入新数据，信息从哪来？

但它就是有用。效果比纯人类标注数据还好。

不止DeepSeek。AlphaZero从几KB的围棋规则自我对弈，生成了百万字节的战略知识。整个AI行业都在大规模使用合成数据，而且越用越多。理论说不行，实践说行。

这不只解释了合成数据的问题。它还回答了几个做AI的人一直凭直觉知道但说不清楚的事：为什么数据质量比数据量重要？为什么LLM的泛化能力远强于视觉模型？为什么训练数据的顺序会影响效果？

香农忽略了什么

要理解这些，得先看看经典信息论到底假设了什么。

1948年，克劳德·香农发表了《通信的数学理论》。他用熵这个概念，第一次精确定义了信息的度量方式。从电报到WiFi到5G，整个现代通信的理论基础都是这篇论文。

但香农的框架有一个隐含假设，很少有人注意到：

它假设观察者的计算能力是无限的。

在通信领域，这没问题。发送端编码、接收端解码，编解码器的算力不是瓶颈。但如果观察者是一个正在学习的神经网络呢？它的参数量有限，训练时间有限，算力有限。这时候，香农的框架就出现了裂缝。

具体来说，经典信息论有三条推论。乍一听都很合理，但做AI的人会觉得哪里不对：

一、确定性变换不能创造信息（数据处理不等式）。

二、信息和数据的排列顺序无关。

三、如果模型完美匹配了数据分布，它就学会了数据中的一切。

每一条，在AI实践中都被证明是错的。第一条的反例开头已经说了——合成数据不应该有用，但它就是有用。后面两条也一样站不住脚。

倒着读一本书，信息一样多？

香农信息论和柯尔莫哥洛夫复杂度都认为，信息的度量与数据排列顺序无关。一篇从前往后写的英文文章和同一篇字母倒过来排列的文章，「信息量」应该完全相同。

但做过大模型训练的人知道，从左到右读英文的训练效果，明显好于倒着读。

密码学给了一个更极端的例子。RSA加密的核心是：两个大素数相乘很容易，一步就算完。但从乘积反推回两个素数？目前没有已知的高效算法。

同样的信息，一个方向轻松提取，另一个方向几乎不可能。

如果信息真的和顺序无关，这种不对称性不应该存在。

4条规则能涌现出多少知识

第三个悖论可能是最有意思的。

经典观点说，如果一个模型完美匹配了训练数据的概率分布（困惑度最低），它就「学会了」数据中的所有信息。

但Conway的生命游戏只有4条简单规则：细胞根据邻居数量存活或死亡。就这4条。从这4条规则出发，会涌现出滑翔机（glider）、振荡器（oscillator）等各种复杂的动态结构。

这些结构不在规则里。你盯着规则看，怎么看都看不出来会有「滑翔机」这种东西。但它们确实存在，而且是可学习的模式。一个足够强的模型，能从这4条规则中学到远比规则本身丰富得多的知识。

三个悖论指向同一个漏洞：经典信息论没有考虑观察者的计算能力。

信息取决于谁在看

今年1月，CMU和NYU的六位研究者发了一篇论文，叫《From Entropy to Epiplexity》。作者之一Andrew Gordon Wilson说他们研究了近两年，「抑制不住地兴奋」。

说实话，「信息取决于观察者算力」这个直觉不算全新。2020年的V-information论文就证明了计算约束下信息可以被「创造」，直接违反了DPI。更早的1988年，Bennett提出过逻辑深度（logical depth），1996年物理学家Gell-Mann提出过有效复杂度（effective complexity），都从不同角度摸到了类似的东西。ML社区在实践中也早就知道特征工程和数据增强能提升性能，跟DPI矛盾，只是没人太在意理论解释。

但之前的工作更像是散落的碎片，各自解释一个侧面。这篇论文的价值在于把这些直觉整合成了一套完整框架，同时覆盖合成数据、数据排序、涌现等多个现象，而且给出了可操作的测量方法。不只是说「有这么回事」，而是说「怎么量、怎么用」。

他们的核心思路很优雅：把数据中的信息拆成两部分。

第一部分叫 Epiplexity（认知复杂度）。在给定算力范围内，观察者能从数据中提取的可学习结构。

第二部分叫 Time-bounded Entropy（时间有界熵）。在给定算力范围内，看起来像随机噪声的那部分。

关键来了：同一份数据，对不同算力的观察者，这两个量是不同的。

算力越强，能看到的结构越多（epiplexity升高），噪声变少（entropy降低）。算力越弱，结构藏在「看不见」的地方，整个数据更像噪声。

打个比方。同一本医学教材，对医学生来说，里面满是可学习的结构（高epiplexity）——症状和疾病之间的关联、用药逻辑、鉴别诊断的决策树。对小学生来说，同样的内容大部分看起来像噪声（高entropy，低epiplexity）。数据没变。变的是观察者的「算力」。

对AI模型也一样。同一份训练数据，GPT-2和GPT-4能从中提取的结构量完全不同。不是数据变了，是模型的算力变了。

密码学给了一个特别漂亮的验证。伪随机数生成器产生的序列，多项式时间的观察者几乎不可能与真随机数区分。所以它的time-bounded entropy接近最大值（看起来全是噪声），但epiplexity几乎为零（没有可学习的结构）。

翻译成人话：你的算力不够，你就发现不了数据里的规律。对你来说，它就是噪声。

这不是一个哲学观点。论文给出了严格的数学定义和证明。

这把尺子量出了什么

理论漂亮是一回事，能不能用是另一回事。研究者拿这个框架实际测量了，结果挺值得说。

文本数据的epiplexity远高于图像数据。

这可能是第一次从信息论角度解释「为什么语言模型比视觉模型泛化更强」。文本里藏着更密集的可学习结构，所以LLM学到的东西能迁移到更多下游任务。我们直觉上一直知道，但缺少理论解释。

他们还用国际象棋做了实验。用不同数据集预训练模型，测试在从未见过的棋局上的表现。结果很清楚：高epiplexity数据集训练出的模型，在新棋局上明显更强。

更实用的是，测量方法出奇简单。

他们提出了一种叫 prequential coding 的估计方法，核心思想是看训练损失曲线。损失从高到低下降的「面积」越大，说明模型从数据中学到了越多结构，epiplexity越高。

你不需要复杂的数学推导。看训练曲线，就能大致判断数据质量。

回到那个问题

前面三个悖论现在都能解释了。

合成数据为什么有用？因为数据处理不等式假设了无限算力的观察者。对无限算力来说，确定性变换确实不增加信息。但对有限算力的模型来说，一个好的合成过程可以把隐藏的结构变成可学习的结构，提高epiplexity。

数据顺序为什么重要？因为有限算力的观察者从不同方向提取信息的难度是不对称的。从左到右和从右到左，对无限算力没区别，但对有限算力有巨大差异。

涌现为什么发生？因为有限算力的观察者能发现生成规则本身没有明确包含的模式。规则简单，但规则运行的结果中蕴含的可学习结构远超规则本身。

飞轮还在转吗

之前写Ilya Sutskever那篇文章时，他说：「2020到2025是规模时代，但现在规模已经够大了。」很多人觉得scaling law快到头了，原因很简单：世界上的高质量文本数据快用完了。

但这引出了一个更大胆的问题：如果更好的模型能生成更好的合成数据，更好的合成数据又能训练出更好的模型，这个飞轮能一直转下去吗？

直觉上觉得不行。合成数据不能凭空创造关于真实世界的新知识。AlphaZero学到的所有战略，本质上都是围棋规则的推论，不是新的物理定律。你不可能靠AI生成数据来教AI它不知道的事实。这像是踩着自己的脚想把自己举起来。

但epiplexity给了一个不同的视角。

合成数据做的事情不是「增加知识」，而是「提高结构密度」。你有一本没目录、没索引的百科全书。一个好的合成过程相当于给它重新排版、标注重点、加上交叉引用。信息没变，但对有限算力的读者来说，可学习的结构变多了。epiplexity提高了。

所以飞轮可能还在。只是驱动它的东西变了：从「更多的数据」变成「更高密度的结构」。不是加油，是换挡。

不过有一个关键前提：你需要一种方法来验证合成数据的质量。代码可以编译运行，数学可以形式化证明，所以这两个领域的合成飞轮最先跑通了。Demis Hassabis也说过，代码和数学可以靠合成数据无限生成训练素材，正是因为有自动验证。

没有验证机制的领域呢？模型生成的「知识」可能只是幻觉。这时候合成数据不但不增加epiplexity，反而引入noise。Nature上那篇model collapse论文就是这个警告：纯合成数据训练，模型会不可避免地退化。

所以更准确地说：飞轮能不能转，取决于你有没有验证器。有验证器的领域（代码、数学、游戏），踩自己的脚上天是可能的。没有验证器的领域，自举大概率坍缩。

所有人都在说data quality matters，但一直没人能精确定义什么是quality。Epiplexity给了一个候选答案：高epiplexity的数据就是高质量的数据。而验证器，是确保合成数据确实有高epiplexity的守门员。

Karpathy之前在访谈里说过一个观点，我印象很深：人类记忆差，反而是优势。因为记忆力不好，迫使人类去寻找模式，而不是死记硬背。LLM的问题恰恰相反，过度记忆，反而忽略了可以泛化的规律。

用epiplexity的语言重新说这句话：人类的有限算力反而迫使我们只提取高epiplexity的结构，忽略noise。而LLM的巨大参数量让它可以把noise也记住，结果反而泛化变差。

费曼说过：「如果你不能简单地解释它，说明你还不理解它。」

我做了两年多内容，最大的体会是边学、边做、边分享形成的飞轮。当你试图教别人一个概念，费曼学习法会逼你把东西梳理得更清楚。现在我觉得这个过程可以用一个更精确的词来描述：你在用有限的算力（时间、注意力、已有知识），从数据中提取结构。提取得越多，你就越「理解」了这个东西。

同一份数据，不同的人看到不同的信息。这不是鸡汤。这是一个数学事实。

只是信息论花了70年才真正意识到它。

论文地址：https://arxiv.org/abs/2601.03220

香农、信息论、AI、Scaling Law，以及信息的观察者效应

热搜

热门跟贴

热搜

热门跟贴

相关推荐

这是AI控制了世界

AI 没有让我们更轻松——HBR 研究读后感

从《魔兽世界》到皮克斯出身的创始人，在用声音和AI重新定义社交

AI时代，是中国创业者新的“坚船利炮”

麦肯锡：AI时代对毕业生并非全是坏事，善于驾驭AI的人将更受青睐

当人类智能不再稀缺，这篇发人深省的报告推演AI繁荣之后宏观景象：白领下岗，消费崩塌，经济通缩

诺奖得主辛顿最新访谈：1 万个 AI 可以瞬间共享同一份“灵魂”，这就是为什么人类注定被超越

众人皆才智，智慧汇聚

自然·通讯：人脑网络四大“转折”，界定人生五次“重塑”

不要盲目相信什么几千年的智慧，中美博弈，中国需要的是实事求是

AI验证唐国强观点：演员未来是危机还是进化？

AI的本质就是人在控制

好一个同理可证，还是多读点书吧

黑马图像模型被Nano Banana技术负责人点赞！

AI智能体不是越多越强：信息冗余构成了LLM Agent Scaling的瓶颈

海外华人团队打造，统一理解与生成的图像模型，超越Nano banana

AI主权的底层战争：全同态加密正在成为新基础设施

AI对抗迁移性评估的「拨乱反正」：那些年效果虚高的攻防算法们

OpenClaw绝配！GPT-5.4问世，AI能力开始大一统，就是太贵

1B模型当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster