MIT对大模型数理原理的强有力证明|原理|大模型|推理|语料|重整化|高维

来源：清熙

笔者去年整理的，迎来了最强有力的实践证明！

原理回顾

笔者在“GPT4技术原理”系列文章梳理出来大模型数理认知框架如下图：

海量的文本或者多模态语料组成了大模型需要认知的外部世界的基本信息；嵌入构建高维概率化的语言空间，用来建模语言文字图像以及音视频，并对连续变量做离散化；

预训练以重整化群流的方式进行，在不同尺度上提炼语料数据中的信息概率分布；重整化群流的每一步流动（自回归预测逼近训练语料概率分布），都沿着最优输运的成本最低方向进行；

重整化群在不动点附近因新语料带来微扰而发生对称性破缺，滑入不同的相空间；不同的相空间，对应某种意义上的范畴，可形象化为信息的结晶；这是大模型从语料中学到的内部世界模型；

在外部感官输入下（被提示置于某种上下文），大模型内部将限定在相应的高维语言概率空间的子空间内推理；推理是在子空间中采样，类比时跨范畴采样；

采样不断进行，基于内部概率化了的世界模型（预训练获得的先验），针对感官输入（提示），做变分推断，最小化自由能，获取最佳采样分布q*，作为对导致感官输入的外部后验的预测。

可总结为：1、重整化从海量语料中提取出范畴，2、持续重整化驱动范畴解构重组结晶，3、生成过程于范畴中采样做变分推理。

笔者在文中针对重整化、范畴与transformer之间的关系做了详细的阐述：

重整化本质是尺度从小到大粗粒度化概率分布的过程，而深度神经网络擅长学习小尺度结构逐级到认知全局特征，而大模型的Transformer 则可以逆重整化流，逐尺度重建微观概率分布，从而完成生成。

这里的范畴是Transformer视角下的高维概率向量编织起来的事物之间的各种复杂的关系。从海量的预训练数据集中提纯出来，对大量的分段线性核函数参数化后的表达。这些关系，关系的关系，关系的关系的关系，本质上，在范畴论概念下，就是对事物的米田嵌入。

最新实证

麻省理工学院 Markus J. Buehler 教授最近在《机器学习：科学与技术》发文【文献1】，展示了一种先进的 AI 方法：集成生成式知识提取、基于图的表征和多模态智能图推理。惊人地揭示了生物组织和贝多芬的“第九交响曲”之间的复杂性与秩序的共同模式。

该工作使用受范畴论启发的方法开发的图作为中心机制，教模型理解科学中的抽象结构和它们之间的符号关系，通过关注对象及其交互，而不是它们的具体内容，来理解和统一不同的系统。

我们知道，范畴论中，对象可以是任何东西，从数字到更抽象的实体，如结构或过程，对应上文笔者讲的“事物”；形态则是定义这些对象之间关系的箭头或函数，对应上文中的“米田嵌入”。

Buehler 教授通过范畴对象和形态教会 AI 模型系统地推理复杂的科学概念和行为。通过形态引入的符号关系清楚地表明，AI不仅仅是在进行类比，而是在进行更深入的推理，以映射不同领域的抽象结构。

这也回应了近期大模型究竟会不会推理的业界大辩论。当大模型生成的时候，已经不是那个简单的 next token prediction, 而是基于丰富范畴的推理、推理、推理，重要的事情得说三遍。Ilya Sutskever最新访谈提到的「扩大正确的Scaling」，应该指推理的Scaling law。

其实是苹果学者想当然合成了语料；字节豆包大模型团队大规模实验发现大模型无法抽象出一般物理规则，从实验看并无法判断是否局部触发了scaling law。

Buehler 教授通过这个方式，分析了 1000 篇有关生物材料的科学论文，并将其转化为图表征形式的知识图谱。

该图谱揭示了不同信息是如何连接的，并可找到与概念联系在一起的相关想法和关键点组。该图无标度，高度关联，可有效用于图推理。

教AI系统思考基于图的数据，以帮助它们构建更好的世界模型表征，并提高思考和探索新想法的能力，以实现超出人类认知的高维新发现：回答复杂的问题，发现当前知识中的差距，提出新的材料设计，预测材料的行为方式，还能够将以前从未连接过的概念联系起来。

生物材料和“第九交响曲”之间出乎意料的相似之处：两者都遵循复杂性模式，生物材料中的细胞以复杂但有组织的方式相互作用以形成功能，贝多芬的第九交响曲则以创造一种复杂但连贯的音乐体验为目标安排音符和主题。

通过追踪联系进行图遍历，能够找到以前尚未建立的概念之间的联系，或未理解为以任何已知方式相关的概念。使用生成式 AI 模型的复杂推理可以提供更深入的见解，产生新的信息连接，从而产生新知识，甚至促进新想法的发现。

探索复杂的图遍历为分析提供广阔的空间，既可以确定单个最可能的路径，也可以对多个路径进行采样。图形是通过合并所有节点来构建的，即使它们来自不同的路径。整体图具有明显不同的拓扑结构，并在边缘编码的概念及其关系之间提供了新颖的联系。表明了非常灵活的图可以被构建并最终用于推理。

图表征了相应领域知识的本体结构，可用于支持该特定科学研究中的推理，例如提出有关材料特性的假设或预测组合不同材料的可能结果，还可以帮助识别知识差距，提出新的研究领域，并促进对材料科学或不同学科之间复杂相互关系的理解。
学者在一项实验中，基于来自瓦西里·康定斯基（Wassily Kandinsky）的画作《构图 VII》中的抽象图案的灵感，AI 提出了一种新的基于菌丝体的复合材料：这种材料结合了一组创新的概念，包括混乱与秩序的平衡、可调节的特性、孔隙率、机械强度和复杂的图案化学功能。

基于宏大的人类知识提取出来丰富范畴，形成众多领域的本体知识结构，这是大模型通过预训练已经构建的内部世界模型；提高推理采样的机制，通过训练达成学习推理的scaling law，是大模型下一步努力提升的方向。

相比传统方法，新的大模型机理，具备更高维度的新颖性、对能力和技术细节的探索，可以通过揭示隐藏的联系建立更广泛有用的创新框架。AI 知识图驱动的跨学科研究可能会成为科学和哲学探索的有力工具。

文献1: Accelerating scientific discovery with generative knowledge extraction, graph-based representation, and multimodal intelligent graph reasoning https://iopscience.iop.org/article/10.1088/2632-2153/ad7228

数据与代码：https://github.com/lamm-mit/GraphReasoning

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”