清华姚权铭团队提出LMNet，让语言模型学会自己「组网」|姚权铭|清华|神经网络|语言模型|通信

大语言模型正在成为人工智能系统的核心组件。从文本生成、数学推理到代码编写，单个大模型已经展现出强大的能力。

然而，随着任务复杂度不断提升，一个新的问题也逐渐浮现：未来的智能系统，是否一定要依赖一个越来越大的“单体模型”？还是可以像人类社会、神经系统和计算网络一样，通过多个智能单元之间的连接、通信与协同，形成更强大的系统能力？

围绕这一问题，清华大学姚权铭团队提出了一种新的 AI 系统组织方式：Language Model Networks。相关论文发表于 ICML 2026，作者为 Shiguang Wu、Yaqing Wang 和 Quanming Yao。该工作进一步设计了LMNet，让语言模型之间能够通过稠密、可微、可训练的方式进行通信，从而探索从“单模型智能”走向“模型网络智能”的新路径。

论文标题：Language Model Networks: Supervision-Efficient Learning through Dense Communication
论文链接：https://arxiv.org/abs/2505.12741

一、从“更大的模型”到“更会协作的系统”

过去几年，大模型研究很大程度上围绕“规模”展开：更大的参数量、更多的数据、更长的上下文、更强的训练策略。规模扩展带来了能力跃迁，也推动了大模型在真实场景中的广泛应用。

但当模型开始承担更复杂、更持续、更需要分工的任务时，单体模型也面临新的边界：它需要同时完成规划、推理、检索、验证、调用工具和生成结果，系统压力不断集中在一个模型内部。

Language Model Networks 提供了另一种视角：预训练语言模型不必只被看作一个独立预测器，也可以被看作可复用的计算节点；模型之间的连接、通信和协同，也可以成为智能能力的重要来源。

换句话说，AI 的能力不只来自“模型本身有多强”，也来自“模型被如何组织起来”。

二、为什么仅靠自然语言“聊天”还不够

在现有的大模型推理 test-time scaling、多模型协作和多智能体系统中，模型之间通常通过自然语言进行交流。例如，一个模型先生成一段文字，另一个模型再读取这段文字并继续推理。这种方式直观、易用，也方便人类理解，因此非常适合快速搭建应用型系统。

但从机器通信的角度看，自然语言并不是最高效的媒介。

语言是离散的、符号化的，模型之间每次交流都需要经历“内部表示到文本、文本再到内部表示”的转换过程。这个过程可能带来信息损失，也会打断梯度传播，使得整个系统很难直接根据最终任务目标进行端到端优化。

对于模型与模型之间的协同而言，真正关键的问题不只是“怎样写提示词”，而是“怎样让通信本身变成可以学习的对象”。

图 1 ：离散的自然语言对于模型间通信是非必需的，且传递信息效率低、难以优化；LMNet 利用稠密连续向量进行模型间通信。

三、LMNet：在语言模型之上构建“模型级神经网络”

LMNet 的设计可以被直观理解为：在语言模型之上，再构建一个“模型级神经网络”。

在普通神经网络中，神经元通过连接形成层级结构；而在 LMNet 中，预训练语言模型被视为可复用的计算节点，模型之间的通信模块则构成可训练的连接边。

具体来说，LMNet 保留系统最外层的自然语言输入和输出，但在中间模型节点之间，尽量绕开反复的文本生成与文本理解过程，让节点直接交换连续的稠密向量。这样一来，模型之间的沟通不再完全依赖人工设计的提示词、角色分工或中间推理文本，而是可以在训练过程中自动学习出来。

图 2 ：LMNet 模型网络结构示意图。语言模型作为节点，通信模块（如 attention block）作为边，形成可端到端优化的模型网络。

四、让通信从人工设计变为自己学习

这项工作的关键意义在于，它把“通信”从外部设计的规则，推进为系统内部可优化的能力。系统不需要人为标注每个中间节点应该说什么，也不需要提前规定每个模型必须扮演什么角色。只要最终任务有监督信号，LMNet 就可以通过梯度优化自动调整模型节点之间的信息流，学习“谁该向谁传递什么信息”。

从这个意义上看，LMNet 更像是一项关于“智能组织方式”的探索。它将大语言模型从单个预测器，推进为可连接、可组合、可协同的网络化组件；也将 AI 系统设计从“如何提示一个模型”，进一步推进到“如何组织一组模型”。

这与测试时推理、多智能体协作、工作流优化等方向存在自然联系，但 LMNet 更进一步关注底层通信机制本身：让通信变成可微、可训练、可优化的系统能力。

五、实验数字：小额外成本下的能力提升

实验结果显示，LMNet 在通用能力提升和有限监督适应两个场景中均展现出良好效果。

在通用能力提升实验中，研究团队以 Qwen2.5-0.5B 作为基础语言模型节点，构建 1/4/4/4/1 结构（共 4 层通信，14 个节点共享参数）的约 1.14B 参数的 LMNet-1B。在额外训练 token 少于 0.1T、训练成本不到基础模型预训练成本 0.2% 的情况下，LMNet 在多个通用任务上取得了明显提升（图 3）。