4月30日,蚂蚁集团百灵大模型团队把Ling-2.6-1T的代码和权重直接丢上了开源社区。没有发布会,没有预热,OpenRouter的免费API调用窗口被开发者挤到延期——这件事的反差感在于:万亿参数级别的旗舰模型,过去是闭源巨头的护城河,现在成了开源社区的公共基础设施。

正方:万亿参数终于"能用"了

打开网易新闻 查看精彩图片

支持者的核心论据来自官方公布的五个基准测试。AIME26、SWE-bench Verified、BFCL-V4、TAU2-Bench、IFBench——这些名字背后是Agent、Coding、工作流三类真实场景。Ling-2.6-1T在这些执行类基准上达到开源SOTA(当前最优),意味着它不只是参数量的堆砌,而是能跑通多步骤任务。

技术细节里藏着关键取舍。官方明确否定了"更长思考链"和"参数规模体感"这两个主流叙事,转而押注MLA与Linear Attention的Hybrid架构,配合抑制"过程冗余"的强化奖励策略。翻译成人话:模型被训练得更"吝啬"——能用更少的Token消耗完成同等智能水平的输出。

这对企业用户的吸引力是直接的。万亿参数模型的推理成本历来是部署门槛,而"快思考"机制本质上是在压缩单次调用的边际成本。再加上与主流Agent框架的兼容性,Ling-2.6-1T的卖点从"我能做什么"变成了"你能用我多快回本"。

反方:开源SOTA的含金量存疑

质疑者的切口更现实。首先,五个基准测试的覆盖范围是否足够?AIME26是数学推理,SWE-bench是代码修复,BFCL-V4聚焦工具调用,TAU2-Bench和IFBench分别对应复杂决策与指令遵循——这些场景确实高频,但回避了多模态、创意生成、长文档理解等同样真实的业务需求。

更深层的疑问是"智效比"这个核心概念的模糊性。官方声称"在更低Token开销下保持强综合智能",但对比基线是谁?是同参数规模的Dense模型,还是MoE架构的竞品?如果是后者,Hybrid架构的稀疏激活优势是否被公平计入?开源社区尚未看到详细的消融实验数据。

还有一个被忽略的变量:延迟。Token开销降低不等于端到端响应更快。Linear Attention的理论复杂度优势在实际推理中受限于内存带宽和批处理策略,而MLA的KV Cache压缩率与序列长度的关系曲线,官方并未披露。

判断:参数战争的叙事正在失效

我的看法是,Ling-2.6-1T的真正价值不在于它赢了多少基准测试,而在于它公开宣告了一种新的评估范式——从"模型能力上限"转向"任务完成成本"。

这个转向的背景是行业共识的破裂。GPT-4之后,闭源模型的边际提升越来越难以量化;DeepSeek-R1则证明,推理能力的跃升可以不依赖参数规模的线性增长。当"更大即更强"的信仰动摇,市场开始追问:同样的钱,能买多少有效智能?

蚂蚁的选择是把这个追问前置到模型设计阶段。抑制"过程冗余"的强化奖励策略,本质上是在训练阶段就植入成本意识——不是让模型学会思考,而是让模型学会"值得思考时才思考"。这种设计哲学如果成立,将重塑开源社区的微调生态:开发者不再需要为每个垂直场景重新训练,而是可以通过调整奖励函数的权重,快速定制模型的"吝啬程度"。

下一步值得观察的指标有两个:一是企业用户的真实部署反馈,特别是长上下文场景下的KV Cache内存占用;二是社区基于Ling-2.6-1T的二次创新数量——万亿参数的开源底座能否催生出新的应用层范式,比任何基准分数都更能验证这次开源的诚意。

如果你正在评估大模型的落地成本,建议把Ling-2.6-1T放进对比清单。不是因为它参数多,而是因为它把"参数多"和"用得起"之间的张力,变成了一道可解的工程题。