蚂蚁开源万亿模型：参数战争进入下半场|冗余|参数战争|官方文档|工作流|蚂蚁开源|调用

4月30日，蚂蚁集团百灵大模型团队把Ling-2.6-1T的代码和权重直接丢上了开源社区。没有发布会，没有预热，OpenRouter的免费API调用窗口被开发者挤到延期——这件事的反差感在于：万亿参数级别的旗舰模型，过去是闭源巨头的护城河，现在成了开源社区的公共基础设施。

正方：万亿参数终于"能用"了

支持者的核心论据来自官方公布的五个基准测试。AIME26、SWE-bench Verified、BFCL-V4、TAU2-Bench、IFBench——这些名字背后是Agent、Coding、工作流三类真实场景。Ling-2.6-1T在这些执行类基准上达到开源SOTA（当前最优），意味着它不只是参数量的堆砌，而是能跑通多步骤任务。

技术细节里藏着关键取舍。官方明确否定了"更长思考链"和"参数规模体感"这两个主流叙事，转而押注MLA与Linear Attention的Hybrid架构，配合抑制"过程冗余"的强化奖励策略。翻译成人话：模型被训练得更"吝啬"——能用更少的Token消耗完成同等智能水平的输出。

这对企业用户的吸引力是直接的。万亿参数模型的推理成本历来是部署门槛，而"快思考"机制本质上是在压缩单次调用的边际成本。再加上与主流Agent框架的兼容性，Ling-2.6-1T的卖点从"我能做什么"变成了"你能用我多快回本"。

反方：开源SOTA的含金量存疑

质疑者的切口更现实。首先，五个基准测试的覆盖范围是否足够？AIME26是数学推理，SWE-bench是代码修复，BFCL-V4聚焦工具调用，TAU2-Bench和IFBench分别对应复杂决策与指令遵循——这些场景确实高频，但回避了多模态、创意生成、长文档理解等同样真实的业务需求。

更深层的疑问是"智效比"这个核心概念的模糊性。官方声称"在更低Token开销下保持强综合智能"，但对比基线是谁？是同参数规模的Dense模型，还是MoE架构的竞品？如果是后者，Hybrid架构的稀疏激活优势是否被公平计入？开源社区尚未看到详细的消融实验数据。

还有一个被忽略的变量：延迟。Token开销降低不等于端到端响应更快。Linear Attention的理论复杂度优势在实际推理中受限于内存带宽和批处理策略，而MLA的KV Cache压缩率与序列长度的关系曲线，官方并未披露。

判断：参数战争的叙事正在失效

我的看法是，Ling-2.6-1T的真正价值不在于它赢了多少基准测试，而在于它公开宣告了一种新的评估范式——从"模型能力上限"转向"任务完成成本"。

这个转向的背景是行业共识的破裂。GPT-4之后，闭源模型的边际提升越来越难以量化；DeepSeek-R1则证明，推理能力的跃升可以不依赖参数规模的线性增长。当"更大即更强"的信仰动摇，市场开始追问：同样的钱，能买多少有效智能？

蚂蚁的选择是把这个追问前置到模型设计阶段。抑制"过程冗余"的强化奖励策略，本质上是在训练阶段就植入成本意识——不是让模型学会思考，而是让模型学会"值得思考时才思考"。这种设计哲学如果成立，将重塑开源社区的微调生态：开发者不再需要为每个垂直场景重新训练，而是可以通过调整奖励函数的权重，快速定制模型的"吝啬程度"。

下一步值得观察的指标有两个：一是企业用户的真实部署反馈，特别是长上下文场景下的KV Cache内存占用；二是社区基于Ling-2.6-1T的二次创新数量——万亿参数的开源底座能否催生出新的应用层范式，比任何基准分数都更能验证这次开源的诚意。

如果你正在评估大模型的落地成本，建议把Ling-2.6-1T放进对比清单。不是因为它参数多，而是因为它把"参数多"和"用得起"之间的张力，变成了一道可解的工程题。