Token消耗制约Agent规模化，百灵新模型如何解题？|agent|token|推理|智能体|电子表格|百灵新模型|算子

来源：市场资讯

（来源：财联社AI daily）

今年，智能体（Agent）成为了大模型落地的核心形态。

然而，当前智能体任务的输入长度较传统聊天场景普遍提升两个数量级，频繁的工具调用、多步规划与长程执行不断拉长模型的输出链路，Token消耗的快速增长，正在成为制约智能体大规模商业化的核心矛盾。

正是在这一背景下，蚂蚁百灵推出了一款总参数量104B、激活参数仅7.4B的Instruct模型——Ling-2.6-flash。

据悉，该模型并未追随行业主流的"长思考"路径，即没有以更冗长的推理过程换取更高的任务上限，而是选择了一条差异化的技术路线——围绕推理效率、Token效率与Agent场景表现进行系统性优化，在保持竞争力智能水平的同时，尽可能做到更快、更省、更适合真实业务场景。

这一选择的独特性在于，它直面了当前行业最现实的痛点——不是"模型能不能做"，而是"模型做不做得起"。

当大量推理Token堆积成为日常高频Agent使用的成本负担时，Ling-2.6-flash试图回答一个关键问题：能否在"足够强"与"足够省"之间找到最优解，来真正推动智能体走向规模化落地？

▍三大核心能力，让模型更能打

Ling-2.6-flash的竞争力并非建立在单一指标上，而是通过架构创新、效率优化与场景适配三个维度，构建了一套面向真实部署环境的综合能力体系。

首先是架构创新，Ling-2.6-flash沿用了蚂蚁百灵大模型的混合线性架构，从而让底层推理效率得以进一步释放。

Ling-2.6-flash通过增量训练方式，将GQA注意力机制升级为1：7的MLA（Multi-head Latent Attention）+ Lightning Linear高效混合架构。

这种高度稀疏化的MoE架构，配合256K tokens的长上下文支持能力，从底层重构了计算效率。

在硬件表现上，这一架构优势被充分释放。

据官方公布数据显示，在4卡H20条件下，Ling-2.6-flash的推理速度最快可达340 tokens/s，Prefill吞吐达到Nemotron-3-Super的2.2倍。

值得关注的是，随着上下文长度和生成长度持续增加，其吞吐优势会被进一步放大——Prefill与Decode吞吐最高均可达到同尺寸主流SOTA模型的约4倍提升。

在权威AI能力评测机构Artificial Analysis官方测评中，其以215 tokens/s的输出速度位列同参数级别模型第一梯队。

据悉，针对BF16推理，蚂蚁百灵团队在这一模型上实现了QK Norm + RoPE、Group RMSNorm + Sigmoid Gate等关键算子的深度融合；针对FP8推理，进一步将RMSNorm、SwiGLU与量化算子融合，并引入Split-K的Blockwise FP8 GEMM。

从算子融合、缓存机制到多token生成的一整套协同优化，不仅提升了系统吞吐，更带来了更高的单用户TPS、更短的等待时间，以及在真实交互场景下更稳定流畅的使用体验。

其次是Token效率的优化，Ling-2.6-flash以1/10的token消耗，实现了SOTA级智效比。

如果说架构创新解决了"跑得快"的问题，Token效率优化则解决了"跑得省"的问题，蚂蚁百灵团队在对Ling-2.6-flash模型训练过程中，对Token效率进行了针对性校准，力求以更精简的输出完成既定目标，这在Artificial Analysis的Intelligence vs. Output Tokens评测中表现的尤为显著。

在上述评测中，Ling-2.6-flash以15M output tokens实现了26分的Intelligence Index，在保持较强智能水平的同时，将输出消耗控制在极低位置。

一个对比数据是，Nemotron-3-Super等模型达到或超过110M tokens。

这意味着，Ling-2.6-flash仅用了约1/10的token消耗量，就完成了同类评测任务。