来源:市场资讯
(来源:财联社AI daily)
今年,智能体(Agent)成为了大模型落地的核心形态。
然而,当前智能体任务的输入长度较传统聊天场景普遍提升两个数量级,频繁的工具调用、多步规划与长程执行不断拉长模型的输出链路,Token消耗的快速增长,正在成为制约智能体大规模商业化的核心矛盾。
正是在这一背景下,蚂蚁百灵推出了一款总参数量104B、激活参数仅7.4B的Instruct模型——Ling-2.6-flash。
据悉,该模型并未追随行业主流的"长思考"路径,即没有以更冗长的推理过程换取更高的任务上限,而是选择了一条差异化的技术路线——围绕推理效率、Token效率与Agent场景表现进行系统性优化,在保持竞争力智能水平的同时,尽可能做到更快、更省、更适合真实业务场景。
这一选择的独特性在于,它直面了当前行业最现实的痛点——不是"模型能不能做",而是"模型做不做得起"。
当大量推理Token堆积成为日常高频Agent使用的成本负担时,Ling-2.6-flash试图回答一个关键问题:能否在"足够强"与"足够省"之间找到最优解,来真正推动智能体走向规模化落地?
▍三大核心能力,让模型更能打
Ling-2.6-flash的竞争力并非建立在单一指标上,而是通过架构创新、效率优化与场景适配三个维度,构建了一套面向真实部署环境的综合能力体系。
首先是架构创新,Ling-2.6-flash沿用了蚂蚁百灵大模型的混合线性架构,从而让底层推理效率得以进一步释放。
Ling-2.6-flash通过增量训练方式,将GQA注意力机制升级为1:7的MLA(Multi-head Latent Attention)+ Lightning Linear高效混合架构。
这种高度稀疏化的MoE架构,配合256K tokens的长上下文支持能力,从底层重构了计算效率。
在硬件表现上,这一架构优势被充分释放。
据官方公布数据显示,在4卡H20条件下,Ling-2.6-flash的推理速度最快可达340 tokens/s,Prefill吞吐达到Nemotron-3-Super的2.2倍。
值得关注的是,随着上下文长度和生成长度持续增加,其吞吐优势会被进一步放大——Prefill与Decode吞吐最高均可达到同尺寸主流SOTA模型的约4倍提升。
在权威AI能力评测机构Artificial Analysis官方测评中,其以215 tokens/s的输出速度位列同参数级别模型第一梯队。
据悉,针对BF16推理,蚂蚁百灵团队在这一模型上实现了QK Norm + RoPE、Group RMSNorm + Sigmoid Gate等关键算子的深度融合;针对FP8推理,进一步将RMSNorm、SwiGLU与量化算子融合,并引入Split-K的Blockwise FP8 GEMM。
从算子融合、缓存机制到多token生成的一整套协同优化,不仅提升了系统吞吐,更带来了更高的单用户TPS、更短的等待时间,以及在真实交互场景下更稳定流畅的使用体验。
其次是Token效率的优化,Ling-2.6-flash以1/10的token消耗,实现了SOTA级智效比。
如果说架构创新解决了"跑得快"的问题,Token效率优化则解决了"跑得省"的问题,蚂蚁百灵团队在对Ling-2.6-flash模型训练过程中,对Token效率进行了针对性校准,力求以更精简的输出完成既定目标,这在Artificial Analysis的Intelligence vs. Output Tokens评测中表现的尤为显著。
在上述评测中,Ling-2.6-flash以15M output tokens实现了26分的Intelligence Index,在保持较强智能水平的同时,将输出消耗控制在极低位置。
一个对比数据是,Nemotron-3-Super等模型达到或超过110M tokens。
这意味着,Ling-2.6-flash仅用了约1/10的token消耗量,就完成了同类评测任务。
这种"智效比"的显著提升,并非通过牺牲能力换取效率,而是在"智能表现"与"输出成本"之间取得了更优平衡,它不以更冗长的输出堆叠分数,而是以更精炼的生成完成任务。
对于开发者和企业而言,这直接转化为更低的推理开销、更快的首字响应、更短的整体生成时延,以及更流畅的交互体验——这些恰恰是真实部署环境下对速度、成本与体验的综合要求。
在智能体应用疯狂涌现的2026年,对于大模型而言,场景匹配是另一个重要考量维度,蚂蚁百灵团队在Ling-2.6-flash模型训练时,针对Agent场景进行了定向增强。
面向当前需求最旺盛的Agent应用,蚂蚁百灵团队依托自研的大规模高保真交互环境,让Ling-2.6-flash模型经过了针对性的General Agent与Coding Agent强化学习训练,显著提升了该模型的指令遵循、工具调用、多步规划及长程执行表现。
在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等代表性Agent评测榜单上,Ling-2.6-flash即使面对激活参数更大的模型,依然能够取得相近甚至SOTA级别的表现。
与此同时,这一模型在Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw等主流框架中均展现了良好的使用体验,在通用知识、数学推理、指令遵循及长文本解析等维度,各项指标也对齐了同尺寸SOTA模型,保障了全场景下稳健优质的性能产出。
对企业和开发者而言,这代表着更低的推理成本、更高的部署效率,以及更适合大规模真实应用的模型体验。
▍Ling-2.6-flash后续将推商业版
实际上,在Ling-2.6-flash正式发布一周前,这一模型的匿名测试版本"Elephant Alpha"已经上线OpenRouter。
从这一模型上线后的表现来看,其调用量持续增长,连续多日位列Trending榜首,日均tokens调用量达100B级别,周增长超5000%。
因为免费策略,Elephant吸引了大量开发者使用,褒贬不一,但“效率高“成为大家对这款模型的普遍共识。
也就在这一模型发布时,官方还给出了API定价——Ling-2.6-flash输入每百万tokens定价0.1美元,输出0.3美元,这样的定价也是相当有诱惑力。
据悉,目前Ling-2.6-flash官方API已正式向用户开放,并提供为期一周的限时免费试用,用户可通过OpenRouter、百灵大模型tbox获取服务,该模型后续将通过蚂蚁数科发布商业版本LingDT,服务全球开发者及中小企业。
热门跟贴