凌晨三点,李明的Token账单又炸了。

他的AI Agent跑了六个小时,烧掉四百多美元,最后卡在工具调用的循环里,任务只完成了一半。这不是技术选型失误,也不是Prompt写得不够精致——当Agent真正接管工作流,端到端的任务场景会让成本失控的问题无处躲藏。上下文窗口越滚越大,多轮对话像滚雪球,Token消耗的速度远超预期。

打开网易新闻 查看精彩图片

开发者们开始意识到一个被长期忽视的维度:词元效率(Token Efficiency)。

一周前,代号Elephant Alpha的匿名模型悄悄登陆OpenRouter。没有预热,没有官宣,上线首日就冲上Trending榜单第2位,Token使用量日增377%,prompt tokens突破6.11B。开发者社区用真金白银投票,说明问题。

这就是蚂蚁百灵最新发布的Ling-2.6-flash,一款总参数量104B、激活参数7.4B的Instruct模型。它的核心主张简单粗暴:更少Token,更快响应,更强执行。

官方技术文档揭示了三个底层革新。混合线性架构从底层优化计算效率,在4卡H20条件下推理速度最快达到340 tokens/s,Prefill吞吐是Nemotron-3-Super的2.2倍。训练阶段对Token效率进行针对性校准,在Artificial Analysis完整评测中仅消耗15M tokens,约为Nemotron-3-Super等模型的1/10。面向Agent场景定向增强工具调用、多步规划与任务执行能力,在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等评测中,即使面对激活参数更大的模型,依然取得相近甚至SOTA级别的表现。

定价层面,输入每百万tokens 0.1美元,输出0.3美元,已正式开放API服务并提供一周免费试用。

单点极限能力的榜首轮换早已是常态,Ling-2.6-flash的特殊之处在于:它在控制Token消耗的前提下,维持了Agent性能竞争中的实际战斗力。多位海外评测者指出,其输出风格更接近"实用型而非单纯强大",与"追求极致智效比"的定位形成呼应。

作为首款主打Token效率的模型,"高智效比"是营销话术还是真实能力?我们将Elephant Alpha放入真实任务场景,以Qwen3.5-122B-A10B和Nemotron-3-Super-120B-A12B为基准,设计了三组测试:Token效率基准、256K上下文窗口验证、Function Calling与结构化输出。

Token效率基准覆盖代码生成(4题)、Bug修复(4题)、文档摘要(3题)、逻辑推理(5题)、结构化输出(5题)五大场景,统计信息留存率与Token消耗。上下文窗口测试则在64K、128K、200K三个长度下验证信息召回能力。

结果呈现清晰的效率差距。Bug修复任务上,Elephant Alpha四题全部通过测试,而Qwen3.5和Nemotron-3-Super均为三题通过。更关键的是,Elephant Alpha以1,017个Token完成了后两者分别需要1,539和1,464个Token才能达成的同等信息量任务,节省幅度接近50%。

在AI落地日益讲究ROI的当下,这种"省着用还能干完活"的能力,或许比榜单排名更值得关注。