匿名模型“大象”搅局OpenRouter：100B参数冲到热榜第一，实测结果如何|agent|openrouter|匿名模型|大象|工作流|电子表格|编程|调用|速度

智东西4月16日报道，这两天，一款名为Elephant（大象）的匿名模型，在OpenRouter上悄然亮相。上线不到48小时，这一模型已经冲到OpenRouter热榜（Trending）第一，目前调用量超过1850亿个token。

在调用量日榜上，Elephant排名全球第八。

根据OpenRouter对其介绍，Elephant是一个100B参数量的纯文本模型，主打高token效率，支持256k上下文和32k输出，适合的任务包括代码补全、调试、快速文档处理和轻量级Agent交互等等。

目前，Elephant在网友反复的“拷打”下，暂时还没供出自己是哪家的模型。有网友猜测这可能是国产最新模型的Flash版本，或海外全新实验室捣鼓出来的新品。

有不少开发者已经晒出他们对Elephant的使用体验，Hermes Agent的作者拿它跑了个基准测试，发现这一模型在大部分工具调用任务中表现还行，不过偶尔会出现幻觉和对环境的错误理解，这对一个100B的模型来说其实也正常。

输出速度是这一模型的一大亮点，其在OpenRouter上的平均速度就达到了67 token/s，首token延迟为0.89秒，在即时交互场景展现出了潜力。有网友感叹，虽然质量还不确定，但这是他用过最快的模型，让他想起了Grok Fast 1的体验。

不过，光看别人的评价终究隔了一层。接下来，我们将亲自上手，从编程、文档处理到Agent交互，逐个任务实测一遍。

一、编程、长文本、Agent实测：前端编程响应快，支持多轮工具调用

在OpenRouter上，Elephant的编程能力排名在同尺寸模型中靠前，于是我们先尝试了几个编程的小项目，看看它能否快速完成。

首先是一个网站，这主要考察模型的前端能力。拿到开发任务后，Elephant对网站的几个核心组件进行了规划，并主动为这一网站加入了明暗模式切换、移动端响应式设计等我们并未要求的功能，最终耗时1分钟左右完成开发。

当我们要求它将网站的主色调改成绿色后，Elephant用不到10秒钟就完成了修改。相信使用过其他模型的用户都知道，大部分模型在处理修改任务时往往需要通读上下文，逐一修改，一些细枝末节的修改可能要花上几分钟。

而Elephant基本做到了指哪儿打哪儿，这对于一些快速、高频的网站调试需求是很实用的。

我们也试了试Elephant有没有打造项目级任务的能力，让它根据自己的内部知识，复刻一个支付软件。我们是在Kilo Code插件中体验的模型编程，由Elephant驱动的多个子Agent并行工作，进一步放大了它的输出速度优势，但是其最终打造的结果仅能算是一个原型。这种表现可能与其较小的参数量有关。

再来看看Elephant在长文本场景的表现。我们向模型发送了一份几百页的招股书，并给出十分详细的IPO解读要求，让Elephant输出对这家公司基本面的总结。这种复杂的提示词，对模型的指令遵循能力是一种挑战。

在执行过程中，Elephant可以快速调用多个文件读取工具，以极快的速度输出解读。它用12万token完成了对这份复杂文件的梳理，耗时却仅有几十秒。

细读它的解读可以发现，模型完全按照我们的要求梳理出了核心信息，没有遗漏，数据、结论都基本准确。

我们还尝试了让Elephant完成Agent类型的任务：将其接入一个OpenClaw类的产品，并要求它规划一次去泰国的7日游，搜索景点注意事项、定位等关键信息，最终打造一个攻略网站。

Elephant可以充分利用Agent框架为其提供的工具，调用搜索等工具，获取和泰国旅行相关的信息。

最终，Elephant在这种开放式Agent任务上做得不错，旅程规划合理，覆盖了重要的景点。它还在高德上为我们查找了对应地点的定位，点击后即可跳转到相应界面。

几个任务跑下来，我们发现Elephant在执行任务中展现了优秀的速度与指令响应能力，前端原型开发和长文件处理效率不错，但在打造完整项目级应用时仍然有些力不从心。其Agent规划与工具调用能力可圈可点，能自主完成旅行攻略到网站落地。总体而言，这是一款在轻量级、高频任务中具有优势的高效模型。

二、第三方评估：指令遵循满分，token效率比肩GPT-5.4 Mini

Elephant在更全面的第三方基准测试上的表现如何？AI Benchy上对这一模型的评估值得参考。

AI Benchy是一个“挤水分”的民间AI测谎仪。如果你是一名开发者，或者你需要用 AI 来做自动化工作流，相比于各家大厂的官方跑分，AI Benchy提供的“指令遵循度”和“真实性价比”数据往往具有更高的参考价值。

从绝对实力来看，Elephant在AI Benchy上并未进入第一梯队，但这可能本来就不是它的目标。在同参数量级的模型中，Elephant真正主打的是高效率与高性价比。

在token消耗维度，同样的逻辑推理或代码审计任务交给Elephant，其token用量要远少于其他厂商的模型，基本和GPT-5.4 Mini处在同一水平线上。这种高token效率，尤其适合大规模的to-C场景或是重复性的日常任务。

这种高效率在Agent场景尤为重要。因为Agent工作流本质上是多轮串行或并行的循环过程，模型需要反复规划、调用工具、观察结果、再规划，每一轮都会消耗token并引入延迟。高token效率意味着模型在有限的上下文窗口和预算内可以执行更多轮操作，能用更少的计算资源跑完更长的Agent链路。

而在响应时间方面，Elephant能做到基本在1秒左右给出回答，提供几乎无延迟感的交互体验，这一定程度上缓解了用户在等待生成结果时的焦躁感，提升用户体验。

这种低时延效果是不少厂商追逐的重点。前段时间，谷歌CEO Sundar Pichai就分享了一个观点：“延迟是优秀产品的核心特征之一，低延迟往往意味着产品的底层技术架构足够优秀，…，这也是我们打造Gemini的核心思路，即在前沿性能与速度之间找到平衡。”

换句话说，低延迟不只是“快”这么简单，它背后往往代表着一套更扎实、更成熟的技术体系和更好的用户体验，最终会转化为真实的商业价值。

最后，在指令遵循方面，Elephant拿到了一致性的满分成绩和100%的通过率，也就是说这个模型比较“听话”。这能够降低任务执行过程中与模型反复交互、理清需求带来的时间和算力浪费。

结语：不拿大炮打蚊子，轻量模型也有价值

其实，在最初测试Elephant模型时，我们并未被它的基础能力惊艳，甚至一度有所怀疑。但随着深入真实任务场景，它的实用价值才真正显现出来。

当前，前沿模型的规模正不断扩大，生成的答案也越来越长。然而在真实的业务流水线中，用万亿参数模型去处理基础文本分类或信息抽取，无异于“大炮打蚊子”：既浪费算力，又导致token无意义消耗和时延飙升。

正因如此，剥离对庞大体量的迷信，根据任务复杂度精准匹配模型尺寸，让每一个token都用在刀刃上，已经成为大模型规模化落地过程中，开发者和企业的共识。

在能反映真实调用量的OpenRouter平台上，曾由超大规模模型垄断的榜单，正被一批讲究“token效率”的精锐小模型打破。这并非是对旗舰模型能力的否定，而是工程理性回归的信号。相较于那些参数量最大、最“智能”的模型，那些能以最低成本、最快响应速度完成任务的模型，正展现出成为Agent操作系统的成长潜力。