智东西作者 陈骏达编辑 漠影
打开网易新闻 查看精彩图片
智东西作者 陈骏达编辑 漠影

智东西4月16日报道,这两天,一款名为Elephant(大象)的匿名模型,在OpenRouter上悄然亮相。上线不到48小时,这一模型已经冲到OpenRouter热榜(Trending)第一,目前调用量超过1850亿个token。

打开网易新闻 查看精彩图片

调用量日榜上,Elephant排名全球第八。

打开网易新闻 查看精彩图片

根据OpenRouter对其介绍,Elephant是一个100B参数量的纯文本模型,主打高token效率,支持256k上下文和32k输出,适合的任务包括代码补全、调试、快速文档处理和轻量级Agent交互等等。

打开网易新闻 查看精彩图片

目前,Elephant在网友反复的“拷打”下,暂时还没供出自己是哪家的模型。有网友猜测这可能是国产最新模型的Flash版本,或海外全新实验室捣鼓出来的新品。

有不少开发者已经晒出他们对Elephant的使用体验,Hermes Agent的作者拿它跑了个基准测试,发现这一模型在大部分工具调用任务中表现还行,不过偶尔会出现幻觉和对环境的错误理解,这对一个100B的模型来说其实也正常。

打开网易新闻 查看精彩图片

输出速度是这一模型的一大亮点,其在OpenRouter上的平均速度就达到了67 token/s,首token延迟为0.89秒,在即时交互场景展现出了潜力。有网友感叹,虽然质量还不确定,但这是他用过最快的模型,让他想起了Grok Fast 1的体验。

打开网易新闻 查看精彩图片

不过,光看别人的评价终究隔了一层。接下来,我们将亲自上手,从编程、文档处理到Agent交互,逐个任务实测一遍。

一、编程、长文本、Agent实测:前端编程响应快,支持多轮工具调用

在OpenRouter上,Elephant的编程能力排名在同尺寸模型中靠前,于是我们先尝试了几个编程的小项目,看看它能否快速完成。

首先是一个网站,这主要考察模型的前端能力。拿到开发任务后,Elephant对网站的几个核心组件进行了规划,并主动为这一网站加入了明暗模式切换、移动端响应式设计等我们并未要求的功能,最终耗时1分钟左右完成开发。

打开网易新闻 查看精彩图片

当我们要求它将网站的主色调改成绿色后,Elephant用不到10秒钟就完成了修改。相信使用过其他模型的用户都知道,大部分模型在处理修改任务时往往需要通读上下文,逐一修改,一些细枝末节的修改可能要花上几分钟。

而Elephant基本做到了指哪儿打哪儿,这对于一些快速、高频的网站调试需求是很实用的。

打开网易新闻 查看精彩图片

我们也试了试Elephant有没有打造项目级任务的能力,让它根据自己的内部知识,复刻一个支付软件。我们是在Kilo Code插件中体验的模型编程,由Elephant驱动的多个子Agent并行工作,进一步放大了它的输出速度优势,但是其最终打造的结果仅能算是一个原型。这种表现可能与其较小的参数量有关。

打开网易新闻 查看精彩图片

再来看看Elephant在长文本场景的表现。我们向模型发送了一份几百页的招股书,并给出十分详细的IPO解读要求,让Elephant输出对这家公司基本面的总结。这种复杂的提示词,对模型的指令遵循能力是一种挑战。

打开网易新闻 查看精彩图片

在执行过程中,Elephant可以快速调用多个文件读取工具,以极快的速度输出解读。它用12万token完成了对这份复杂文件的梳理,耗时却仅有几十秒。

细读它的解读可以发现,模型完全按照我们的要求梳理出了核心信息,没有遗漏,数据、结论都基本准确。

打开网易新闻 查看精彩图片

我们还尝试了让Elephant完成Agent类型的任务:将其接入一个OpenClaw类的产品,并要求它规划一次去泰国的7日游,搜索景点注意事项、定位等关键信息,最终打造一个攻略网站。

Elephant可以充分利用Agent框架为其提供的工具,调用搜索等工具,获取和泰国旅行相关的信息。

打开网易新闻 查看精彩图片

最终,Elephant在这种开放式Agent任务上做得不错,旅程规划合理,覆盖了重要的景点。它还在高德上为我们查找了对应地点的定位,点击后即可跳转到相应界面。

打开网易新闻 查看精彩图片

几个任务跑下来,我们发现Elephant在执行任务中展现了优秀的速度与指令响应能力,前端原型开发和长文件处理效率不错,但在打造完整项目级应用时仍然有些力不从心。其Agent规划与工具调用能力可圈可点,能自主完成旅行攻略到网站落地。总体而言,这是一款在轻量级、高频任务中具有优势的高效模型。

二、第三方评估:指令遵循满分,token效率比肩GPT-5.4 Mini

Elephant在更全面的第三方基准测试上的表现如何?AI Benchy上对这一模型的评估值得参考。

AI Benchy是一个“挤水分”的民间AI测谎仪。如果你是一名开发者,或者你需要用 AI 来做自动化工作流,相比于各家大厂的官方跑分,AI Benchy提供的“指令遵循度”和“真实性价比”数据往往具有更高的参考价值。

从绝对实力来看,Elephant在AI Benchy上并未进入第一梯队,但这可能本来就不是它的目标。在同参数量级的模型中,Elephant真正主打的是高效率与高性价比。

在token消耗维度,同样的逻辑推理或代码审计任务交给Elephant,其token用量要远少于其他厂商的模型,基本和GPT-5.4 Mini处在同一水平线上。这种高token效率,尤其适合大规模的to-C场景或是重复性的日常任务。

打开网易新闻 查看精彩图片

这种高效率在Agent场景尤为重要。因为Agent工作流本质上是多轮串行或并行的循环过程,模型需要反复规划、调用工具、观察结果、再规划,每一轮都会消耗token并引入延迟。高token效率意味着模型在有限的上下文窗口和预算内可以执行更多轮操作,能用更少的计算资源跑完更长的Agent链路。

而在响应时间方面,Elephant能做到基本在1秒左右给出回答,提供几乎无延迟感的交互体验,这一定程度上缓解了用户在等待生成结果时的焦躁感,提升用户体验。

打开网易新闻 查看精彩图片

这种低时延效果是不少厂商追逐的重点。前段时间,谷歌CEO Sundar Pichai就分享了一个观点:“延迟是优秀产品的核心特征之一,低延迟往往意味着产品的底层技术架构足够优秀,…,这也是我们打造Gemini的核心思路,即在前沿性能与速度之间找到平衡。

换句话说,低延迟不只是“快”这么简单,它背后往往代表着一套更扎实、更成熟的技术体系和更好的用户体验,最终会转化为真实的商业价值。

最后,在指令遵循方面,Elephant拿到了一致性的满分成绩和100%的通过率,也就是说这个模型比较“听话”。这能够降低任务执行过程中与模型反复交互、理清需求带来的时间和算力浪费。

打开网易新闻 查看精彩图片

结语:不拿大炮打蚊子,轻量模型也有价值

其实,在最初测试Elephant模型时,我们并未被它的基础能力惊艳,甚至一度有所怀疑。但随着深入真实任务场景,它的实用价值才真正显现出来。

当前,前沿模型的规模正不断扩大,生成的答案也越来越长。然而在真实的业务流水线中,用万亿参数模型去处理基础文本分类或信息抽取,无异于“大炮打蚊子”:既浪费算力,又导致token无意义消耗和时延飙升。

正因如此,剥离对庞大体量的迷信,根据任务复杂度精准匹配模型尺寸,让每一个token都用在刀刃上,已经成为大模型规模化落地过程中,开发者和企业的共识。

在能反映真实调用量的OpenRouter平台上,曾由超大规模模型垄断的榜单,正被一批讲究“token效率”的精锐小模型打破。这并非是对旗舰模型能力的否定,而是工程理性回归的信号。相较于那些参数量最大、最“智能”的模型,那些能以最低成本、最快响应速度完成任务的模型,正展现出成为Agent操作系统的成长潜力。