全球AI Lab前十！Agnes新模型发布，以全模态+超低价定义模型性价比|agent|agnes|eval|image|lab|性价比|自然语言

作者｜ PRO
邮箱｜ pro@pingwest.com

如果说过去一年，全球 AI 行业的关注点还集中在OpenAI、Google、Anthropic、Meta 与 DeepSeek等头部公司，那么Agnes的连续上榜，则意味着全球 AI 竞争格局正在出现新的变量。

近日，Agnes AI旗下模型Agnes-2.0-Flash与Agnes-Image-2.0-Flash同时进入国际权威榜单前列，从PinchBench全球前十，到如今ClawEval与Artificial Analysis双榜持续上榜，Agnes已连续获得多个国际评测体系认可，并正式进入“全球AI Lab排名第9”的位置。

目前Agnes的模型能力与Harness系统已经开始服务数千万规模用户，已经被广泛应用于AI内容生成、自动化工作流、网页操作、多模态创作以及开发者工具等场景。

AI 行业，正在出现新的全球玩家

本次Agnes-2.0-Flash上榜的Claw-Eval（https://claw-eval.github.io），并不是传统意义上的“刷题榜”。

相比过去主要测试数学、知识问答或者代码能力的Benchmark，Claw-Eval更强调模型在真实Agent场景中的综合执行能力，被不少开发者视为当前“更接近AI Agent实战能力”的重要评测体系之一。

随着AI行业从Chatbot阶段进入Agent阶段，行业对于模型的要求，已经不再只是“会回答问题”，而是“能否真正完成任务”，这也是为什么越来越多开发者开始关注Claw-Eval这类真实任务导向型榜单。

而此次Agnes-2.0-Flash在部分任务中超越Gemini Flash与 MiniMax M2.7等知名模型。这意味着Agnes已经开始具备进入全球模型第一梯队竞争的能力。

除了文本模型外，Agnes在图像编辑方向同样取得突破。

本次Agnes-Image-2.0-Flash进入的 Artificial Analysis是当前国际AI行业关注度较高的第三方模型评测体系之一，也表明Agnes在图像编辑方向已经达到国际主流水平。

尤其在海外AI圈，Artificial Analysis已经逐渐成为衡量模型综合能力的重要观察窗口。

Artificial Analysis的Image Editing Leaderboard 采用真实用户盲评机制，重点评估模型在真实图像编辑场景中的表现。评测过程中，用户并不知道图片对应的模型来源，而是直接根据生成质量进行主观选择与打分，因此其结果被很多开发者与行业机构认为更接近真实用户体验。

更值得注意的是，Agnes本次上榜的并不是超大参数模型，而是轻量级高效率模型。在更低推理成本、更低GPU消耗情况下依然进入全球前列，这也是近期全球开发者社区开始重新关注Agnes的重要原因。

比性能更激进的，是Agnes的价格策略

相比榜单成绩，更让行业关注的，其实是Agnes的定价。

目前，Agnes-2.0-Flash的官方API定价为每百万输入tokens 0.03美元，每百万输出tokens 0.15美元，成本已经低于大多数主流模型。据公开信息显示，其价格已经低于国际与国内头部模型产品，仅为 DeepSeek V4 Flash的约一半。