来源:市场资讯

(来源:AI信息Gap)

Anthropic 说,七项测试六项第一。

LiveBench 说,你排第四。

Claude Opus 4.8 上线 72 小时,独立评测机构的成绩单陆续出炉。Artificial Analysis 综合智能指数第一,LiveBench 全科排名第四。同一个模型,两份榜单,不同的故事。

打开网易新闻 查看精彩图片

今天这篇,我们只看第三方独立评测数据。

Claude Opus 4.8 在编程领域的统治力,没有争议。

SWE-Bench Pro 69.2%,GPT-5.5 58.6%,Gemini 3.1 Pro 54.2%。超过 10 个百分点的差距,在这种难度的基准里,基本等于代差。

不过 LiveBench 的编程子项,画面稍有不同。Coding Average 上 GPT-5.5 82.47,Claude Opus 4.8 79.27,OpenAI 反而领先。Agentic Coding 子项里 Claude 拿了 60 分,赢了 GPT-5.5 的 56.67,但落后于 GPT-5.4(70)和 Gemini 3.1 Pro(65)。

打开网易新闻 查看精彩图片

Artificial Analysis 的 GDPval-AA 真实工作评测给出了更极端的数据。1890 Elo 分,领先 GPT-5.5 121 分。换算成胜率,大约 67% 的概率赢 GPT-5.5。而且完成同等任务,Opus 4.8 比 4.7 少用了 35% 的输出 token,对话轮次也减少了 15%。

打开网易新闻 查看精彩图片

干活更快,还更省。

全科排名,故事就不一样了。

LiveBench 是一套专门针对「数据污染」设计的评测。题目定期更新,答案可验证,不需要 LLM 当裁判。入选了 ICLR 2025 Spotlight Paper,最近一次题库更新是 2026 年 1 月 8 日。

在 LiveBench 全科排名里,Claude Opus 4.8 Thinking xHigh Effort 综合得分 77.22。

排在它前面的有三个模型。

GPT-5.5 Thinking xHigh Effort,80.71。第一。

GPT-5.4 Thinking xHigh Effort,80.28。第二。

Gemini 3.1 Pro Preview High,79.93。第三。

Claude Opus 4.8,第四。

和第一名 GPT-5.5 差了 3.49 分,和第三名 Gemini 3.1 Pro 差了 2.71 分。

数学(Mathematics Average),GPT-5.5 96.32,Claude Opus 4.8 84.32。差了 12 分。GPT-5.4 和 Gemini 3.1 Pro 分别是 94.15 和 91.04,都在 Claude 前面。

指令遵循(IF Average),Gemini 3.1 Pro 79.10,GPT-5.5 73.04,Claude Opus 4.8 67.45。Claude 在这项上的差距更大。

推理(Reasoning Average)是 Claude 的强项。Claude Opus 4.8 89.71,仅次于 GPT-5.4 的 88.12,超过了 GPT-5.5 的 87.71。

编程(Coding Average)GPT-5.5 82.47,Claude Opus 4.8 79.27。LiveBench 的编程测试里 GPT-5.5 更强。这和 SWE-Bench Pro 的结果不完全一致。

Artificial Analysis 则给出了一个不同的全科排名。

在他们的综合智能指数(Intelligence Index)里,Claude Opus 4.8 拿下 61.4 分,超过 GPT-5.5 的 60.2 分,登顶第一。比上一代 Opus 4.7 提升了 4.1 分。

打开网易新闻 查看精彩图片

这个指数覆盖 GDPval-AA、Humanity's Last Exam、Terminal-Bench、SciCode 等多个维度。Claude 在 GDPval-AA(真实工作任务)和 HLE(跨学科极难题)上的优势太大,拉高了总分。

Humanity's Last Exam,Claude Opus 4.8 领先一个百分点。这个基准包括全球专家出的 2500 道题,三家跑出来差距只有 1-2 个百分点,可以算是贴身肉搏。

科学推理也有进步。在 CritPt(物理学前沿评测)上超过了 Gemini 3.1 Pro,但仍然落后于 GPT-5.4 Pro(30.0%)和 GPT-5.5 Pro(30.6%)。

幻觉率维持在 35.9%,在「诚实、不瞎编」这件事上 Claude Opus 4.8 做得确实不错。

LMArena 目前还没有 Opus 4.8 的排名数据。毕竟模型上线才 72 小时,投票样本还不够。上一代 Opus 4.7 Thinking 在 Coding Arena 排第一,Text Arena 排第二(低于上上代的 Opus 4.6 Thinking)。Opus 4.8 的具体数据大概率还要等一到两周。

打开网易新闻 查看精彩图片

Terminal-Bench 2.1,GPT-5.5 78.2%,Claude Opus 4.8 74.6%。命令行操作这个场景,OpenAI 还是第一。但比 Opus 4.7 的 66.1% 进步了 8.5 个百分点,差距在缩小。

GPQA Diamond(研究生级别科学推理),御三家都在 93-94% 区间。这个榜单快饱和了,拉不开差距。

榜单看完了,来说结论。

编程和 Agent 方向,Claude Opus 4.8 理论上是当前最强,但 GPT-5.5 和它相比,差距不算大。

如果看全科综合能力,LiveBench 的数据更为客观。GPT-5.5 各方面更均衡,Gemini 3.1 Pro 在语言和指令遵循上更强。

Claude Opus 4.8 还是那个偏科生。

Opus 4.8 上线当天,就有用户发现通过 API 调用时,模型会自称「通义千问」或「DeepSeek」。

三个月前,Anthropic 公开指控 DeepSeek、月之暗面和 MiniMax 对 Claude 发起「工业规模的蒸馏攻击」,声称有 2.4 万个虚假账户进行了超过 1600 万次交互。

三个月后,自家新模型在中文场景下「自曝」了。

Anthropic 官方至今没有回应。

不管是什么原因,这件事和成绩本身无关。但它给「反蒸馏」叙事增添了一丝尴尬。你指控别人偷你的数据,结果你的新模型开口第一句就是别人的名字。

a16z 联合创始人 Marc Andreessen 在社交媒体上吐槽,「如果蒸馏算犯罪,那人类历史上每一次师徒传承、每一场学术研讨会,是不是都该被起诉?」

42 天出一代新模型,编程能力甩开第二名 10 个百分点,真实工作评测登顶。

代价是全科排名第四,语言、数学和指令遵循的短板还没补上来。

我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。