Claude Opus 4.8 发布 72 小时，第一份独立成绩单来了！编程碾压，全科第四|claude|opus|全科|发布|成绩单|编程|评测

来源：市场资讯

（来源：AI信息Gap）

Anthropic 说，七项测试六项第一。

LiveBench 说，你排第四。

Claude Opus 4.8 上线 72 小时，独立评测机构的成绩单陆续出炉。Artificial Analysis 综合智能指数第一，LiveBench 全科排名第四。同一个模型，两份榜单，不同的故事。

今天这篇，我们只看第三方独立评测数据。

Claude Opus 4.8 在编程领域的统治力，没有争议。

SWE-Bench Pro 69.2%，GPT-5.5 58.6%，Gemini 3.1 Pro 54.2%。超过 10 个百分点的差距，在这种难度的基准里，基本等于代差。

不过 LiveBench 的编程子项，画面稍有不同。Coding Average 上 GPT-5.5 82.47，Claude Opus 4.8 79.27，OpenAI 反而领先。Agentic Coding 子项里 Claude 拿了 60 分，赢了 GPT-5.5 的 56.67，但落后于 GPT-5.4（70）和 Gemini 3.1 Pro（65）。

Artificial Analysis 的 GDPval-AA 真实工作评测给出了更极端的数据。1890 Elo 分，领先 GPT-5.5 121 分。换算成胜率，大约 67% 的概率赢 GPT-5.5。而且完成同等任务，Opus 4.8 比 4.7 少用了 35% 的输出 token，对话轮次也减少了 15%。

干活更快，还更省。

但全科排名，故事就不一样了。

LiveBench 是一套专门针对「数据污染」设计的评测。题目定期更新，答案可验证，不需要 LLM 当裁判。入选了 ICLR 2025 Spotlight Paper，最近一次题库更新是 2026 年 1 月 8 日。

在 LiveBench 全科排名里，Claude Opus 4.8 Thinking xHigh Effort 综合得分 77.22。

排在它前面的有三个模型。

GPT-5.5 Thinking xHigh Effort，80.71。第一。

GPT-5.4 Thinking xHigh Effort，80.28。第二。

Gemini 3.1 Pro Preview High，79.93。第三。

Claude Opus 4.8，第四。

和第一名 GPT-5.5 差了 3.49 分，和第三名 Gemini 3.1 Pro 差了 2.71 分。

数学（Mathematics Average），GPT-5.5 96.32，Claude Opus 4.8 84.32。差了 12 分。GPT-5.4 和 Gemini 3.1 Pro 分别是 94.15 和 91.04，都在 Claude 前面。

指令遵循（IF Average），Gemini 3.1 Pro 79.10，GPT-5.5 73.04，Claude Opus 4.8 67.45。Claude 在这项上的差距更大。

推理（Reasoning Average）是 Claude 的强项。Claude Opus 4.8 89.71，仅次于 GPT-5.4 的 88.12，超过了 GPT-5.5 的 87.71。

编程（Coding Average）GPT-5.5 82.47，Claude Opus 4.8 79.27。LiveBench 的编程测试里 GPT-5.5 更强。这和 SWE-Bench Pro 的结果不完全一致。

Artificial Analysis 则给出了一个不同的全科排名。

在他们的综合智能指数（Intelligence Index）里，Claude Opus 4.8 拿下 61.4 分，超过 GPT-5.5 的 60.2 分，登顶第一。比上一代 Opus 4.7 提升了 4.1 分。

这个指数覆盖 GDPval-AA、Humanity's Last Exam、Terminal-Bench、SciCode 等多个维度。Claude 在 GDPval-AA（真实工作任务）和 HLE（跨学科极难题）上的优势太大，拉高了总分。

Humanity's Last Exam，Claude Opus 4.8 领先一个百分点。这个基准包括全球专家出的 2500 道题，三家跑出来差距只有 1-2 个百分点，可以算是贴身肉搏。

科学推理也有进步。在 CritPt（物理学前沿评测）上超过了 Gemini 3.1 Pro，但仍然落后于 GPT-5.4 Pro（30.0%）和 GPT-5.5 Pro（30.6%）。

幻觉率维持在 35.9%，在「诚实、不瞎编」这件事上 Claude Opus 4.8 做得确实不错。

LMArena 目前还没有 Opus 4.8 的排名数据。毕竟模型上线才 72 小时，投票样本还不够。上一代 Opus 4.7 Thinking 在 Coding Arena 排第一，Text Arena 排第二（低于上上代的 Opus 4.6 Thinking）。Opus 4.8 的具体数据大概率还要等一到两周。