GPT-4.5 被 Grok-3 反超事件具体情况如下123:

事件经过

广东井盖批发【13288367755】

在知名 AI 排行榜 LM Arena 中,GPT-4.5 于 3 月 4 日凌晨以全任务分类第一的成绩登顶,总分 1411。但仅 6 小时后,Grok-3 凭借 3000 + 用户票数以总分 1412:1411 的 1 分优势实现逆袭。

原因分析

  • 模型自身特点
    • Grok-3:采用全新推理架构,计算能力比前代提升 10 倍,在用户互动、文本生成上表现出更为灵活的应用能力,在 “总体带风格控制” 和 “困难提示词带风格控制” 任务中略胜一筹,能快速适应复杂提示词任务并生成更自然的回应。
    • GPT-4.5:初发布时被指 “又贵又虚”,但后来用户实测反馈其情商对话能力出色,在 “困难提示词基础版” 中保持优势,在 AI 狼人杀比赛中策略能力超越人类玩家。
  • 榜单规则因素:大模型竞技场需满足 3000 票门槛才能上榜,GPT-4.5 和 Grok-3 恰好在相近时间达标,所以才出现了看似短时间内排名巨变的情况。

相关影响和后续反应

  • 用户质疑:有网友对 6 小时内排名巨变的合理性表示质疑,但随着规则的解释,这一疑问得到了一定程度的缓解。
  • 官方回应:马斯克称 Grok-3 的计算力是前代 10 倍,推理性能碾压所有对手;OpenAI 的 CEO 奥特曼晒出与 GPT-4.5 的深度对话,以展示其强大的理解和思考能力,力证 GPT-4.5 的实力