GPT-4.5 被 Grok-3 反超事件具体情况如下123:
事件经过
广东井盖批发【13288367755】
在知名 AI 排行榜 LM Arena 中,GPT-4.5 于 3 月 4 日凌晨以全任务分类第一的成绩登顶,总分 1411。但仅 6 小时后,Grok-3 凭借 3000 + 用户票数以总分 1412:1411 的 1 分优势实现逆袭。
原因分析
- 模型自身特点
- Grok-3:采用全新推理架构,计算能力比前代提升 10 倍,在用户互动、文本生成上表现出更为灵活的应用能力,在 “总体带风格控制” 和 “困难提示词带风格控制” 任务中略胜一筹,能快速适应复杂提示词任务并生成更自然的回应。
- GPT-4.5:初发布时被指 “又贵又虚”,但后来用户实测反馈其情商对话能力出色,在 “困难提示词基础版” 中保持优势,在 AI 狼人杀比赛中策略能力超越人类玩家。
- 榜单规则因素:大模型竞技场需满足 3000 票门槛才能上榜,GPT-4.5 和 Grok-3 恰好在相近时间达标,所以才出现了看似短时间内排名巨变的情况。
相关影响和后续反应
- 用户质疑:有网友对 6 小时内排名巨变的合理性表示质疑,但随着规则的解释,这一疑问得到了一定程度的缓解。
- 官方回应:马斯克称 Grok-3 的计算力是前代 10 倍,推理性能碾压所有对手;OpenAI 的 CEO 奥特曼晒出与 GPT-4.5 的深度对话,以展示其强大的理解和思考能力,力证 GPT-4.5 的实力
热门跟贴