grok 4核心数据:

训练成本:后期强化学习(RL)的训练成本与预训练成本持平。

模型定价:输入内容 3美元/百万Tokens,输出内容 15美元/百万Tokens;支持 256k 上下文窗口,超过 128k 的部分价格翻倍。

通用能力:在“人类终极考验”(通用高难度问题)测试中排名第一,得分 44.4%(第二名为 26.9%)。

专业能力:在 GPQA(研究生水平高难度问题)测试中排名第一,得分 88.9%(第二名为 86.4%)。

数学能力:
AIME 2025(数学竞赛):100%(#1)
哈佛-麻省理工数学竞赛:96.7%(#1)
USAMO25(美国数学奥赛):61.9%(#1)

推理能力:在 ARC-AGI-2(对人简单对AI难)测试中排名第一,得分 15.9%(第二名为 8.6%)。

编程能力:在 LiveCodeBench(1-5月编程能力测试)中排名第一,得分 79.4%(第二名为 75.8%)。

实际水平,有待观察