马斯克发布 Grok 4，横扫全球榜单，碾压人类博士！|grok|埃隆_马斯克|推理|数学

昨天，在 xAI 发布会上，马斯克一开场就直言 “这是世界上最聪明的 AI”。

这场备受瞩目的发布会，终于揭开了 Grok 4 的神秘面纱。这款历经打磨的下一代大模型，其表现正如外界诸多猜测那般，突破了人们对现有 AI 能力的想象。

作为 xAI 第四代旗舰模型，Grok 4 以横扫所有榜单的姿态，重新定义了 AI 能力的天花板。

发布会上，马斯克多次强调，Grok 4 在所有学科领域都已达到博士后水准，无一例外。它在 SAT 考试中能稳定拿下满分，且无需提前接触任何题目；GRE 各学科成绩均逼近满分，超越了全球所有研究生的水平。

更令人震撼的是其推理能力，马斯克直言这已越过人类的界限，甚至大胆断言，Grok 4 极有可能在今年内催生科学新发现，若未能实现，他会深感意外。

Grok 4 的强大，源于背后技术的不断突破：从 Grok 2 到 Grok 4，xAI 团队走出了一条截然不同的技术路径，从最初的下一个 token 预测，逐步发展到预训练计算、预训练结合强化学习（RL），直至如今以强化学习计算为核心。

其中，Grok 2 升级至 Grok 3 的预训练阶段，计算量足足翻了10倍；Grok 3 首次引入 RL 微调后，深度推理的潜能开始显现；到了 Grok 4，推理相关的强化学习计算量再次提升10倍，直接促成了推理能力的跨越式增长。

同时，工具调用能力的精进让 Grok 4 如虎添翼，进一步释放了自身的智能潜力，这也是它能在各类高难度基准测试中轻松超越当前最佳水平（SOTA）的关键所在。

Grok 4 的基准测试结果，可以说是发布会的重头戏。

HLE（Humanities Last Exam）作为衡量 AI 深度能力的重要标尺，涵盖数学、化学与逻辑学内容，备受瞩目。

此前曾有消息泄露，称 Grok 4 在该测试中的标准得分 35%，启用推理技术后升至 45%，但受到很多人的质疑。

现场 xAI 研究人员说明，以往的 SOTA 模型在使用工具时，HLE 最高得分仅为 41.0%。如今，Grok 4 一举打破这一纪录：使用工具的情况下，普通版 Grok 4 得 38.6%，Grok 4 Heavy 则飙升至 44.4%；

若让模型在测试中投入更多思考时间，更合理地运用外部工具，分数甚至能攀升至 50.7%。

在其他基准测试中，Grok 4 表现同样卓越，基本是“屠榜”的存在。

包含 GPQA（博士级问题集）、AIME25（美国数学竞赛）、LCB（编程竞赛/在线算法竞赛）、HMMT 25（哈佛-MIT数学竞赛）等中，Grok 4 Heavy 均创下最新 SOTA 成绩，远超 o3、Gemini 2.5 Pro 等同级对手。

要知道，这些测试中的不少题目连人类顶尖选手都倍感棘手，而 Grok 4 能在众多领域同时领先，足以彰显其全面性。

在现场的演示环节，真实展现出了 Grok 4 的实力：

其中一个案例是模拟两个黑洞碰撞并产生引力波的 30 秒 HTML 动画，Grok 4 不仅完整呈现了从黑洞靠近到融合的全过程，旁边还同步展示了推理过程、计算步骤和代码，甚至所引用的每篇论文都附带链接，严谨程度堪比专业研究团队。

另一个演示来自开发者 Danny Limanseta，他仅用 4 小时就借助 Grok 4 打造出一款 FPS 射击游戏，Grok 4 不仅能编写代码、生成游戏逻辑，还能实际运行游戏，甚至能洞察优秀游戏的要素并给出改进建议，成品效果完全达到专业水准。

发布会上，Grok 4 的技术精进体现在多个方面。其语音功能较前代提速 2 倍，端到端延迟更低，还支持 5 种语音，单日用户总停留时长更是增加 10 倍。

新增的角色 Eve 和 Sal 已在 iOS 版 Grok 上线，Sal 能展现多种性格，Eve 则可唱歌和低语，丰富了交互体验。

在专门评估通用推理能力、被视为 AGI 重要试金石的 ARC - AGI 基准测试中，Grok 4 同样创下最新 SOTA，其中 ARC - AGI - 2 的成绩达 15.9%，几乎是此前商业 SOTA 模型的两倍，甚至超过当前 Kaggle 竞赛的最佳结果。

而在专注于评估智能体在真实物理世界执行复杂操作能力的 Vending - Bench 基准测试中，Grok 4 的表现也领先于 Claude 4 Opus、Gemini 2.5 Pro 、o3 等模型，展现出连接虚拟与现实场景的巨大潜力。

最后 xAI 的下一步计划发，还将发布编码模型、多模态智能体和视频生成模型。

通过发布会，看到 Grok 4 的每一项数据和演示似乎都印证了马斯克的话——它是目前全球最聪明的 AI 。从学术考试到复杂推理，从工具调用到实际应用，它在各个维度都实现了对现有水平的突破。

Grok 4 的强大并非单一技术的提升，而是计算能力增强、强化学习训练深化、工具调用优化等多方面共同作用的结果，这些进步叠加在一起，使其能在各类高难度 Benchmark 中不断刷新 SOTA 成绩。

目前，Grok 4 已正式开放，对整个 AI 领域而言，它的出现不仅是一次技术迭代，更像是一个新的里程碑，让人们看到了大模型在深度推理和实际应用中可能达到的高度。

从前不久脑机接口最新成果的公布，马斯克用 Grok 4 强悍实力再次震惊了世界。他在发布会上那句 “今年内可能实现科学新发现” 的预言，也让人对 Grok 4 接下来的表现充满期待。

当下，我们正处于智能发展的大爆炸过程中，这是人类历史上前所未见的。在这场革命中，Grok 4 或许只是一个起点，但它已经让我们看到了未来的无限可能。

马斯克发布 Grok 4，横扫全球榜单，碾压人类博士！

热搜

热门跟贴

热搜

热门跟贴

相关推荐

马斯克坦言智能密度被低估100倍

马斯克暴走官宣：Grok 5就是AGI！五月连轰两代万亿怪兽，OpenAI慌了

黄仁勋GTC直言：现在是OpenClaw的时代，SaaS都将变AgaaS

人活着的唯一理由是善良

马斯克来抖音卖老干妈了?

一家叫世运电路的公司藏不住了，以前只知它给特斯拉做了12年电路板，结果反手一张牌甩在马斯克AI项目桌上，官宣Dojo合作并紧盯TeraFab

2026，国产AI芯片，跨越天堑：从“推理”走向“训练”

马斯克用Grok替代X员工，裁员90%

马斯克拿1万亿工资，为什么大家都觉得超值

4320线！6D全彩！禾赛这颗激光雷达，马斯克看了也得懵

新一代框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek

心流生产力：乔布斯与马斯克“十倍效能”法

马斯克的小目标：星舰10000发/年，太空AI算力1太瓦/年

谷歌联手Marvel研发下一代TPU，专为AI推理打造

黄仁勋的“五层蛋糕”：AI的底层战争，是能源战争（附全文）

安心养虾！从OpenClaw 看云上AI安全落地路径

亦庄机器人马拉松现场名场面合集

陶哲轩：AI不能全用，深度思考不行

MIT研究生用NotebookLM两天学完一学期课程