昨天,在 xAI 发布会上,马斯克一开场就直言 “这是世界上最聪明的 AI”。
这场备受瞩目的发布会,终于揭开了 Grok 4 的神秘面纱。这款历经打磨的下一代大模型,其表现正如外界诸多猜测那般,突破了人们对现有 AI 能力的想象。
作为 xAI 第四代旗舰模型,Grok 4 以横扫所有榜单的姿态,重新定义了 AI 能力的天花板。
发布会上,马斯克多次强调,Grok 4 在所有学科领域都已达到博士后水准,无一例外。它在 SAT 考试中能稳定拿下满分,且无需提前接触任何题目;GRE 各学科成绩均逼近满分,超越了全球所有研究生的水平。
更令人震撼的是其推理能力,马斯克直言这已越过人类的界限,甚至大胆断言,Grok 4 极有可能在今年内催生科学新发现,若未能实现,他会深感意外。
Grok 4 的强大,源于背后技术的不断突破:从 Grok 2 到 Grok 4,xAI 团队走出了一条截然不同的技术路径,从最初的下一个 token 预测,逐步发展到预训练计算、预训练结合强化学习(RL),直至如今以强化学习计算为核心。
其中,Grok 2 升级至 Grok 3 的预训练阶段,计算量足足翻了10倍;Grok 3 首次引入 RL 微调后,深度推理的潜能开始显现;到了 Grok 4,推理相关的强化学习计算量再次提升10倍,直接促成了推理能力的跨越式增长。
同时,工具调用能力的精进让 Grok 4 如虎添翼,进一步释放了自身的智能潜力,这也是它能在各类高难度基准测试中轻松超越当前最佳水平(SOTA)的关键所在。
Grok 4 的基准测试结果,可以说是发布会的重头戏。
HLE(Humanities Last Exam)作为衡量 AI 深度能力的重要标尺,涵盖数学、化学与逻辑学内容,备受瞩目。
此前曾有消息泄露,称 Grok 4 在该测试中的标准得分 35%,启用推理技术后升至 45%,但受到很多人的质疑。
现场 xAI 研究人员说明,以往的 SOTA 模型在使用工具时,HLE 最高得分仅为 41.0%。如今,Grok 4 一举打破这一纪录:使用工具的情况下,普通版 Grok 4 得 38.6%,Grok 4 Heavy 则飙升至 44.4%;
若让模型在测试中投入更多思考时间,更合理地运用外部工具,分数甚至能攀升至 50.7%。
在其他基准测试中,Grok 4 表现同样卓越,基本是“屠榜”的存在。
包含 GPQA(博士级问题集)、AIME25(美国数学竞赛)、LCB(编程竞赛/在线算法竞赛)、HMMT 25(哈佛-MIT数学竞赛)等中,Grok 4 Heavy 均创下最新 SOTA 成绩,远超 o3、Gemini 2.5 Pro 等同级对手。
要知道,这些测试中的不少题目连人类顶尖选手都倍感棘手,而 Grok 4 能在众多领域同时领先,足以彰显其全面性。
在现场的演示环节,真实展现出了 Grok 4 的实力:
其中一个案例是模拟两个黑洞碰撞并产生引力波的 30 秒 HTML 动画,Grok 4 不仅完整呈现了从黑洞靠近到融合的全过程,旁边还同步展示了推理过程、计算步骤和代码,甚至所引用的每篇论文都附带链接,严谨程度堪比专业研究团队。
另一个演示来自开发者 Danny Limanseta,他仅用 4 小时就借助 Grok 4 打造出一款 FPS 射击游戏,Grok 4 不仅能编写代码、生成游戏逻辑,还能实际运行游戏,甚至能洞察优秀游戏的要素并给出改进建议,成品效果完全达到专业水准。
发布会上,Grok 4 的技术精进体现在多个方面。其语音功能较前代提速 2 倍,端到端延迟更低,还支持 5 种语音,单日用户总停留时长更是增加 10 倍。
新增的角色 Eve 和 Sal 已在 iOS 版 Grok 上线,Sal 能展现多种性格,Eve 则可唱歌和低语,丰富了交互体验。
在专门评估通用推理能力、被视为 AGI 重要试金石的 ARC - AGI 基准测试中,Grok 4 同样创下最新 SOTA,其中 ARC - AGI - 2 的成绩达 15.9%,几乎是此前商业 SOTA 模型的两倍,甚至超过当前 Kaggle 竞赛的最佳结果。
而在专注于评估智能体在真实物理世界执行复杂操作能力的 Vending - Bench 基准测试中,Grok 4 的表现也领先于 Claude 4 Opus、Gemini 2.5 Pro 、o3 等模型,展现出连接虚拟与现实场景的巨大潜力。
最后 xAI 的下一步计划发,还将发布编码模型、多模态智能体和视频生成模型。
通过发布会,看到 Grok 4 的每一项数据和演示似乎都印证了马斯克的话——它是目前全球最聪明的 AI 。从学术考试到复杂推理,从工具调用到实际应用,它在各个维度都实现了对现有水平的突破。
Grok 4 的强大并非单一技术的提升,而是计算能力增强、强化学习训练深化、工具调用优化等多方面共同作用的结果,这些进步叠加在一起,使其能在各类高难度 Benchmark 中不断刷新 SOTA 成绩。
目前,Grok 4 已正式开放,对整个 AI 领域而言,它的出现不仅是一次技术迭代,更像是一个新的里程碑,让人们看到了大模型在深度推理和实际应用中可能达到的高度。
从前不久脑机接口最新成果的公布,马斯克用 Grok 4 强悍实力再次震惊了世界。他在发布会上那句 “今年内可能实现科学新发现” 的预言,也让人对 Grok 4 接下来的表现充满期待。
当下,我们正处于智能发展的大爆炸过程中,这是人类历史上前所未见的。在这场革命中,Grok 4 或许只是一个起点,但它已经让我们看到了未来的无限可能。
热门跟贴