Grok4来袭！把人类的难题库都做完了。实测1分钟搞掂今年高考压轴题……

问问马斯克AskMusk

2025-07-10 14:10 ·上海 ·优质科技领域创作者

7月11日13点，马斯克旗下xAI发布了最新版的大模型工具Grok4。

以下为发布会要点：

发布会开始前的xAI团队合影，感觉70%都是亚洲面孔。

比原定时间推迟了将近一小时后，马斯克姗姗来迟，感觉老马这些天，发际线又高了。

在强调了接下来发布的Grok4将是人类“最聪明”的AI工具后，老马又跑题谈了一段卡尔达舍夫等级（注：卡尔达舍夫文明等级Kardashev Scale是由苏联天文学家尼古拉·卡尔达舍夫于1964年提出的一种衡量文明技术水平的理论模型。该模型基于一个文明对能源的利用程度来划分其发展水平）

紧接着，转入正题，团队登场，开始介绍：

他们说，他们把人类的难题题库做完了，已经几户找不到有意思的同时水平合适的问题来训练 Grok 4。现在，Grok 4 是博士后解题水平，在每一个学科上。

Grok 4 在各项学科竞赛上的表现。AIME25 数学竞赛满分，难度更大的USAMO上也能取得61%。

这里提供一个例子，感受一下[1]：

2025 AIME 1 问题 15

令 N 表示满足以下条件的正整数有序三元组 (a, b, c) 的数量：a, b, c <= 3^6，且 a^3 + b^3 + c^3 是 3^7 的倍数。求 N 除以 1000 的余数。

Grok 4 不但有单体版（super grok) 还有组队版 (super grok heavy) ，组队版可以使用多个grok 4，然后组成学习小组，互相监督和衡量每个 grok 的解决方案，最后出结果。

组队版SGH (super grok heavy) 的聪明程度和能力明显更高，比如，它的HLE 的得分超过 50%。HLE humanity last exams 是人类智力的终极的测试，包括各个学科。人类和以前的模型，都只能解决个位数百分比（single digit percent）问题。组队版SGH (super grok heavy)Grok 成绩 50%+。现在其他模型的最高分是 20-25%

Grok 4 是基于他们内部核心模型6（有点像发动机的原型机版本），他们现在在内部训练核心模型7，估计还要几周时间。

今年年底，grok 可以开始使用工业级工具，像有限元分析软件，像 CFD（流体模拟）软件，物理模型等重量级工具。

grok 4 和其他模型比较，在vending bench (货柜机器模拟）中遥遥领先。

grok 4 生成第一视角游戏（FPS），只需要两个小时。

接下来的路线图。3-4周后，开始使用10万块 GB200 训练视频生成模型……明年 grok 出电影。

最后，来一个彩蛋。

我们请Grok解答今年高考数学全国一卷最后一题[2]：

用了15秒，轻松搞掂。

然后是19 题第（2）小题，压轴证明题：

用了40S，时间稍微长点，搞定：

[1]:https://artofproblemsolving.com/wiki/index.php/2025_AIME_I_Problems?srsltid=AfmBOopdf3VS0Zeq-tUkWsLZrHHZJspBhcKcBPz8kSlFlOrJwdb4qcSR

[2]:https://gaokao.eol.cn/e_html/gk/gkst/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴