7月11日13点,马斯克旗下xAI发布了最新版的大模型工具Grok4。
以下为发布会要点:
发布会开始前的xAI团队合影,感觉70%都是亚洲面孔。
比原定时间推迟了将近一小时后,马斯克姗姗来迟,感觉老马这些天,发际线又高了。
在强调了接下来发布的Grok4将是人类“最聪明”的AI工具后,老马又跑题谈了一段卡尔达舍夫等级(注: 卡尔达舍夫文明等级Kardashev Scale是由苏联天文学家尼古拉·卡尔达舍夫于1964年提出的一种衡量文明技术水平的理论模型。该模型基于一个文明对能源的利用程度来划分其发展水平 )
紧接着,转入正题,团队登场,开始介绍:
他们说,他们把人类的难题题库做完了,已经几户找不到有意思的同时水平合适的问题来训练 Grok 4。现在,Grok 4 是博士后解题水平,在每一个学科上。
Grok 4 在各项学科竞赛上的表现。AIME25 数学竞赛 满分,难度更大的USAMO上也能取得61%。
这里提供一个例子,感受一下[1]:
2025 AIME 1 问题 15
令 N 表示满足以下条件的正整数有序三元组 (a, b, c) 的数量:a, b, c <= 3^6,且 a^3 + b^3 + c^3 是 3^7 的倍数。求 N 除以 1000 的余数。
Grok 4 不但有单体版(super grok) 还有组队版 (super grok heavy) ,组队版可以使用多个grok 4, 然后组成学习小组,互相监督和衡量每个 grok 的 解决方案,最后出结果。
组队版SGH (super grok heavy) 的聪明程度和能力明显更高,比如,它的HLE 的得分超过 50%。HLE humanity last exams 是人类智力的终极的测试,包括各个学科。人类和以前的模型,都只能解决个位数百分比(single digit percent)问题。组队版SGH (super grok heavy)Grok 成绩 50%+。现在其他模型的最高分是 20-25%
Grok 4 是基于他们内部核心模型6(有点像发动机的原型机版本),他们现在在内部训练核心模型7,估计还要几周时间。
今年年底,grok 可以开始使用工业级工具,像有限元分析软件,像 CFD(流体模拟)软件,物理模型等重量级工具。
grok 4 和其他模型比较,在vending bench (货柜机器模拟)中遥遥领先。
grok 4 生成第一视角游戏(FPS),只需要两个小时。
接下来的路线图。3-4周后,开始使用10万块 GB200 训练视频生成模型……明年 grok 出电影。
最后,来一个彩蛋。
用了15秒,轻松搞掂。
然后是19 题第(2)小题,压轴证明题:
用了40S,时间稍微长点,搞定:
[1]:https://artofproblemsolving.com/wiki/index.php/2025_AIME_I_Problems?srsltid=AfmBOopdf3VS0Zeq-tUkWsLZrHHZJspBhcKcBPz8kSlFlOrJwdb4qcSR
[2]:https://gaokao.eol.cn/e_html/gk/gkst/
热门跟贴