马斯克：Grok今日归来！

机器之心Pro

2026-02-26 14:31 ·北京 ·《机器之心》官方网易号

编辑｜Panda、杨文

马斯克又一次跳过了所有正式流程。没有官方博客，没有技术文档，甚至连宣传推文都把自家产品的名字给拼错了。但就在这种极其「马斯克」的氛围中，Grok 4.20 Beta 版悄无声息地正式上线并进行了更新。

正如马斯克之前说的那样，Grok 4.20 采用了某种快速学习机制，能够持续进化。18 号开始公测后能每周通过用户真实交互持续迭代，不再等下一次大版本更新。

对于当前版本的 Grok 4.20，xAI 给出的官方介绍是「4 Agents」，也就是说，与以往单一的 Grok 模型不同，4.20 版本内置了一个由 4 个智能体组成的团队，其会在应对复杂查询时自动选择启用。

根据之前内测用户放出的截图，这 4 个智能体有着各自专属的名称、设定和技能：

Grok：协调者，具有标志性的机智、诚实的个性；负责综合最终输出。
Harper：研究专家，实时进行事实核查、收集来源、验证信息。
Benjamin：逻辑 / 编程 / 数学专家，负责处理严谨的推理、验证和技术深度。
Lucas：创意达人，挑战假设，探索替代方案，减少群体思维。

这 4 个智能体会在内部进行讨论（用户通常可以看到实时的思考过程），达成共识，并提供统一、更高质量的响应。

这种方法可以大幅降低幻觉（X 用户 @NoahKingJr 称测试报告表明幻觉降低了约 65%），并能提高在工程、预测、战略和多步推理等难题上的可靠性。

不过需要说明的是，在机器之心最新的测试中，Grok 4.20 却没有使用 Lucas、Harper、Benjamin 这三个名字，而是使用了 Agent 1、Agent 2、Agent 3 等代号。

正如前文所言，目前 xAI 尚未发布相关博客和技术报告，也几乎没有官方评测数据流出。尽管如此，也已经有一些第三方评测机构放出了一些评测结果。

比如 Arena AI 发布了一份数据，经过 3992 位用户的评测，Grok 4.20 在评估搜索实时信息、外部知识和可靠引用的能力的 Search Arena 中目前排名第一，超过了 GPT-5.2、Gemini 3.0 Pro 等模型。

而在评估 LLM 在文本的通用性、语言精确性和文化背景方面的能力的 Text Arena 上，Grok 4.20 排名第 4。

下表展示了更多评测数据：

另外，Grok 4.2 在真实股票交易基准 Alpha Arena 中表现也非常亮眼，其中采用 Situational Awareness 策略的 Grok 4.20 更是以显著的胜率登顶排行榜。

下面展示了更具体的数据：

几个实测

看看 Grok 4.20 的表现如何

我们也对这个新版 Grok 4.20 进行了一番实测，首先来看看其搜索能力。正好目前关于 Grok 4.20 的消息不多，我们就提出了一个关于其自身的问题：

搜索网络上关于 Grok 4.20 的一切，将信息汇总成一份报告，涵盖其技术细节、基准指标等。

可以看到，因为这个任务比较简单，Grok 4.20 仅启用了默认的 Grok 智能体，不到一分钟就完成了任务，给出的报告中也纳入了一些前文没有提到的信息。整体而言，这是一份相当有用的报告，尤其是其得天独厚的 X 推文检索能力，更是可以成为辅助我们报道写作的利器。

再上一个难度更大的任务：编写一个演示日晷工作原理的动态 SVG。

这一次，Grok 4.20 的多智能体模式被成功唤起，也成功创建了一个效果还算不错的嵌入了 SVG 的网页：

还有网友直接让它用 three.js 制作一个 FPS 游戏，这个原型充分发挥了 Grok 4.2 高速精准的代码生成、实时工具集成、清晰的逻辑结构的优势。

它在一口气给出完整、可直接运行的文件这点上，比 Claude Code 和 Codex 明显更有优势。

「确实又准又快，几乎不出错，所以能把脑子里刚冒出来的想法，迅速做成备忘录级别的原型，真的太爽了！」

接下来我们试了试 Grok 4.20 引以为傲的创作能力，让其为当前这篇文章建议标题并将其改成适合发小红书的风格。结果如下，大家可以看看它的小红书味道正吗？

最后，按照 Grok 系列一贯的传统，Grok 4.20 在毒舌怼人方面依然颇具天赋。正如马斯克分享的这条推文一样，当用户问 AI「你为何如此弱智」时，Claude 的回答一板一眼，而 Grok 4.20 直接来了一句「因为我在拉低智商配合你」。

文中视频链接：https://mp.weixin.qq.com/s/VFYbX07o6TNp5c3f9T3JDg

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴