马斯克Grok 4正式发布：世界最大AI超级计算机就训练了这？

AI寒武纪

2025-07-10 13:50 ·江苏 ·优质互联网领域创作者

Grok 4 速评
公开基准测试（跑分）有进步：在标准测试集上表现不错。
但在AGI-ARC-2高级推理测试上仅得16分：在真正考验智力的问题上依然拉胯。
视觉和图像理解能力仍是短板：看图说话的能力还是不行。
这算是为“神经符号AI”正名了：大部分性能提升来自于整合了符号工具（如计算器、代码执行），而非纯粹靠扩大模型规模和堆算力。 [详情可关注Gary Marcus后续在AI Substack上的讨论]
未展示任何重大的新技术或创新：技术上没有新东西。
没看到在“幻觉”问题上有实质性进展：（至少我没看出来）老毛病还在。
在真实场景中对用户有多大用处，很难说：普通人用起来效果如何，还是个未知数。
对于如何将Grok“对齐”得符合道德，xAI官方似乎信心不足。
马斯克又画了一堆大饼：他照例承诺了很多未来的功能，但按他给的时间表多半实现不了。
结论：OpenAI今晚可以高枕无忧了
Grok 4 API现在就可以开始使用，8月份推出编程版本，9月推出多模态智能体版本，10月推出视频模型

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴