Grok 4 速评
公开基准测试(跑分)有进步:在标准测试集上表现不错。
但在AGI-ARC-2高级推理测试上仅得16分:在真正考验智力的问题上依然拉胯。
视觉和图像理解能力仍是短板:看图说话的能力还是不行。
这算是为“神经符号AI”正名了:大部分性能提升来自于整合了符号工具(如计算器、代码执行),而非纯粹靠扩大模型规模和堆算力。 [详情可关注Gary Marcus后续在AI Substack上的讨论]
未展示任何重大的新技术或创新:技术上没有新东西。
没看到在“幻觉”问题上有实质性进展:(至少我没看出来)老毛病还在。
在真实场景中对用户有多大用处,很难说:普通人用起来效果如何,还是个未知数。
对于如何将Grok“对齐”得符合道德,xAI官方似乎信心不足。
马斯克又画了一堆大饼:他照例承诺了很多未来的功能,但按他给的时间表多半实现不了。
结论:OpenAI今晚可以高枕无忧了
Grok 4 API现在就可以开始使用,8月份推出编程版本,9月推出多模态智能体版本,10月推出视频模型