马斯克押注的"预言测试"，自家AI差点垫底

字节漫游指南

2026-04-05 08:45 ·北京

2026年3月29日，一份叫FutureX的全球榜单更新了。北京中关村学院信息智能团队做的Milkyway系统，拿了60.9分，直接登顶。

作为参照，马斯克旗下xAI的Grok-4，只拿到25.9分。Milkyway比它高出一倍还多——而Grok-4曾经是这榜单的首期冠军。

陈天桥团队的MiroFlow框架（用的GPT-5），也有57.5分。它在最难的Level 4还能逼近50分，对复杂不确定性的把控相当稳。

智谱GLM-5-thinking 37.3分，DeepSeek-V3.2-thinking 31.2分，阿里Qwen-3.5-plus-thinking 26.9分排第17。

Grok-4以25.9分落在第18位。马斯克说过："预测未来的能力，是对模型智能性最好的测试。"

这场"预言能力"的试炼，把传统大模型靠"刷静态题库"撑起来的体面，撕了个口子。

过去几年，主流大模型在MMLU、HumanEval这些学术题库里，基本都能刷到90%以上。但商业世界不需要做题家。市场真正想问的是：能预测下周哪款爆品卖爆吗？能判断地缘博弈往哪走吗？

一部分团队已经交卷了。FutureX公开的实战记录里，存着大量被AI成功拆解的真实考题：

微观商业——2025年底，AI自主抓取网页和历史数据，预测Temu美国区某商户12月5日的单品销量。

宏观气候——基于NASA的Gistemp数据，推演12月全球平均气温较历史基准的偏差。

甚至还有地缘政治和体育赛事——2026年1月葡萄牙总统选举谁能进第二轮；墨西哥甲级联赛克雷塔罗对蒂华纳的赛果。

这些问题，瞎蒙没用。系统得像顶级情报分析师，在全球碎片信息里找信号、过滤假新闻，最后给出一个不带模糊地带的答案。

为什么巨头都在盯FutureX？因为它是真正的"闭卷实战"。

这个由字节Seed、斯坦福、复旦、普林斯顿等联合发起的评测基准，干掉了一个作弊温床——数据污染。

以前的静态考题，模型训练时可能早就背过答案。但FutureX考的是还没发生的未来事件。它每天从全球195个信源实时抽新题，模型根本没法提前准备。

FutureX用"折叠式"评分，拒绝靠蒙"是与否"刷分。它压缩了二元对立事件的数量，难度分四级：

Level 1基础事件，权重只占10%。

Level 2考察带变量的趋势预测，占20%。

Level 3（多步深度推理）和Level 4（极高不确定性的宏观预测）合计占70%——前面选择题30分，后面70分全是压轴大题。

这种高压测试下，2026年3月的榜单呈现出冰冷的技术分化。

以被反超的Grok-4为例，拆解成绩单会发现致命伤：Level 1简单任务拿了71.43分，但Level 3深度推理断崖跌到8.21分。而第三方Agent接入的GPT5.2更惨，像失去方向感的盲人，仅得10.3分。

不过总分低不代表全输。FutureX专门设了"细分预测任务"（含基础事件和高精度的FutureX-Pro垂直领域），直接暴露各家"偏科"体质：

政治与科技：擅长逻辑推理的GPT-5以72%和68%准确率领跑，DeepSeek-R1和Claude-3.7跟上。

体育赛事（高频动态博弈）：DeepSeek-R1第一（64%），Claude-3.7（60%）第二。

金融（FutureX-Finance）：预测财报和宏观指标，误差须控在5%以内。GPT-5-high和Grok-4找回主场，分别以46.37和41.25分领先。

零售（FutureX-Retail）：考验销量与供应链预测。Claude-Opus和Kimi-K2在评估不确定性概率分布上得分最高。

公共卫生（FutureX-PublicHealth）：解读官方公报预测疾病指标。GPT-5-High和Kimi-K2-thinking靠极高问题覆盖率占榜首。

此外，字节豆包（Seed1.6）和谷歌Gemini Deep Research在高难度交叉分析榜单里稳居前四。

Milkyway和MiroFlow能在综合榜超越这些"偏科"算力怪兽，秘密不在参数量，而在"Harness层（脚手架）"和"验证机制"的深耕。它们引入DAG（有向无环图）推理协议和双层验证器——在模型内部建了个"风控中台"，每搜一条信息、每推一步，都有机制实时审计、强制纠错。

FutureX的榜单更迭，不只是技术圈的狂欢。它向创业者和普通人释放了一个信号：

大模型的价值不再是写诗写邮件，而是走向"Action Engine（行动引擎）"。谁能在红海物流停摆前两周帮企业调供应链？谁能在金融市场里捕捉到微弱的宏观信号？高价值的"预见力"才是下一步的真金白银。

没有一个模型能通吃所有细分领域。这正是创业者的机会——搭更优的智能体外壳、设计更抗干扰的验证流、在特定垂直领域投喂高质量反馈信号。

未来的赢家，不一定是GPU最多的人，但一定是最懂如何在不确定性里建立规则、驯服AI的人。

FutureX的每日考题仍在滚动更新。Milkyway团队内部流传着一个细节：系统在某次Level 4预测中，曾连续否决了37次自身推理路径，直到第38次才输出最终答案——而那次预测，与真实结果仅差1.2%。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴