打开网易新闻 查看精彩图片

2026年3月29日,一份叫FutureX的全球榜单更新了。北京中关村学院信息智能团队做的Milkyway系统,拿了60.9分,直接登顶。

作为参照,马斯克旗下xAI的Grok-4,只拿到25.9分。Milkyway比它高出一倍还多——而Grok-4曾经是这榜单的首期冠军。

陈天桥团队的MiroFlow框架(用的GPT-5),也有57.5分。它在最难的Level 4还能逼近50分,对复杂不确定性的把控相当稳。

智谱GLM-5-thinking 37.3分,DeepSeek-V3.2-thinking 31.2分,阿里Qwen-3.5-plus-thinking 26.9分排第17。

Grok-4以25.9分落在第18位。马斯克说过:"预测未来的能力,是对模型智能性最好的测试。"

这场"预言能力"的试炼,把传统大模型靠"刷静态题库"撑起来的体面,撕了个口子。

过去几年,主流大模型在MMLU、HumanEval这些学术题库里,基本都能刷到90%以上。但商业世界不需要做题家。市场真正想问的是:能预测下周哪款爆品卖爆吗?能判断地缘博弈往哪走吗?

一部分团队已经交卷了。FutureX公开的实战记录里,存着大量被AI成功拆解的真实考题:

微观商业——2025年底,AI自主抓取网页和历史数据,预测Temu美国区某商户12月5日的单品销量。

宏观气候——基于NASA的Gistemp数据,推演12月全球平均气温较历史基准的偏差。

甚至还有地缘政治和体育赛事——2026年1月葡萄牙总统选举谁能进第二轮;墨西哥甲级联赛克雷塔罗对蒂华纳的赛果。

这些问题,瞎蒙没用。系统得像顶级情报分析师,在全球碎片信息里找信号、过滤假新闻,最后给出一个不带模糊地带的答案。

为什么巨头都在盯FutureX?因为它是真正的"闭卷实战"。

这个由字节Seed、斯坦福、复旦、普林斯顿等联合发起的评测基准,干掉了一个作弊温床——数据污染。

以前的静态考题,模型训练时可能早就背过答案。但FutureX考的是还没发生的未来事件。它每天从全球195个信源实时抽新题,模型根本没法提前准备。

FutureX用"折叠式"评分,拒绝靠蒙"是与否"刷分。它压缩了二元对立事件的数量,难度分四级:

Level 1基础事件,权重只占10%。

Level 2考察带变量的趋势预测,占20%。

Level 3(多步深度推理)和Level 4(极高不确定性的宏观预测)合计占70%——前面选择题30分,后面70分全是压轴大题。

这种高压测试下,2026年3月的榜单呈现出冰冷的技术分化。

以被反超的Grok-4为例,拆解成绩单会发现致命伤:Level 1简单任务拿了71.43分,但Level 3深度推理断崖跌到8.21分。而第三方Agent接入的GPT5.2更惨,像失去方向感的盲人,仅得10.3分。

不过总分低不代表全输。FutureX专门设了"细分预测任务"(含基础事件和高精度的FutureX-Pro垂直领域),直接暴露各家"偏科"体质:

政治与科技:擅长逻辑推理的GPT-5以72%和68%准确率领跑,DeepSeek-R1和Claude-3.7跟上。

体育赛事(高频动态博弈):DeepSeek-R1第一(64%),Claude-3.7(60%)第二。

金融(FutureX-Finance):预测财报和宏观指标,误差须控在5%以内。GPT-5-high和Grok-4找回主场,分别以46.37和41.25分领先。

零售(FutureX-Retail):考验销量与供应链预测。Claude-Opus和Kimi-K2在评估不确定性概率分布上得分最高。

公共卫生(FutureX-PublicHealth):解读官方公报预测疾病指标。GPT-5-High和Kimi-K2-thinking靠极高问题覆盖率占榜首。

此外,字节豆包(Seed1.6)和谷歌Gemini Deep Research在高难度交叉分析榜单里稳居前四。

Milkyway和MiroFlow能在综合榜超越这些"偏科"算力怪兽,秘密不在参数量,而在"Harness层(脚手架)"和"验证机制"的深耕。它们引入DAG(有向无环图)推理协议和双层验证器——在模型内部建了个"风控中台",每搜一条信息、每推一步,都有机制实时审计、强制纠错。

FutureX的榜单更迭,不只是技术圈的狂欢。它向创业者和普通人释放了一个信号:

大模型的价值不再是写诗写邮件,而是走向"Action Engine(行动引擎)"。谁能在红海物流停摆前两周帮企业调供应链?谁能在金融市场里捕捉到微弱的宏观信号?高价值的"预见力"才是下一步的真金白银。

没有一个模型能通吃所有细分领域。这正是创业者的机会——搭更优的智能体外壳、设计更抗干扰的验证流、在特定垂直领域投喂高质量反馈信号。

未来的赢家,不一定是GPU最多的人,但一定是最懂如何在不确定性里建立规则、驯服AI的人。

FutureX的每日考题仍在滚动更新。Milkyway团队内部流传着一个细节:系统在某次Level 4预测中,曾连续否决了37次自身推理路径,直到第38次才输出最终答案——而那次预测,与真实结果仅差1.2%。