文 | 超前实验室,作者|青苹吹果

如果有个AI告诉你,三个月后某只股票会跌,或者某个国家会加关税,你怎么判断它说的是真话,还是在瞎蒙?

唯一的方法就是——等三个月,一切见分晓。

但这就陷入了一个死循环:要验证预测,就得等结果出来;等结果出来,黄花菜都凉了。更尴尬的是,就算它蒙对了,你也不知道下次还能不能信它。

市面上号称能“预测”的AI产品一大堆,但没几个敢把历史预测记录全公开的。大部分都是挑几个说中的案例出来吹,说错的就当没发生过。

直到最近,UniPat AI发布了一套系统,名字叫Echo,核心是一个专门为预测训练的模型EchoZ-1.0,并在公开的 General AI Prediction Leaderboard 上稳居第一,领先Google的Gemini-3.1-Pro和Anthropic的Claude-Opus-4.6。

打开网易新闻 查看精彩图片

在涵盖12个模型、覆盖政治、经济、体育、科技、加密货币等7个领域、活跃题目超过1000道的排行榜中,EchoZ-1.0以Elo 1034.2的分数排名榜首,其竞争对手不仅有顶级大模型,还有预测市场上真实投入资金的人类交易者。这意味着EchoZ的预测能力已经相当能打了。

我花了两个晚上把他们的技术博客和公开数据翻了一遍,发现他们做了一件挺有意思的事。

Echo不仅让AI学会了预测未来,更重要的是,他们建立了一套,让任何人都能验证“预测准不准”的方法论。

比谁预测得准,得先站在同一起跑线

过去一年,几乎所有头部大模型厂商都在卷预测能力。Google、Anthropic、OpenAI,一个比一个卷。

但问题是,怎么证明自己的模型真的比别人强?

传统的做法是搞一个排行榜,让各家模型对着同一批题目做预测,然后比谁的正确率高。听起来公平,但有一个致命漏洞:时序不对称。

举个例子。假设有道题是“2026年4月20日收盘时,全球市值最大的公司是哪家?”模型A在4月1日预测了,模型B在4月18日预测了。4月18日的模型显然能看到更多信息,比如这段时间发生了什么新闻、市场有什么波动。

这两者的准确率能直接比较吗?显然不能。越接近截止时间,预测难度越低。这就像让两个人赛跑,一个跑100米,一个跑50米,然后比谁先到终点,没有意义。

更麻烦的是,大部分预测基准的题目都来自Polymarket这类预测市场,偏向容易结算的二元问题(“是”或“否”)。

但真实世界里,一个做餐饮的老板关心的可能是“下个月某款新品的单店日均销量预测能达到多少”,这种问题在传统基准里根本找不到。

Echo团队在构建评测系统时,第一个动作就是解决这两个坑。

他们的做法挺直接:只比较“同一道题、同一个预测时间点”的结果。4月1日预测的,就和4月1日预测的比,4月18日预测的,就和4月18日预测的比。

这叫point-aligned Elo机制,听起来简单,但之前没人这么干过,因为工程复杂度高,需要持续跟踪每道题、每个时间点、每个模型的输出。

而这么做的好处也是显而易见的:确保了“参赛”模型都站在了“同一起跑线”上,厂商不用再为了排名而刻意选择答题时机,研发焦点也能从“卡点”回归到推理质量本身。

同时,Echo团队建立了三条数据采集管道。

一条对接Polymarket等公开预测市场,保证了题目来源的持续性和可比性;

一条从Google Trends等实时趋势中自动生成新题,让评测体系能跟上现实世界的节奏,避免模型“刷旧题”;

还有一条我觉得最有意思,引入科研、工程、医疗等真实专业场景的预测题,则把评测从大众话题的范畴,真正拉进了高价值决策的核心地带。

打开网易新闻 查看精彩图片

从大众共识到专业判断,这个光谱覆盖得相当完整。

行业也终于有了一套既公平、又能真实反映模型在复杂现实问题中实用能力的标尺。

评测标准是一把动态的尺

除此之外,Echo的评测引擎还有一个细节,我觉得挺值得琢磨,那就是它不是静态题库,而是持续生长的。

系统会持续从「三条管道」吸入新题目,预测市场合约、实时趋势自动合成、专家贡献。每道题不只做一次预测,而是根据结算周期长度分配多个预测时间点。

比如周期10天的题可以做大约4次预测,90天的则可以7次,既保证覆盖密度,又控制计算开销。

新题目持续流入,新的预测点持续触发,对战持续发生,排行榜持续更新。

这就解决了另一个老问题,传统排行榜的数据会过时。去年厉害的模型,今年可能就不行了;去年测的题目,今年可能已经没人关心了。

但动态系统不一样,它造了一把不断校准的尺子,而这把尺子本身也在不停生长。

Echo团队还做了几组验证实验,挺有意思的。

一个是稳健性测试。

通过模拟因API故障或服务器中断造成的预测缺失场景,随机剔除10%到70%的预测记录,观察排名顺序是否会发生变化。

结果表明,Elo体系下的排名稳定性始终优于传统Avg Brier方法的平均排名,前者波动幅度比后者低1.4至1.8倍;即便数据丢失比例高达70%,Elo排名的变动量也仅相当于Avg Brier得分排名波动的一半多。

打开网易新闻 查看精彩图片

另一个是收敛速度。

模拟一个新模型刚加入排行榜,看它的排名多久能稳定下来。Elo在第5.4天就收敛到和20天后一致的排名,Avg Brier要到第14.5天,快了2.7倍。

打开网易新闻 查看精彩图片

这些实验在告诉你,这套评测系统本身是可靠的,不是随便搭的架子。

不用答案来训练,那用什么?

评测的问题解决了,下一个问题是训练。

用历史事件训练预测模型,听起来很合理。把过去的新闻和当时的市场数据喂给模型,让它学习“在什么信息条件下,什么事件会发生”。

就像学生们在备考期间,会做「历年真题」来找手感。

但实际做起来,有两道绕不过去的坎。

第一个是数据泄露。

互联网内容持续更新,你让模型去搜“2024年某事件的相关信息”,它搜到的网页可能已经被后来的新闻报道修改过了。你以为是让模型“回到过去”,其实它偷偷看了答案。

第二个是结果导向偏差。

现实世界充满随机性,一个逻辑严密的预测可能因为黑天鹅事件而落空,一个瞎蒙的猜测可能因为运气而命中。

如果只用最终结果做训练信号,模型会学到什么?它会学到了蒙对了就是好,蒙错了就是差。这跟训练一个赌徒没什么区别。

所以Echo提出的另一种解法,叫Train-on-Future——面向未来训练。

既然答案短期内没法拿到手,那就干脆不拿它当训练素材。改成让模型去面对那些还没出结果的真实问题,然后回过头来评判它的「推理过程」到底靠不靠谱。

所谓的推理过程,就是从模型接到问题开始,到最终给出判断中间走过的每一步,去哪里找资料、怎么梳理信息、最后怎么得出那个概率数字。

在这过程中,模型是特意去搜索那些一手的信息源头,还是随便看看新闻标题就完事?碰上互相矛盾的说法,会不会去自主核实?在给出概率的时候,是拿着过往的历史数据去推算出一个合理区间,还是一拍脑门随口编了个数?

这些动作可以被评价,不需要等答案揭晓。

但问题来了,如何来给「推理过程」打分?总不能靠感觉吧!

这确实是个棘手的问题。毕竟不同领域对“好推理”的定义完全不一样。

比如做宏观经济预测时,你得判断下个季度的GDP增速,这需要盯着央行的货币政策、PMI的月度变化、失业率报告;但做加密货币领域的预测完全是另一套逻辑,你得看链上活跃地址数、监管机构的表态、市场恐慌贪婪指数。

这就造成了一个问题,面对不同的领域,想写一套通用的评分标准,几乎不可能。

所以Echo团队索性决定不靠人写,直接用数据来“搜”出评分标准。

这套机制叫Automated Rubric Search,翻译过来就是“评分标准自动搜索”。

大概流程是,先拿出一张草稿,列出几个可能的评分角度,比如“信息来源靠不靠谱”“碰到矛盾信息怎么处理”,每项分成好、中、差三档。然后用这套标准去给各个模型的预测过程打分,排出一个名次。

排完之后,拿这个名次跟真正的Elo排名,放在一起比对,看看两个版本名次重合度。

重合度越高,说明这套评分标准越有说服力。

排行榜第一,要赢,更要稳

聊了这么多技术,现在,咱们再回到开头提到了的General AI Prediction Leaderboard上。

排行榜涵盖12个模型,7个领域,活跃题目超过1000道。

但我觉得更值得看的不是排名本身,而是排名的稳定性。

Echo团队做了一组σ参数敏感性测试:调整Elo框架中的一个参数,控制模型之间表现差距会被放大到什么程度,从0.01到0.50共9个取值,重新计算全部模型排名。EchoZ在全部9个分组均保持第一,是唯一排名未发生任何波动的模型。

打开网易新闻 查看精彩图片

作为对比,GPT-5.2的排名在第2到第9之间波动过8个位次。

这意味着什么?意味着它不是“刚好赢了一点点”,而是在不同设定下都稳居第一,这比“赢了”更有说服力。

更有意思的是他们和人类交易者的对比。

EchoZ与Polymarket人类市场共识的分层对比显示:政治与治理领域胜率63.2%,长期预测(7天以上)胜率59.3%,市场不确定区间(人类信心55%-70%)胜率57.9%。

有个规律值得注意,人类预测者越犹豫的场景,如高不确定性、长时间跨度、复杂政治博弈,EchoZ的优势反而越明显。

这恰恰暗示了模型在信息整合和概率校准上的系统性优势,恰好是人类直觉最不可靠的区域。

乍一听,60%上下的准确率好像也没多厉害。可但凡对投资市场有点了解的人都清楚,在一个靠决策质量分高下的环境里,60%这个数字意味着什么,只要胜率过半,长期下来就是正收益,而能达到六成,已经是相当可观的领先幅度了。

UniPat在官网上为Echo写了一段话:“The future is no longer a probability you guess — it is a parameter you integrate.”

翻译过来大概是:未来不再是你猜测的概率,而是你可以集成的参数。

这句话挺有嚼头。

当预测从一种直觉判断变成一个可调用、可集成的参数,它能嵌入的决策场景会多得多,金融市场、算法交易、企业战略、供应链管理……比我们现在能想到的要多。

据他们披露,下一步计划是把EchoZ-1.0的预测能力封装成一套AI-native Prediction API对外开放。这套API支持自然语言输入,返回包含概率分布、分层证据链、反事实脆弱性评估和监测建议的完整结构化报告。

想象一下:你问“明年Q1全球锂矿价格走势”,它不光给你一个概率,还告诉你这个判断是怎么来的,哪些证据支撑、哪些因素可能让判断失效、需要关注哪些监测指标。

这跟现在那些只会给你一个“涨/跌”结论的「预测工具」,完全不是一个东西。

当然,落地的效果还得等API正式上线才能验证。但至少从目前公开的信息来看,Echo在做的事情是结构化的。它没有在较真自己模型准不准,而是在搭建一套“让人相信它准”的验证体系。这在预测AI这个领域,可能比“准”本身更重要。

毕竟,如果一个AI真的能预测未来,你总得知道它什么时候该信,什么时候不该信。