打开网易新闻 查看精彩图片

文/识局智库研究组

今天凌晨3点,2026美加墨世界杯揭幕。

首战,墨西哥 2:0 干掉南非。

如果你这两天刷过微博或科技号,大概率已经看到那条“AI 章鱼哥”的消息——阿里千问赛前把比分、进球者(35 岁的墨西哥老将希门尼斯)、甚至南非会吃红牌这三件事全押中了,连巴西名哨桑帕约执法偏严这种细节都写进了预测里。

同一晚,联想拉着DeepSeek、Kimi、文心一言、通义千问、中移九天等11家大模型组了局“人机大战”,AI 集群胜率 91.7%,人类对 81.6%。

朋友圈里一片“国产 AI 封神了”的惊叹。

但如果你把镜头往后拉一点,会发现这件事远不止“AI 会不会看球”那么简单。

01

这一场,千问的预测确实漂亮。

它把ESPN的Elo评分(墨西哥1800vs南非1526)、墨西哥城2240米海拔的主场加成、赛日橙色暴雨预警、巴西裁判桑帕约的执法尺度这几个变量炖成一锅,吐出来的2:0连希门尼斯头球和点名南非红牌都对得上。

但单场命中在足球预测里说明不了太多,足球的魅力本来就是不可预测,一次揭幕战样本连统计意义都谈不上。

更值得说的是另一家高调下场的——Kimi。

6月8日,月之暗面宣布 Kimi 将通过“Agent 集群”调度最多 300 个子 Agent,逐轮预测并复盘全部104场,还配了1万亿Token的奖池让用户跟着瓜分。

看着挺唬人,但 Kimi 自己公布的回测成绩看起来挺诚实:用同一套方法滚2018和2022两届世界杯,整体准确率大概在50%-60%之间,略逊于市场赔率。

换句话说,300个Agent开会的结论,并没有稳定跑赢博彩公司由真金白银砸出来的隐含概率。

Kimi 在报告里也反复强调“我们很可能错”,并把市场赔率定位成“共识偏差研究变量”而不是参照系。这个姿态比预测本身有意思,承认不准,反而才是这场秀的真正产品。

02

把Kimi的300个子Agent 拆开看,分工是这样的:

战略层盯“冠军周期”这种宏观叙事;

战术层算 xG(预期进球)、xT(预期威胁)这些量化指标;

执行层啃 16 个场馆的地理、气候、旅行距离;

还有一组叫“反方 Agent”,专职给前面所有人的结论挑刺——伤兵漏没漏?天气权重过高?是不是被热门队名气带了节奏?

这架构往深里看,其实并不是为了猜比分设计的。

一套Elo+Poisson+Dixon-Coles+Monte Carlo 的传统体育建模,一个量化分析师用 Python 两周就能搓出来,犯不着调动300个Agent还搞“辩论协议”。

月之暗面真正想给外界看的,或许是 Kimi Work(6月3日刚公测的通用本地 Agent)在多智能体协同上的天花板——能同时拉 300 条线程各管一摊、还能交叉验证、还能把推理链摊给你看。

选世界杯当考场也不是随便挑的。104 场、48 队、横跨美加墨三国时区海拔、每天都有新比分可以验,而且全民围观。

这是 2026 年夏天极少数“普通人也看得懂、技术圈也认账、连续一个月有得写”的公开场景。做 Agent 协同 DEMO 如果选个金融风控,老百姓看不懂;选个代码生成,又被吐槽“又卷 coding benchmark”。世界杯刚好卡在中间。

03

时间点更有意味。

Kimi宣布300 Agent预测世界杯的同一周,6月8日,媒体曝出月之暗面新一轮融资投前估值已跳到300亿美元,比一个月前“突破 200 亿美元”又上了一个大台阶,半年时间里从43亿美元翻了近七倍。

同期的国产大模型资本化地图是这样的:

智谱年初登港交所,6月1日又公告要回科创板,募150亿人民币;

MiniMax 紧跟着交了科创板辅导备案,“A+H”双平台齐跑;阶跃星辰被传要去港交所递表,目标估值 120 亿美元;

DeepSeek传出首轮融资规模破 500 亿、投后 3500-4000 亿人民币,腾讯出 100 亿、宁德时代出 50 亿。

“六小虎”的局,从比参数打到比资本化,只用了半年。

这个背景下再看世界杯这波扎堆,Kimi 秀 Agent Swarm、千问秀多模态变量融合、联想拉 11 家组“人机大战”绑咪咕流量,每家都在借世界杯讲自己那个“AGI 落地”的故事给资本市场听。

AGI的远期叙事这两季度其实在降温,投资人开始追问 ARR、追问 API 调用、追问企业级部署。这时候有一场全民围观的“AI 公开考试”,比发十篇技术博客都管用。

04

所以这场“忽悠”究竟忽悠了谁?

说“忽悠”可能重了,但这事儿确实有两层观众要看清。

一层是看热闹的。

揭幕战千问那三个细节全中,有运气成分但也有真东西——把海拔、天气、裁判库、xG 指标都喂进去,命中率确实能比盲猜高一段。

但单场神准不要外推到整个赛事,Kimi 自己的回测已经把天花板画好了:50%-60%,打平博彩盘口都费劲。

后面 103 场走完,大概率还是“偶尔惊艳、整体平庸”的曲线。

另一层是看产业的。

“国产 AI 扎堆预测世界杯”这个现象本身,比任何单场比分都值得细品。

2026年6月这个节点,六小虎估值全线冲顶、IPO 路径分化、AGI 远期叙事又有点讲不动了,大家急需一个成本低、曝光高、还能秀新能力的公域舞台。世界杯刚好砸过来,不蹭是傻子。

千问蹭的是“多模态+环境变量”的落地感,Kimi 蹭的是“300 Agent 协同”的架构感,联想蹭的是“天禧生态+FIFA 官方伙伴”的生态感,DeepSeek、豆包、文心一言集体押西班牙夺冠,押的是“我会跟主流共识站在一起”。

表面是看球,底下全是各自的估值剧本。

05

104场踢完,真正值得回看的或许还不是哪家居然猜中了决赛比分,而是哪家能把“Agent 集群+公开可验推理链”这个故事讲圆。

这个故事若圆得漂亮,下一轮融资的Term Sheet上就能多一项“已通过大规模社会场景压力测试”的加持。

足球是圆的,估值是热的,300个Agent算的既是前者,更是后者。

更多探讨,欢迎进读者群交流!