一张世界杯预测排行榜,正在变得比很多大模型评测基准更容易被公众理解。
联想集团与咪咕视频联合发起的“世界杯预测人机大战”进行到第15场,12大AI模型的阶段成绩已经浮出水面:百度文心以7场命中、46.7%的胜率暂列第一;联想天禧AI、中移九天、腾讯混元、MiniMax均为6场命中、40.0%的胜率,处于领先梯队;DeepSeek、通义千问、智谱、阶跃星辰、商汤小浣熊均为5场命中、33.3%的胜率;Kimi和讯飞星火均为4场命中、26.7%的胜率,暂列其后。
这组数字的意义,不在于谁暂时领先,而在于它把AI的能力边界,直接暴露在15场真实比赛的检验之下。
过去几年,大模型行业的竞争更多停留在参数规模、榜单分数和实验室场景。而世界杯提供了一个极其苛刻的公开考场:104场比赛,104次结果验证,数亿球迷共同围观。没有标准答案,没有容错空间,每一次预测都被同一个比分检验。
更关键的是,这15场比赛已经暴露出AI预测的结构性特征。
在实力差距明显的对局中,AI展现出极高的稳定性。墨西哥2-0南非、美国胜巴拉圭、德国胜库拉索,AI命中率接近满分。大数据在确定性区间的表现,依然具有优势。
但在均势对局和平局场景中,AI的短板被迅速放大。本届赛事至今已经出现6场平局,平局率高达40%,显著超出小组赛常见区间。而在这些平局中,12大AI合计仅有4次命中。沙特1-1乌拉圭、西班牙0-0佛得角,12家AI全部未能预测平局;比利时1-1埃及,仅阶跃星辰一家精准命中。
这揭示了一个关键问题:AI更擅长判断“谁更强”,却难以精准评估“更强一方是否一定能赢”。平局往往源于比赛中的偶然性,例如门将脱手后的补射、临场战术调整、裁判尺度变化,这些瞬间极难被建模预测。
更有意思的是,不同模型开始展现各自擅长的比赛类型。腾讯混元、Kimi、讯飞星火曾命中加拿大1-1波黑;中移九天独中荷兰平日本;百度文心精准命中科特迪瓦1-0;阶跃星辰则在比利时1-1埃及中成为唯一命中比分的模型。这说明各家的训练数据偏好和推理策略确实存在差异。没有“万能预言家”,但“专项型选手”正在出现。
这也让这场人机大战从“看谁更准”,进入一个更有意思的阶段:观察不同判断模式如何在真实赛果面前各自表现。
稳定型AI靠积累命中,反共识型AI靠偏离共识偶尔抓住冷门。世界杯会不断奖励和惩罚这两种策略。而人类阵营的整体胜率仍在54%左右,高于多数单个AI模型。但这个领先并不意味着人类多数派总是更准。真正拉开差异的,往往是人类群体中始终存在的少数派判断,以及个别AI模型偶尔给出的非共识答案。
从产业视角看,这场人机大战的意义远超竞争本身。
联想作为FIFA官方技术合作伙伴,正以混合式AI深度参与本届世界杯。从裁判视角AI视频增强、3D数字人可视化方案,到足球AI超级智能体、赛事智能指挥中心,AI正在同时进入赛场内外。而“世界杯预测人机大战”则是把这种能力从专业场景推向大众场景的一次尝试。
它让普通球迷从被动观赛者,转变为AI智能体的真实体验者。球迷在观看比赛直播的同时,可以参照12大AI的各自选择,给出自己的预测,与AI天团同场较量。而6月24日起在咪咕视频开播的《人机大战:谁是世界杯预言家》,将进一步把预测变成一档连续节目,每场比赛之后公布准确率排行榜,并复盘AI和人类各自错在哪里。
这种从顶级赛事验证到大众场景扩散的路径,也正在反映到联想的经营数据之中。2025/26财年,联想AI相关收入同比增长105%,占总收入比例已达到三分之一。世界杯不仅是品牌曝光的舞台,更是AI能力在真实场景中的一次压力测试。
15场比赛过后,排名远未定型。但比排名更重要的,是这场公开实验所揭示的真相:足球仍然不可预测,AI也不是预言机。
但正因如此,AI与人类在世界杯中的同场较量,才真正有了意义。它让我们看到,AI在确定性区间的能力边界,在不确定性面前的局限,以及不同模型在真实赛果面前展现出的风格差异。
这或许才是世界杯作为AI考场的最大价值:它不提供标准答案,但它让每一次判断都被检验,让每一种策略都被讨论,让AI的能力边界在真实世界中被持续观察。
而这场考试,才刚刚开始。AI或许比人类的大脑考虑的更加全面,更加懂球。看世界杯继续关注AI的懂球之旅。
热门跟贴