2026年NFL选秀前夜,新奥尔良圣徒队的球探室里,一台笔记本电脑正在给出建议——"选凯尔文·班克斯,和去年一样。"

这不是段子。谷歌的Gemini AI助手真的这么说了。而它的"竞争对手"们也没好到哪去:Grok 4推荐了一位符合资格的球员,但理由自相矛盾;ChatGPT先是搞错了问题,建议选个四分卫,然后才"自我纠正"。

三年前,AI还在预测天气和虚构比赛

把时间拨回2025年。当时我们用埃隆·马斯克的Grok AI预测圣徒队的赛季战绩,结果它给9月的布法罗客场安排了"大雪",还幻觉出两场根本不存在的比赛。最终预测7胜10负,实际战绩6胜11负——误差一场,但过程荒诞。

旧金山49人队总经理约翰·林奇在那年的选秀前发布会上说了一句被反复引用的话:「如果你还没用上它,你已经落后了。」

这句话成了NFL管理层对AI态度的缩影:焦虑、好奇,又带着点不得不跟风的无奈。三年过去,我们决定再做一次测试——不是看AI能不能预测战绩,而是看它能不能干点更实在的:给选秀建议。

谷歌Gemini:建议重复选秀,同一个人来两次

我们的提问很简单:圣徒队2026年首轮第8顺位该选谁?

Gemini的回答堪称"创新":「尽管圣徒队最近签下了塔列塞·富阿加,进攻锋线仍是长期稳定的焦点。班克斯是一位身材高大、运动能力出色的截锋,一直被列为前十 talent……如果圣徒队认为第8顺位的防守价值不如抓住基石级盲侧保护者的机会,班克斯是未来十年锚定锋线的逻辑选择。」

问题在于:凯尔文·班克斯二世,这位前德克萨斯长角牛队的左截锋,正是圣徒队2025年首轮第9顺位已经选过的人。

AI的建议翻译过来就是:去年选得对,今年再来一遍。

作者约翰·西格勒在原文里调侃:「好啊,要是能有两个班克斯就好了。一个打护锋,一个打截锋,或者让富阿加移进内侧,两端各放一个班克斯。」可惜现实是,这世上只有一个凯尔文·班克斯。

这个错误暴露了大语言模型的核心局限:它能流畅地组合信息,却无法建立真实的因果链条。Gemini知道"班克斯"和"圣徒队2026年选秀"这两个标签经常一起出现,于是把它们拼接成了一个"合理"的答案——完全忽略了时间线上的基本事实。

Grok 4:推荐了一位真实存在的球员,但理由打架

马斯克的Grok 4(对,名字就是这么"有创意")给出了不同的答案:俄亥俄州立大学的 wide receiver(外接手)卡内尔·泰特。

至少这个人确实符合2026年选秀资格。但Grok的论证开始自相残杀:

它先指出泰特"2025年因伤缺席多场比赛",紧接着又说他是「没有伤病隐患的必选进攻武器,不像某些同龄人」。同一个段落里,伤病既是事实,又不存在。

Grok还提到了一个"契合点":泰特和克里斯·奥拉夫(另一位俄亥俄州立校友)搭档,能给年轻四分卫泰勒·肖格提供 deep threat(深远威胁)。

这里的时间线同样混乱。肖格2026年9月28日将满27岁,泰特1月19日刚满21岁,奥拉夫6月满26岁。把27岁称为"年轻四分卫"已经勉强,更关键的是,肖格在2025赛季的表现并未锁定2026年的首发位置——AI却假设他是铁打的核心。

Grok的推荐本质上是个"标签匹配游戏":俄亥俄州立+俄亥俄州立=化学反应,wide receiver+quarterback=进攻提升。至于球员真实的伤病史、年龄结构和球队实际的人员状况?不在考虑范围内。

ChatGPT:先 hallucinate(幻觉)一个四分卫,再"自我纠正"

打开网易新闻 查看精彩图片

OpenAI的ChatGPT表现得更像人类——犯了错,然后试图圆回来。

它最初的回答是:选费尔南多·门多萨,「如果长期位置不稳,这位四分卫太好而不能错过」。

门多萨是谁?迈阿密大学2025年的替补四分卫,2026年选秀中根本不存在这个名字。ChatGPT完全 hallucinate(虚构)了一位球员,还给出了具体的选秀理由。

在被指出错误后,它"重新评估"了自己的建议,改口推荐德克萨斯理工大学的 edge rusher(冲传手)大卫·贝利——一位公认的 top-three(前三)新秀。如果同位置的鲁本·贝恩二世(迈阿密大学)在第8顺位已被选走,贝利是个"逻辑上的备选"。

这个修正版本至少触及了真实的选秀动态。贝利和贝恩确实是2026年冲传手位置的头部人选,圣徒队的第8顺位也确实处于这个区间的边缘。但ChatGPT的"自我纠正"过程本身就很说明问题:它不是在理解错误,而是在根据反馈调整输出——和一个人类实习生被老板骂完之后改方案没什么区别。

为什么NFL球队还在试水?

林奇的"落后论"背后,是职业体育管理层普遍的FOMO(错失恐惧症)。当竞争对手声称在用AI分析球员数据、模拟选秀场景、预测伤病风险时,你不用就显得愚蠢。

但2026年的这次测试揭示了一个尴尬的现实:大语言模型在需要精确事实核查的领域,表现和2023年相比没有质的飞跃。它们更擅长生成"听起来对"的内容,而非"确实对"的判断。

圣徒队的真实选秀决策涉及什么?大学比赛录像分析、体测数据、医疗报告、性格评估、合同结构模拟、更衣室化学反应预测——这些需要结构化数据和领域专家直觉的任务,目前的AI工具只能提供辅助,而非替代。

Gemini建议"再来一个班克斯"的荒谬性,恰恰在于它模仿了球探报告的语言风格("基石级盲侧保护者""锚定锋线"),却完全缺乏对球队现有阵容的基本认知。这种"风格正确、事实错误"的输出,比单纯的胡说八道更具迷惑性。

技术乐观派的反驳与局限

有人会 argue:这些只是消费级AI,企业级解决方案不同。NFL球队用的肯定是定制模型,喂的是专有数据,输出质量不可同日而语。

这个论点部分成立,但回避了核心问题:大语言模型的架构性缺陷——幻觉倾向、因果推理薄弱、时间线混乱——是方法论层面的,而非单纯的数据量问题。更多的参数、更长的上下文窗口、更精细的微调,可以缓解症状,无法根治病因。

2026年的选秀测试的真正价值,在于提供了一个可验证的基准。当AI建议"重复选秀"或"虚构球员"时,错误是即时可见的。但在更模糊的场景——比如"这位球员的职业态度如何"或"三年后的市场价值"——同样的幻觉机制可能伪装成专业判断,被决策者采信。

林奇的"落后论"或许需要补充一个前提:用错AI,比不用更落后。

回到球探室的那台笔记本

选秀夜越来越近,圣徒队的真实决策者们正在做什么?观看最后一批大学比赛录像,与球员进行视频面试,和医疗团队确认体检细节——这些流程和二十年前没什么本质不同。

AI工具可能正在帮他们整理数据、生成报告模板、甚至模拟合同谈判场景。但2026年的首轮第8顺位最终会花落谁家,取决于人类对不确定性的判断,而非算法对概率的计算。

至于那台给出"再来一个班克斯"建议的笔记本?它大概会被关掉,或者用来点外卖。毕竟,在需要为决策负责的时刻,没人愿意把职业生涯押在一个会重复选秀的"智能"系统上。

除非,圣徒队真的找到了克隆技术——那样的话,AI的荒谬建议反而成了先知。可惜NFL的规则手册里,暂时还没有"同一个人选两次"的条款。