打开网易新闻 查看精彩图片

91%的正确率,放在考试卷上能拿A。但放在每天处理数十亿次搜索的Google身上,这个数字意味着每小时仍有数百万用户在接收错误信息。

《纽约时报》委托AI创业公司Oumi做了一项测试,用行业标准基准SimpleQA跑了4,326次Google搜索。两轮测试分别在去年10月(Gemini 2)和今年2月(Gemini 3)进行。结果很直观:Gemini 2时代,AI概览(AI Overviews)正确率85%;升级到Gemini 3后,爬升到91%。

Google在每个AI生成的搜索回复底部都放了一行小字:"AI回复可能包含错误。"但错误到底多频繁,此前几乎没人系统测过。

准确率涨了,可信度却跌了

准确率涨了,可信度却跌了

Oumi的检查发现了一个反直觉的现象:答案变对了,但你能验证它的难度反而变大了。

研究团队核查了Google提供的来源链接是否真正支持其答案。Gemini 2时代,37%的正确答案属于"无根"状态——链接的网站并不能完全佐证信息。Gemini 3升级后,这个数字跳到56%。超过一半的正确答案,你点进去源链接也查不到依据。

问题出在来源质量上。Oumi分析了Google引用的5,380个来源,Facebook和Reddit分列第二和第四大信源。Facebook出现在5%的正确答案和7%的错误答案中。一个值得玩味的细节:Google或许有动力偏爱那些不太可能因为内容使用而起诉它的平台。

《纽约时报》举了几个典型案例。问"古典音乐名人堂成员",Google找到了正确网站,上面明明列着马友友,AI却声称查无此人。问"北卡罗来纳州戈兹堡以西的河流",Google定位到了正确的旅游网站,却把信息读反了,把东边的纽斯河说成西边的答案,实际西边是小河(Little River)。问"鲍勃·马利博物馆开放时间",AI给出1987年,但正确答案是1986年——它综合了一个Facebook帖子、一个旅行博客和一篇信息冲突的维基百科页面。

验证工具本身的悖论

验证工具本身的悖论

要批量核查数千条回复,Oumi用了自家的AI验证模型HallOumi。这是唯一可行的工程方案,但缺陷也显而易见:负责检查的AI自己也会犯错。

更麻烦的是,AI概览对完全相同的搜索词可能给出不同答案,间隔只有几秒。这意味着你和朋友搜同一个问题,看到的"事实"可能互相矛盾,而你们都不知道哪个版本先被生成、哪个后出。

Google发言人Ned Adriance批评这项研究"漏洞严重",但没有具体说明哪些数据或方法论有问题。

被忽略的核心问题

被忽略的核心问题

这项研究没回答一个关键问题:如果没有AI概览,用户通过传统搜索结果会不会得到更准确的答案?

网页上的内容本来也不是全对。但传统搜索至少把多个来源摊在你面前,让你自己交叉比对。AI概览把筛选和整合的权力收归算法,用户失去了"看到原始材料"的环节。56%的正确答案无法通过提供的链接验证,这意味着用户被剥夺了最基础的核查手段。

91%的正确率听起来体面,但搜索场景的容错率极低。问"流感症状"和问"某小众乐队的鼓手名字",错误代价完全不同。Google的AI不区分场景,统一用概览形式输出。

Facebook和Reddit成为主要信源,反映的是训练数据的现实:高质量专业内容被围墙花园封锁,开放网络上最容易抓取的往往是用户生成内容。Google的算法优化目标可能同时包含了"答案准确性"和"法律风险最小化",后者让它倾向于引用不太可能发起版权诉讼的平台。

一个产品经理视角的观察:Google在AI概览的产品设计上,把"免责声明"放在视觉最弱的位置,把"快速答案"放在视觉最强的位置。这是典型的风险转移设计——技术上保留了"我们提醒过"的免责条款,体验上却训练用户直接信任AI输出。

当56%的正确答案无法溯源,用户实际上被置于"信则信,不信则无据可查"的境地。这比传统搜索的"信息过载"更接近信息垄断——不是不给信息,而是给的信息让你无法独立验证。

如果AI搜索的正确率永远无法达到100%,产品设计应该优先保障"可验证性"还是"答案完整性"?Google选择了后者,但用户是否知情这个选择?