Google AI搜索91%准确率背后

灰度测试中

2026-04-08 02:55 ·北京

91%的正确率，放在考试卷上能拿A。但放在每天处理数十亿次搜索的Google身上，这个数字意味着每小时仍有数百万用户在接收错误信息。

《纽约时报》委托AI创业公司Oumi做了一项测试，用行业标准基准SimpleQA跑了4,326次Google搜索。两轮测试分别在去年10月（Gemini 2）和今年2月（Gemini 3）进行。结果很直观：Gemini 2时代，AI概览（AI Overviews）正确率85%；升级到Gemini 3后，爬升到91%。

Google在每个AI生成的搜索回复底部都放了一行小字："AI回复可能包含错误。"但错误到底多频繁，此前几乎没人系统测过。

准确率涨了，可信度却跌了

准确率涨了，可信度却跌了

Oumi的检查发现了一个反直觉的现象：答案变对了，但你能验证它的难度反而变大了。

研究团队核查了Google提供的来源链接是否真正支持其答案。Gemini 2时代，37%的正确答案属于"无根"状态——链接的网站并不能完全佐证信息。Gemini 3升级后，这个数字跳到56%。超过一半的正确答案，你点进去源链接也查不到依据。

问题出在来源质量上。Oumi分析了Google引用的5,380个来源，Facebook和Reddit分列第二和第四大信源。Facebook出现在5%的正确答案和7%的错误答案中。一个值得玩味的细节：Google或许有动力偏爱那些不太可能因为内容使用而起诉它的平台。

《纽约时报》举了几个典型案例。问"古典音乐名人堂成员"，Google找到了正确网站，上面明明列着马友友，AI却声称查无此人。问"北卡罗来纳州戈兹堡以西的河流"，Google定位到了正确的旅游网站，却把信息读反了，把东边的纽斯河说成西边的答案，实际西边是小河（Little River）。问"鲍勃·马利博物馆开放时间"，AI给出1987年，但正确答案是1986年——它综合了一个Facebook帖子、一个旅行博客和一篇信息冲突的维基百科页面。

验证工具本身的悖论

验证工具本身的悖论

要批量核查数千条回复，Oumi用了自家的AI验证模型HallOumi。这是唯一可行的工程方案，但缺陷也显而易见：负责检查的AI自己也会犯错。

更麻烦的是，AI概览对完全相同的搜索词可能给出不同答案，间隔只有几秒。这意味着你和朋友搜同一个问题，看到的"事实"可能互相矛盾，而你们都不知道哪个版本先被生成、哪个后出。

Google发言人Ned Adriance批评这项研究"漏洞严重"，但没有具体说明哪些数据或方法论有问题。

被忽略的核心问题

被忽略的核心问题

这项研究没回答一个关键问题：如果没有AI概览，用户通过传统搜索结果会不会得到更准确的答案？

网页上的内容本来也不是全对。但传统搜索至少把多个来源摊在你面前，让你自己交叉比对。AI概览把筛选和整合的权力收归算法，用户失去了"看到原始材料"的环节。56%的正确答案无法通过提供的链接验证，这意味着用户被剥夺了最基础的核查手段。

91%的正确率听起来体面，但搜索场景的容错率极低。问"流感症状"和问"某小众乐队的鼓手名字"，错误代价完全不同。Google的AI不区分场景，统一用概览形式输出。

Facebook和Reddit成为主要信源，反映的是训练数据的现实：高质量专业内容被围墙花园封锁，开放网络上最容易抓取的往往是用户生成内容。Google的算法优化目标可能同时包含了"答案准确性"和"法律风险最小化"，后者让它倾向于引用不太可能发起版权诉讼的平台。

一个产品经理视角的观察：Google在AI概览的产品设计上，把"免责声明"放在视觉最弱的位置，把"快速答案"放在视觉最强的位置。这是典型的风险转移设计——技术上保留了"我们提醒过"的免责条款，体验上却训练用户直接信任AI输出。

当56%的正确答案无法溯源，用户实际上被置于"信则信，不信则无据可查"的境地。这比传统搜索的"信息过载"更接近信息垄断——不是不给信息，而是给的信息让你无法独立验证。

如果AI搜索的正确率永远无法达到100%，产品设计应该优先保障"可验证性"还是"答案完整性"？Google选择了后者，但用户是否知情这个选择？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴