打开网易新闻 查看精彩图片

91%的准确率听起来像优等生成绩单,直到你把它乘以5万亿。

这是Google每年处理的搜索查询量。AI初创公司Oumi受《纽约时报》委托做的测算显示,Google的AI概览(AI Overviews)功能每小时向用户推送数千万条错误信息,每分钟就有数十万条。这个数字的荒谬之处在于:人类历史上从未有过任何单一系统,能以如此效率批量生产谬误。

从85%到91%:进步还是遮羞布?

从85%到91%:进步还是遮羞布?

Oumi的测试分两轮进行。去年10月,他们测试了基于Gemini 2模型的AI概览,准确率85%。今年2月,Google切换到被大肆宣传的Gemini 3升级版本,准确率提升至91%。

两轮测试都使用SimpleQA基准——这是OpenAI设计的行业通用AI准确性测试工具,每次测试覆盖4,326个Google搜索查询。

91% vs 85%,看起来是进步。但换个角度:Google在明知旧模型每6条回答就错1条的情况下,已经把它推给了全球用户。而新模型每11条仍错1条,只是错得稍微体面些。

「这项研究有严重漏洞,」Google发言人Ned Adriance回应《纽约时报》时称,「它不能反映用户在Google上的真实搜索行为。」

但Google自家的内部数据同样难堪。内部分析显示,Gemini 3模型本身产生错误信息的概率高达28%。Google的辩解是,AI概览会结合搜索结果再作答,因此实际准确率更高——至于高多少,他们没有给出具体数字。

认知投降:用户正在放弃核实

认知投降:用户正在放弃核实

比错误信息更麻烦的是用户反应。研究发现,仅8%的用户会复核AI给出的答案。另一项实验显示,即使AI给出错误答案,用户仍有近80%的概率照单全收。研究者把这种现象称为「认知投降」(cognitive surrender)。

大语言模型的权威语气是关键帮凶。它们无法直接找到答案时,会自信地把编造内容包装成事实。加上Google AI概览的便利性——直接置顶在搜索结果上方,用户连点击网页的力气都省了。

想象一个场景:你搜索某种药物的副作用,AI概览自信地列出一条不存在的禁忌症。你信了,因为Google把它放在最显眼的位置,语气笃定得像医学教科书。

这种信任错位正在规模化发生。不是几千人、几万人,是每小时数千万次。

5万亿次搜索的代价

5万亿次搜索的代价

Google的商业模式建立在信息中介角色上。它从网页抓取内容,用算法排序,赚取广告费。AI概览把这个链条压缩成一步:用户提问,AI直接给答案,中间环节全部省略。

省略的不仅是网页点击,还有信息溯源的可能性。传统搜索结果至少标注来源,用户能判断是《自然》杂志还是某个论坛帖子。AI概览把来源藏进折叠菜单,多数用户不会展开。

Oumi的测试方法很直接:用SimpleQA的已知问题库跑Google搜索,对比AI概览输出与标准答案。这种方法的局限在于,真实用户的搜索行为可能更复杂、更长尾。但Google拒绝提供自家准确率数据,外界只能用这种方式估算。

一个反讽的事实:SimpleQA本身就是OpenAI设计的工具。现在它被用来测试竞争对手的产品,而OpenAI自己的ChatGPT搜索功能同样面临准确性质疑。整个行业的基准测试,正在变成互相揭短的武器。

谁来为错误答案负责?

谁来为错误答案负责?

Google的回应策略很熟悉:质疑方法论,强调改进趋势,回避具体承诺。Ned Adriance没有解释「严重漏洞」具体指什么,也没有公布Google认为「真实」的准确率数字。

这种模糊性本身就是问题。当AI概览给出错误医疗建议、错误法律信息、错误历史事实时,受损的用户找不到追责路径。Google的服务条款早就把责任推得一干二净,而AI生成的内容又难以归类为传统意义上的诽谤或欺诈。

更深层的问题在于信息生态的结构性变化。网页出版商依赖Google流量生存,AI概览却让用户无需访问原网站。内容生产者失去动力,信息源头可能逐渐枯竭——而AI能总结的东西,将越来越少、越来越旧、越来越错。

这是一个自我强化的循环:AI需要新鲜准确的内容来训练,但它的存在正在摧毁内容生产的经济基础。

91%的幻觉

91%的幻觉

回到那个91%的数字。在AI行业,这算是不错的成绩。ChatGPT、Claude、Gemini在各类基准测试中互相超越,准确率从80%爬到90%,再爬到95%。

但搜索不是聊天机器人。用户问ChatGPT「推荐周末看的电影」,得到错误答案,损失两小时。用户问Google「这种症状要不要去医院」,得到错误答案,损失的可能更多。

Google把AI概览放在搜索结果的绝对C位,等于用品牌信誉为这些答案背书。用户不把它当「AI生成的仅供参考的内容」,而是当「Google告诉我的事实」。

这种认知落差,是5万亿次搜索里真正的风险所在。

Google说模型在改进,从85%到91%就是证明。但5万亿的基数不变,9%的错误率意味着每年4500亿次错误输出。即使降到5%、3%、1%,乘以这个基数都是天文数字。

问题从来不是AI会不会犯错,而是当错误以工业规模发生时,谁来标记、谁来纠正、谁来承担后果。目前的答案是:没有人。用户「认知投降」,平台模糊其辞,监管尚未到位。

如果Google的AI概览明天给你的搜索返回一个错误答案,你会是那个8%的核实者,还是92%的接受者?