你每天用Google搜东西,顶部那个AI总结框已经悄悄替换了传统搜索结果。它叫AI Overviews,2024年上线, powered by Gemini。纽约时报最近拉了个数据:这个框的回答,10%是错的。

不是偶尔手滑,是系统性翻车。按Google的搜索量级,这意味着每分钟有数十万条错误信息被当成"权威答案"推给用户。更讽刺的是,这个10%的"好成绩"还是升级后的结果——去年Gemini 2.5时代,错误率高达15%。

测试方法:用AI测AI,SimpleQA是什么来头

测试方法:用AI测AI,SimpleQA是什么来头

这次测试由AI初创公司Oumi执行,用的是OpenAI 2024年发布的SimpleQA基准。简单说,这是一份4000多道题的考卷,每道题都有可验证的标准答案,专门用来拷问大模型的"事实性"。

Oumi去年先用Gemini 2.5跑了一遍,准确率85%。今年Gemini 3更新后重测,爬到了91%。数字看着涨了,但反过来看:每10个用户里就有1个拿到的是AI瞎编的答案。按Google日均处理数十亿次搜索的规模,这个"小比例"乘以天文数字,后果就是每天数千万条错误信息在流通。

Google发言人Ned Adriance直接怼了回去。他说SimpleQA本身就有错误,Google内部更信任"SimpleQA Verified"——一个题目更少、审核更严的版本。言下之意:你们的考题有问题,不能算。

翻车现场:AI怎么把维基百科都抄错

翻车现场:AI怎么把维基百科都抄错

纽约时报在报告里晒了几个典型错误。问Bob Marley故居哪天变成博物馆的,AI Overviews引了三条来源,前两条根本没提日期,第三条是维基百科——而维基百科上赫然写着两个矛盾的年份。AI"果断"选了错的那个。

另一个例子更荒诞。问马友友(Yo Yo Ma)什么时候入选"古典音乐名人堂"的,AI Overviews一边引用了该机构的官网(上面明明写着入选年份),一边结论写"不存在古典音乐名人堂这个东西"。

这种错误模式很典型:AI不是"不知道",是"知道但理解错了",或者"看到了但选择无视"。它的核心问题是无法区分信息来源的质量,也处理不了同一信源内部的矛盾。人类看到维基百科上两个年份会愣一下、再查证;AI直接抓一个顺眼的完事。

更麻烦的是,AI Overviews的呈现方式让用户很难意识到自己在看AI生成内容。它长得太像Google传统的"精选摘要"了——那个用了十几年、从权威网页摘录的蓝色框。现在同样的位置,同样的权威感,底层却换成了概率模型在吐字。

91%准确率:AI行业的"及格线幻觉"

91%准确率:AI行业的"及格线幻觉"

91%听起来不错?放到关键场景里试试。医学搜索、法律咨询、新闻核实——这些场景里10%的错误率意味着每10个人就有1个被误导。而Google的商业模式决定了它必须覆盖所有场景,不可能给"高风险查询"单独关AI。

Oumi的测试设计其实偏向保守。SimpleQA的4000道题覆盖的是"有明确事实答案"的问题,比如历史日期、科学常数、人物生平。这种结构化知识正是大模型最擅长的领域。换成开放式问题、观点类查询、或者需要实时信息的场景,错误率只会更高。

Google的反驳也有意思。他们不否认测试结果,而是质疑测试标准。这种"你尺子不准"的辩护策略,恰恰说明91%这个数字他们认——只是觉得这个"91%"比实际体验要好看。

一个细节:Google内部用的SimpleQA Verified题目更少,审核更严。这有点像考试前老师划范围,范围小了,分数自然上去。但用户每天面对的可是开放互联网,不是审核过的题库。

搜索产品的"信任折旧":用户还在用,但不再信了

搜索产品的"信任折旧":用户还在用,但不再信了

AI Overviews的推出节奏很Google——先上线,再迭代,用户反馈当测试数据。2024年刚发布时闹过更大笑话:建议用户用胶水粘披萨、每天吃石头补充矿物质。当时Google的修复方式是"加限制词",让AI避开明显荒谬的答案。

但这次的10%错误率暴露的是结构性问题。胶水披萨是"一眼假",Bob Marley故居年份是"认真错"——后者更难识别,危害也更大。用户看到AI引用了维基百科,本能会觉得"有来源,靠谱",根本不会去核对原文。

这种"伪权威感"正在消耗Google最核心的资产:搜索信任。过去二十年,Google的商业模式建立在"用户相信它能找到最相关的网页"之上。现在它跳过网页直接给答案,但答案质量又达不到医疗、法律、金融等场景的要求。

一个可能的趋势:专业用户正在回流传统搜索。程序员搜技术文档、记者核实信息源、医生查临床指南——这些人开始习惯性地跳过AI Overviews,直接点下面的蓝色链接。对普通用户来说,AI总结依然方便;但对信息质量敏感的人群,Google正在变成"需要多走一步"的工具。

竞争格局:OpenAI的测试,Google的麻烦

竞争格局:OpenAI的测试,Google的麻烦

SimpleQA是OpenAI发布的基准测试。用竞争对手的尺子量自己,Google本来就有气。但更有意思的是行业动态:OpenAI正在推SearchGPT,Perplexity靠"带来源的AI搜索"拿了高估值,微软Copilot深度整合Bing——所有人都在抢"AI+搜索"这个入口。

Google的困境在于规模。它每天处理的查询量是OpenAI全平台流量的几十倍,任何小比例的错误都会变成海量事故。小公司可以靠人工审核、限定领域来控制质量;Google的AI Overviews必须覆盖一切,从"爱因斯坦生日"到"附近哪家火锅好吃"。

91%的准确率在小公司可能是卖点,在Google是 liability(负债)。监管机构和反垄断调查者都在盯着:当一个占据90%搜索市场份额的平台,系统性地向10%的用户推送错误信息,这算不算一种"市场失灵"?

欧盟的《数字服务法》已经要求平台对算法推荐内容负责。美国的诉讼虽然进展缓慢,但司法部对Google搜索垄断的拆解意图很明确。AI Overviews的错误率数据,很可能成为下一轮监管听证会的弹药。

技术层面,Google并非没有解法。RAG(检索增强生成,Retrieval-Augmented Generation)架构理论上能让AI先查权威数据库再回答,但工程实现上,"权威数据库"的维护成本、实时性、覆盖度都是难题。维基百科已经算是结构最好的开放知识库了,AI照样能抄错。

更激进的方案是"人机回环"——高置信度答案AI直接给,低置信度答案转人工或标注不确定性。但这会拖慢响应速度,破坏"秒回"的产品体验。Google的产品经理正在两个都不完美的选项里做权衡。

用户端的变化更微妙。一部分人学会了"看来源"——AI Overviews右下角有个小箭头,点开能看到引用的网页。但点击这个动作本身,就已经抵消了AI总结"省时间"的核心价值。另一部分人干脆放弃Google,垂直场景用专门工具:编程问Claude、学术查Semantic Scholar、新闻看原始媒体。

搜索行为的碎片化,可能是Google最不愿意看到的趋势。它花了二十年把"搜索"变成一个动词,现在用户开始说"我去Perplexity一下"或者"问下ChatGPT"。

回到那个10%的数字。Oumi的测试是在Gemini 3更新后做的,Google的模型还在迭代。下一代版本可能把准确率推到95%,但错误率的下降曲线会越来越平缓——从90%到95%比从50%到90%难得多。而哪怕只有5%的错误,乘以Google的搜索量级,依然是每天数千万次的误导。

更根本的问题是:我们是否需要AI来"回答"所有问题?有些查询的本质就是探索性的、观点性的、或者根本没有标准答案。把这类问题硬塞进"正确/错误"的二元框架,本身可能就是产品设计的误区。

Google的选择是继续推AI Overviews,同时用"来源标注""反馈按钮"这些补丁来缓解问题。但补丁不能改变架构——一个以"生成"为核心、以"概率"为底层机制的模型,注定会在某些边界 case 上 confidently wrong(自信地犯错)。

纽约时报的报道出来后,社交媒体上有个高赞评论:「我妈永远不会点开那个来源箭头,她只会把AI答案截图发家族群。」这大概是Google产品经理最噩梦的场景——技术债务最终以社会成本的形式爆发。

当91%的准确率意味着每天数千万次错误,搜索引擎的"智能升级"是否正在制造一个更大规模的谣言基础设施?下一个被AI Overview误导的,会不会就是你家里那位"从不点开来源"的人?