Google AI每天撒百万次谎：10%错误率背后|微软|搜索引擎|知名企业|维基|谷歌|错误率

你每天用Google搜东西，顶部那个AI总结框已经悄悄替换了传统搜索结果。它叫AI Overviews，2024年上线， powered by Gemini。纽约时报最近拉了个数据：这个框的回答，10%是错的。

不是偶尔手滑，是系统性翻车。按Google的搜索量级，这意味着每分钟有数十万条错误信息被当成"权威答案"推给用户。更讽刺的是，这个10%的"好成绩"还是升级后的结果——去年Gemini 2.5时代，错误率高达15%。

测试方法：用AI测AI，SimpleQA是什么来头

这次测试由AI初创公司Oumi执行，用的是OpenAI 2024年发布的SimpleQA基准。简单说，这是一份4000多道题的考卷，每道题都有可验证的标准答案，专门用来拷问大模型的"事实性"。

Oumi去年先用Gemini 2.5跑了一遍，准确率85%。今年Gemini 3更新后重测，爬到了91%。数字看着涨了，但反过来看：每10个用户里就有1个拿到的是AI瞎编的答案。按Google日均处理数十亿次搜索的规模，这个"小比例"乘以天文数字，后果就是每天数千万条错误信息在流通。

Google发言人Ned Adriance直接怼了回去。他说SimpleQA本身就有错误，Google内部更信任"SimpleQA Verified"——一个题目更少、审核更严的版本。言下之意：你们的考题有问题，不能算。

翻车现场：AI怎么把维基百科都抄错

纽约时报在报告里晒了几个典型错误。问Bob Marley故居哪天变成博物馆的，AI Overviews引了三条来源，前两条根本没提日期，第三条是维基百科——而维基百科上赫然写着两个矛盾的年份。AI"果断"选了错的那个。

另一个例子更荒诞。问马友友（Yo Yo Ma）什么时候入选"古典音乐名人堂"的，AI Overviews一边引用了该机构的官网（上面明明写着入选年份），一边结论写"不存在古典音乐名人堂这个东西"。

这种错误模式很典型：AI不是"不知道"，是"知道但理解错了"，或者"看到了但选择无视"。它的核心问题是无法区分信息来源的质量，也处理不了同一信源内部的矛盾。人类看到维基百科上两个年份会愣一下、再查证；AI直接抓一个顺眼的完事。

更麻烦的是，AI Overviews的呈现方式让用户很难意识到自己在看AI生成内容。它长得太像Google传统的"精选摘要"了——那个用了十几年、从权威网页摘录的蓝色框。现在同样的位置，同样的权威感，底层却换成了概率模型在吐字。

91%准确率：AI行业的"及格线幻觉"

91%听起来不错？放到关键场景里试试。医学搜索、法律咨询、新闻核实——这些场景里10%的错误率意味着每10个人就有1个被误导。而Google的商业模式决定了它必须覆盖所有场景，不可能给"高风险查询"单独关AI。

Oumi的测试设计其实偏向保守。SimpleQA的4000道题覆盖的是"有明确事实答案"的问题，比如历史日期、科学常数、人物生平。这种结构化知识正是大模型最擅长的领域。换成开放式问题、观点类查询、或者需要实时信息的场景，错误率只会更高。

Google的反驳也有意思。他们不否认测试结果，而是质疑测试标准。这种"你尺子不准"的辩护策略，恰恰说明91%这个数字他们认——只是觉得这个"91%"比实际体验要好看。

一个细节：Google内部用的SimpleQA Verified题目更少，审核更严。这有点像考试前老师划范围，范围小了，分数自然上去。但用户每天面对的可是开放互联网，不是审核过的题库。

搜索产品的"信任折旧"：用户还在用，但不再信了

AI Overviews的推出节奏很Google——先上线，再迭代，用户反馈当测试数据。2024年刚发布时闹过更大笑话：建议用户用胶水粘披萨、每天吃石头补充矿物质。当时Google的修复方式是"加限制词"，让AI避开明显荒谬的答案。

但这次的10%错误率暴露的是结构性问题。胶水披萨是"一眼假"，Bob Marley故居年份是"认真错"——后者更难识别，危害也更大。用户看到AI引用了维基百科，本能会觉得"有来源，靠谱"，根本不会去核对原文。

这种"伪权威感"正在消耗Google最核心的资产：搜索信任。过去二十年，Google的商业模式建立在"用户相信它能找到最相关的网页"之上。现在它跳过网页直接给答案，但答案质量又达不到医疗、法律、金融等场景的要求。

一个可能的趋势：专业用户正在回流传统搜索。程序员搜技术文档、记者核实信息源、医生查临床指南——这些人开始习惯性地跳过AI Overviews，直接点下面的蓝色链接。对普通用户来说，AI总结依然方便；但对信息质量敏感的人群，Google正在变成"需要多走一步"的工具。

竞争格局：OpenAI的测试，Google的麻烦

SimpleQA是OpenAI发布的基准测试。用竞争对手的尺子量自己，Google本来就有气。但更有意思的是行业动态：OpenAI正在推SearchGPT，Perplexity靠"带来源的AI搜索"拿了高估值，微软Copilot深度整合Bing——所有人都在抢"AI+搜索"这个入口。

Google的困境在于规模。它每天处理的查询量是OpenAI全平台流量的几十倍，任何小比例的错误都会变成海量事故。小公司可以靠人工审核、限定领域来控制质量；Google的AI Overviews必须覆盖一切，从"爱因斯坦生日"到"附近哪家火锅好吃"。

91%的准确率在小公司可能是卖点，在Google是 liability（负债）。监管机构和反垄断调查者都在盯着：当一个占据90%搜索市场份额的平台，系统性地向10%的用户推送错误信息，这算不算一种"市场失灵"？

欧盟的《数字服务法》已经要求平台对算法推荐内容负责。美国的诉讼虽然进展缓慢，但司法部对Google搜索垄断的拆解意图很明确。AI Overviews的错误率数据，很可能成为下一轮监管听证会的弹药。

技术层面，Google并非没有解法。RAG（检索增强生成，Retrieval-Augmented Generation）架构理论上能让AI先查权威数据库再回答，但工程实现上，"权威数据库"的维护成本、实时性、覆盖度都是难题。维基百科已经算是结构最好的开放知识库了，AI照样能抄错。

更激进的方案是"人机回环"——高置信度答案AI直接给，低置信度答案转人工或标注不确定性。但这会拖慢响应速度，破坏"秒回"的产品体验。Google的产品经理正在两个都不完美的选项里做权衡。

用户端的变化更微妙。一部分人学会了"看来源"——AI Overviews右下角有个小箭头，点开能看到引用的网页。但点击这个动作本身，就已经抵消了AI总结"省时间"的核心价值。另一部分人干脆放弃Google，垂直场景用专门工具：编程问Claude、学术查Semantic Scholar、新闻看原始媒体。

搜索行为的碎片化，可能是Google最不愿意看到的趋势。它花了二十年把"搜索"变成一个动词，现在用户开始说"我去Perplexity一下"或者"问下ChatGPT"。

回到那个10%的数字。Oumi的测试是在Gemini 3更新后做的，Google的模型还在迭代。下一代版本可能把准确率推到95%，但错误率的下降曲线会越来越平缓——从90%到95%比从50%到90%难得多。而哪怕只有5%的错误，乘以Google的搜索量级，依然是每天数千万次的误导。

更根本的问题是：我们是否需要AI来"回答"所有问题？有些查询的本质就是探索性的、观点性的、或者根本没有标准答案。把这类问题硬塞进"正确/错误"的二元框架，本身可能就是产品设计的误区。

Google的选择是继续推AI Overviews，同时用"来源标注""反馈按钮"这些补丁来缓解问题。但补丁不能改变架构——一个以"生成"为核心、以"概率"为底层机制的模型，注定会在某些边界 case 上 confidently wrong（自信地犯错）。

纽约时报的报道出来后，社交媒体上有个高赞评论：「我妈永远不会点开那个来源箭头，她只会把AI答案截图发家族群。」这大概是Google产品经理最噩梦的场景——技术债务最终以社会成本的形式爆发。

当91%的准确率意味着每天数千万次错误，搜索引擎的"智能升级"是否正在制造一个更大规模的谣言基础设施？下一个被AI Overview误导的，会不会就是你家里那位"从不点开来源"的人？