Google AI概览91%准确率背后|概览|电子表格|知名企业|算法|谷歌|错误率

91%的准确率听起来像优等生成绩单，直到你把它乘以5万亿。

这是Google每年处理的搜索查询量。AI初创公司Oumi受《纽约时报》委托做的测算显示，Google的AI概览（AI Overviews）功能每小时向用户推送数千万条错误信息，每分钟就有数十万条。这个数字的荒谬之处在于：人类历史上从未有过任何单一系统，能以如此效率批量生产谬误。

从85%到91%：进步还是遮羞布？

Oumi的测试分两轮进行。去年10月，他们测试了基于Gemini 2模型的AI概览，准确率85%。今年2月，Google切换到被大肆宣传的Gemini 3升级版本，准确率提升至91%。

两轮测试都使用SimpleQA基准——这是OpenAI设计的行业通用AI准确性测试工具，每次测试覆盖4,326个Google搜索查询。

91% vs 85%，看起来是进步。但换个角度：Google在明知旧模型每6条回答就错1条的情况下，已经把它推给了全球用户。而新模型每11条仍错1条，只是错得稍微体面些。

「这项研究有严重漏洞，」Google发言人Ned Adriance回应《纽约时报》时称，「它不能反映用户在Google上的真实搜索行为。」

但Google自家的内部数据同样难堪。内部分析显示，Gemini 3模型本身产生错误信息的概率高达28%。Google的辩解是，AI概览会结合搜索结果再作答，因此实际准确率更高——至于高多少，他们没有给出具体数字。

认知投降：用户正在放弃核实

比错误信息更麻烦的是用户反应。研究发现，仅8%的用户会复核AI给出的答案。另一项实验显示，即使AI给出错误答案，用户仍有近80%的概率照单全收。研究者把这种现象称为「认知投降」（cognitive surrender）。

大语言模型的权威语气是关键帮凶。它们无法直接找到答案时，会自信地把编造内容包装成事实。加上Google AI概览的便利性——直接置顶在搜索结果上方，用户连点击网页的力气都省了。

想象一个场景：你搜索某种药物的副作用，AI概览自信地列出一条不存在的禁忌症。你信了，因为Google把它放在最显眼的位置，语气笃定得像医学教科书。

这种信任错位正在规模化发生。不是几千人、几万人，是每小时数千万次。

5万亿次搜索的代价

Google的商业模式建立在信息中介角色上。它从网页抓取内容，用算法排序，赚取广告费。AI概览把这个链条压缩成一步：用户提问，AI直接给答案，中间环节全部省略。

省略的不仅是网页点击，还有信息溯源的可能性。传统搜索结果至少标注来源，用户能判断是《自然》杂志还是某个论坛帖子。AI概览把来源藏进折叠菜单，多数用户不会展开。

Oumi的测试方法很直接：用SimpleQA的已知问题库跑Google搜索，对比AI概览输出与标准答案。这种方法的局限在于，真实用户的搜索行为可能更复杂、更长尾。但Google拒绝提供自家准确率数据，外界只能用这种方式估算。

一个反讽的事实：SimpleQA本身就是OpenAI设计的工具。现在它被用来测试竞争对手的产品，而OpenAI自己的ChatGPT搜索功能同样面临准确性质疑。整个行业的基准测试，正在变成互相揭短的武器。

谁来为错误答案负责？

Google的回应策略很熟悉：质疑方法论，强调改进趋势，回避具体承诺。Ned Adriance没有解释「严重漏洞」具体指什么，也没有公布Google认为「真实」的准确率数字。

这种模糊性本身就是问题。当AI概览给出错误医疗建议、错误法律信息、错误历史事实时，受损的用户找不到追责路径。Google的服务条款早就把责任推得一干二净，而AI生成的内容又难以归类为传统意义上的诽谤或欺诈。

更深层的问题在于信息生态的结构性变化。网页出版商依赖Google流量生存，AI概览却让用户无需访问原网站。内容生产者失去动力，信息源头可能逐渐枯竭——而AI能总结的东西，将越来越少、越来越旧、越来越错。

这是一个自我强化的循环：AI需要新鲜准确的内容来训练，但它的存在正在摧毁内容生产的经济基础。

91%的幻觉

回到那个91%的数字。在AI行业，这算是不错的成绩。ChatGPT、Claude、Gemini在各类基准测试中互相超越，准确率从80%爬到90%，再爬到95%。

但搜索不是聊天机器人。用户问ChatGPT「推荐周末看的电影」，得到错误答案，损失两小时。用户问Google「这种症状要不要去医院」，得到错误答案，损失的可能更多。

Google把AI概览放在搜索结果的绝对C位，等于用品牌信誉为这些答案背书。用户不把它当「AI生成的仅供参考的内容」，而是当「Google告诉我的事实」。

这种认知落差，是5万亿次搜索里真正的风险所在。

Google说模型在改进，从85%到91%就是证明。但5万亿的基数不变，9%的错误率意味着每年4500亿次错误输出。即使降到5%、3%、1%，乘以这个基数都是天文数字。

问题从来不是AI会不会犯错，而是当错误以工业规模发生时，谁来标记、谁来纠正、谁来承担后果。目前的答案是：没有人。用户「认知投降」，平台模糊其辞，监管尚未到位。

如果Google的AI概览明天给你的搜索返回一个错误答案，你会是那个8%的核实者，还是92%的接受者？

Google AI概览91%准确率背后

从85%到91%：进步还是遮羞布？

认知投降：用户正在放弃核实

5万亿次搜索的代价

谁来为错误答案负责？

91%的幻觉

热搜

热门跟贴

从85%到91%：进步还是遮羞布？

认知投降：用户正在放弃核实

5万亿次搜索的代价

谁来为错误答案负责？

91%的幻觉

热搜

热门跟贴

相关推荐

谷歌把这技术藏了8年，2026年突然摊牌了

谷歌AI Studio被开发者玩出花：3天搓出旅行翻译神器

谷歌前员工用AI配除草剂，3天后后院变了样

外网疯传这段采访，AI圈最不敢公开的真相被捅破了

数学研究证实-强大AI必现意外行为，单一控制是幻觉

AI行情正在扩散：CPU迎来重估窗口

如何让AI思考更有深度？6步技巧让你写书效率提高80%

AI预言正在成为现实：99%人将被淘汰，仅三类人能成功突围

Google发布Gemini 企业智能体平台，Vertex AI全面升级

谷歌用1个仪表盘，把6%成功率变成可谈判的数字

这台机器证明 90%的人都是错的

软件开发最后的一块儿阵地，被AI攻克了

272个提示词踩坑后，他把AI调试时间砍了80%

Anthropic内部数据曝光：1个文件让AI效率暴涨40%

AI再牛逼也白搭，没感情这玩意儿，就是废铁

现在的AI技术太强了，最后一个画面直接暴击了

谷歌亚马逊同时砸钱养竞争对手，AI时代最荒诞的商业逻辑正在成真

谷歌跪了？400亿砸向死敌！AI御三家终结，OpenAI孤立无援

今天起，DeepSeek V4成OpenClaw默认模型！

谷歌400亿美金投资Anthropic，算力成AI巨头资本游戏的砝码