AI五下，不如百度一下

超前实验室

2026-05-09 10:30 ·山东 ·优质互联网领域创作者

作者｜西西弗柿

编辑｜无心插柳柳橙汁

你们知道演员刘美含嘛，就是当年《巴啦啦小魔仙》里演黑魔仙严莉莉的那个。

因为她确实太漂亮了，很多人三观跟着五官走，还衍生出一系列“可恶的美琪美雪”之类的梗。

最近，我刷到了她的一个日常分享视频，刘美含在给一部古装剧配音，台词里有个词，叫「铸币坊」，她觉得这个「坊」字念什么有点拿不准。

正常流程，问问AI就好。不查不要紧，一查彻底把她整懵了。

她先开百度AI，fáng，二声。

再开DeepSeek，fāng，一声。

然后打开其他两个AI，也都是一声。

最后大家都没辙了，她经纪人用新华词典查了一遍，才终于确认，正确读音就是fáng，二声。

百度笑到了最后。

随橙想呢，AI信口雌黄的当下，才知道“百度一下”老辈子的含金量。

年少不知百度好，错把AI当成宝，过去，是我对度娘说话声音太重了。

一场实验

让AI可信度的差距无所遁形

无独有偶，也是最近，果壳网发了一篇调研文章，题目叫《左手幻觉，右手投毒，普通人凭什么相信AI？》

TA们做了一件事，找来8家主流AI产品，出了2000道测试题，做双盲对比测试，测信源对准确度的影响。

核心发现是，当AI接入百度百科作为参考信源之后，综合准确度平均提升了38%以上，关键事实偏离率从26.4%骤降到4.1%以内，专家认可度高达91.5%。

你想想这个数字，26.4%是什么概念，意思是在没有锚定可信信源的情况下，大概四道题里就有一道的关键事实是偏的，要不含糊其辞，要不是信息过时，要不就是直接编的。

然后，接入百度百科之后，降到4.1%。

我看到这个结果的时候，脑子里第一反应是，这无意间回答了一个根本性的问题，AI的答案质量，到底取决于什么？

答案是，取决于它在生成之前，用了什么信源。

果壳的双盲测试还发现了一些具体的案例，挺有代表性的。

涵盖的场景包括医疗，药物相互作用，华法林是怎么跟别的药物相互作用的，这是高决策风险场景，答案不对可能真的出事。

包括航天，阿尔忒弥斯2号绕月轨道的具体数据，这是对时效性要求极高的信息，训练截止日期之后发生的事，模型如果只凭记忆回答，大概率是空白或者错误。

包括时政，张雪摩托车夺冠，这是一条很具体的新闻，模型知不知道、知道得准不准，很见分晓。

这几个类型加在一起，基本上把AI最容易出问题的场景覆盖得差不多了，时效问题、专业知识问题、具体事实核查问题，都有。

接入百度百科之后，这几类场景下的表现，用测评报告里的说法，是“回答准确性与全面性大幅提升”。

那么，百度到底给AI吃了什么，让TA准确率直线up？底层架构是什么？凭什么同样是训AI，百度的答案比别人可信？

百度揭开了谜底

正好，最近百度在北京开了创作者大会，AI权威性，恰恰是这场大会的核心议题之一。

创作者大会上，百度搜索产品负责人做了一个演讲，把整个技术架构摆出来讲了一遍。

大部分对话式AI的工作逻辑是，你问一个问题，它调用大语言模型，模型根据训练的时候学到的内容，生成一个回答。

问题就出在这里，模型训练是有截止时间的，训练数据本身也不一定都是对的，更别说GEO这种专门给AI下毒的黑产了，315晚会刚曝光过，几十块钱写几篇软文，几天之内就能让某个虚假信息成为AI的标准答案，整条黑灰产业链，已经相当成熟了。

所以如果模型是直接从脑子里回忆出答案，那这个答案里有多少水分，你真的不知道。

百度的做法是，不让模型直接回忆。

在AI API基础接口之上，叠了两层Agent。

第一层叫需求规划Agent，先把你的问题拆解成更细的子需求，然后去抓多维度的权威信息，不是问一个问题就直接打包成答案，而是先把问题掰开揉碎，搞清楚你到底想问什么、需要哪几个维度的信息。

第二层叫组织生成Agent，对不同信源进行筛选、校验、总结，确认之后，再交付一个「完成式」答案。

什么叫「完成式」答案？就是不是草稿，是最终版。不是模型直接从脑子里输出，而是先把素材都核对过一遍，再组织生成。

这个区别，可能乍一看不那么直觉，但想一想就明白了。就像你让一个助理给你写报告，一种做法是助理直接凭自己的记忆写，另一种是助理先去查阅最新的权威资料，核对之后再写。哪个更靠谱，不用说。

这是架构层的逻辑，但只有这一层还不够。

在这套架构上面，百度还叠了三道过滤闸门。

第一道，来源准入。不是所有信息源都能进候选池，只有权威专业领域、时效性强的信源，才有资格被参考。自媒体、UGC内容，先审后发，机审加人工双重把关，不是直接入库的。

第二道，多信源交叉验证。同一个结论，必须有多个可信来源同时支撑才会被采用。一个来源说的算不了数，得好几个来源指向同一个结论，才行。

第三道，秒级巡检兜底。有一套内部自动巡检系统在实时监测，一旦内容有偏差，立刻人工介入，重新生产。

我自己看这三道闸门的时候，觉得第三道是最让人有安全感的那个，因为它回答的是另一个问题。

前两道回答的是「怎么保证答案一开始是对的」，第三道回答的是「万一出了错，有没有人来管」。

大多数对话式AI，你现在去问，它大概率是没有这个兜底的。出了错就出了错，等着下一轮训练或者人工反馈，慢慢修。

但百度这边是秒级响应，一旦发现偏差，立刻人工介入。

这是一套大多数纯生成式AI不具备的平台级治理能力。

说到底，AI信任问题，既是架构问题，也是治理问题，二者缺一不可。

知识的地基

是怎么打起来的

那回到更源头的地方，好的答案，原材料从哪来？

这就必须说到百度百科了。

很多人对百度百科的印象可能还停留在「哦那个大家都能编辑的百科」，但现在的百度百科，其实在做一件非常底层但非常重要的事，为AI时代的知识可信度打地基。

来看几个数字。

词条总量突破3000万，覆盖5种语言，包括英、法、日、俄、西班牙语。

累计贡献用户超810万，但UGC内容不是直接入库的，先审后发，机审和人工审核双重把关。

热点内容，分钟级响应，每秒钟会诞生一个新版本词条。

更重要的是它的权威性建设，有一个叫「繁星计划」的东西，联合国科大、中科院、北大等头部机构，汇集了超过10万名专业专家，共建了超过100万条专业词条。自然科学垂类，专业词条覆盖率100%，超过20万条科学词条经过严苛审定。

然后还有一个人机协同的模式，百度百科跟北大公共卫生学院有合作，AI负责出初稿，然后交给硕博老师审核认证，单条词条的创作效率提升了500%。

机器负责快，知识的最后一道闸门，捏在人手里。

这句话是百度创作者大会演讲里说的，我觉得是整场大会里信息密度最高的一句话。

它其实说的是一种选择，一种姿态。在大家都在比谁的AI生成速度更快、谁的参数规模更大、谁的幻觉更少的时候，百度在说，最关键的那道门，我们让人来把守。

正因如此，百度搜索Skill成了全球下载量第一的搜索引擎官方技能插件。信息权威性这件事上，市场反映得很直白，大多数人心里是有杆秤的，就算没专门做过测评，用多了，感觉出来了。

顺着上面的再说一个，百度创作者大会上还有一个细节，我觉得挺有意思的。

百度搜索最近上线了交互式组件，就是打开某些搜索结果页，你可以直接上手操作。可以拖动太阳系模型，看行星之间的真实距离，不是图片，是可以操作的3D模型，拖一下，那个尺度感是完全不同的。

可以顺着黄河的地图点下去，一个城市一个城市地看它流经的地方。

可以把一个分子结构拆开，看内部构成，不是图示，是可以转动、可以分解的。

可以亲手试试小孔成像的物理原理，调节小孔的大小，看成像的变化。

这个我觉得有趣的地方在于，它改变的不是信息本身，而是接收信息的方式。

从前搜索是被动的，你拿到一份材料，你读完，你可能理解了，可能没理解，材料本身不知道你理解了没有。

交互式的搜索，是你去做这件事，而不是看这件事。

小孔成像，如果你只是读一遍文字，可能五分钟后就忘了。如果你自己动手调一遍，感受过那个成像变化，这个知识会跟你待更久。

给你准信儿，还要让你真正懂它。

这两件事，都挺难的。

很多年前，艾略特在诗剧《岩石》中发出震耳发聩的“灵魂三问”:

我们迷失于生活中，生命在哪里? 我们迷失于信息中，知识在哪里? 我们迷失于知识中，智慧在哪里?

诚如所言，AI时代，信息的获取变快了，但信息的可信度反而变成了一个需要重新建立的问题。大家获得了更多的答案，却不得不同时应付更多的哪个答案是对的。

这个焦虑的根源，果壳的文章说得很准，AI幻觉是架构问题，GEO投毒是治理问题，二者叠加，构成了一个系统性的可信度危机。

架构问题需要架构层的解法，治理问题需要治理层的解法，你不能指望靠某一个单点突破，把这两个问题都解决。

百度这次创作者大会展示的，是一套同时在两个层面都有解法的体系，双层Agent加三道过滤，是架构层的；秒级巡检加人工介入，是治理层的；繁星计划加人机协同，是长期的知识生产质量保障。

这不是某一个技术亮点，而是一个系统。

你如果只做架构层，答案快，但出了错没人管。

你如果只做治理层，知道错了，但信源本身就不稳。

二者缺一不可。我理解的AI时代的信任，不是“这个AI说的肯定是对的”，而是“这个AI说的有迹可查、有人兜底、有机制保障”。

说得清、查得到、有人管。这才是这个时代，一个AI产品能给用户的真正确定性。

知识的最后一道闸门，捏在人手里。

这句话的含金量，仍在上升啊。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴