作者|西西弗柿
编辑|无心插柳柳橙汁
你们知道演员刘美含嘛,就是当年《巴啦啦小魔仙》里演黑魔仙严莉莉的那个。
因为她确实太漂亮了,很多人三观跟着五官走,还衍生出一系列“可恶的美琪美雪”之类的梗。
最近,我刷到了她的一个日常分享视频,刘美含在给一部古装剧配音,台词里有个词,叫「铸币坊」,她觉得这个「坊」字念什么有点拿不准。
正常流程,问问AI就好。不查不要紧,一查彻底把她整懵了。
她先开百度AI,fáng,二声。
再开DeepSeek,fāng,一声。
然后打开其他两个AI,也都是一声。
最后大家都没辙了,她经纪人用新华词典查了一遍,才终于确认,正确读音就是fáng,二声。
百度笑到了最后。
随橙想呢,AI信口雌黄的当下,才知道“百度一下”老辈子的含金量。
年少不知百度好,错把AI当成宝,过去,是我对度娘说话声音太重了。
一场实验
让AI可信度的差距无所遁形
无独有偶,也是最近,果壳网发了一篇调研文章,题目叫《左手幻觉,右手投毒,普通人凭什么相信AI?》
TA们做了一件事,找来8家主流AI产品,出了2000道测试题,做双盲对比测试,测信源对准确度的影响。
核心发现是,当AI接入百度百科作为参考信源之后,综合准确度平均提升了38%以上,关键事实偏离率从26.4%骤降到4.1%以内,专家认可度高达91.5%。
你想想这个数字,26.4%是什么概念,意思是在没有锚定可信信源的情况下,大概四道题里就有一道的关键事实是偏的,要不含糊其辞,要不是信息过时,要不就是直接编的。
然后,接入百度百科之后,降到4.1%。
我看到这个结果的时候,脑子里第一反应是,这无意间回答了一个根本性的问题,AI的答案质量,到底取决于什么?
答案是,取决于它在生成之前,用了什么信源。
果壳的双盲测试还发现了一些具体的案例,挺有代表性的。
涵盖的场景包括医疗,药物相互作用,华法林是怎么跟别的药物相互作用的,这是高决策风险场景,答案不对可能真的出事。
包括航天,阿尔忒弥斯2号绕月轨道的具体数据,这是对时效性要求极高的信息,训练截止日期之后发生的事,模型如果只凭记忆回答,大概率是空白或者错误。
包括时政,张雪摩托车夺冠,这是一条很具体的新闻,模型知不知道、知道得准不准,很见分晓。
这几个类型加在一起,基本上把AI最容易出问题的场景覆盖得差不多了,时效问题、专业知识问题、具体事实核查问题,都有。
接入百度百科之后,这几类场景下的表现,用测评报告里的说法,是“回答准确性与全面性大幅提升”。
那么,百度到底给AI吃了什么,让TA准确率直线up?底层架构是什么?凭什么同样是训AI,百度的答案比别人可信?
百度揭开了谜底
正好,最近百度在北京开了创作者大会,AI权威性,恰恰是这场大会的核心议题之一。
创作者大会上,百度搜索产品负责人做了一个演讲,把整个技术架构摆出来讲了一遍。
大部分对话式AI的工作逻辑是,你问一个问题,它调用大语言模型,模型根据训练的时候学到的内容,生成一个回答。
问题就出在这里,模型训练是有截止时间的,训练数据本身也不一定都是对的,更别说GEO这种专门给AI下毒的黑产了,315晚会刚曝光过,几十块钱写几篇软文,几天之内就能让某个虚假信息成为AI的标准答案,整条黑灰产业链,已经相当成熟了。
所以如果模型是直接从脑子里回忆出答案,那这个答案里有多少水分,你真的不知道。
百度的做法是,不让模型直接回忆。
在AI API基础接口之上,叠了两层Agent。
第一层叫需求规划Agent,先把你的问题拆解成更细的子需求,然后去抓多维度的权威信息,不是问一个问题就直接打包成答案,而是先把问题掰开揉碎,搞清楚你到底想问什么、需要哪几个维度的信息。
第二层叫组织生成Agent,对不同信源进行筛选、校验、总结,确认之后,再交付一个「完成式」答案。
什么叫「完成式」答案?就是不是草稿,是最终版。不是模型直接从脑子里输出,而是先把素材都核对过一遍,再组织生成。
这个区别,可能乍一看不那么直觉,但想一想就明白了。就像你让一个助理给你写报告,一种做法是助理直接凭自己的记忆写,另一种是助理先去查阅最新的权威资料,核对之后再写。哪个更靠谱,不用说。
这是架构层的逻辑,但只有这一层还不够。
在这套架构上面,百度还叠了三道过滤闸门。
第一道,来源准入。不是所有信息源都能进候选池,只有权威专业领域、时效性强的信源,才有资格被参考。自媒体、UGC内容,先审后发,机审加人工双重把关,不是直接入库的。
第二道,多信源交叉验证。同一个结论,必须有多个可信来源同时支撑才会被采用。一个来源说的算不了数,得好几个来源指向同一个结论,才行。
第三道,秒级巡检兜底。有一套内部自动巡检系统在实时监测,一旦内容有偏差,立刻人工介入,重新生产。
我自己看这三道闸门的时候,觉得第三道是最让人有安全感的那个,因为它回答的是另一个问题。
前两道回答的是「怎么保证答案一开始是对的」,第三道回答的是「万一出了错,有没有人来管」。
大多数对话式AI,你现在去问,它大概率是没有这个兜底的。出了错就出了错,等着下一轮训练或者人工反馈,慢慢修。
但百度这边是秒级响应,一旦发现偏差,立刻人工介入。
这是一套大多数纯生成式AI不具备的平台级治理能力。
说到底,AI信任问题,既是架构问题,也是治理问题,二者缺一不可。
知识的地基
是怎么打起来的
那回到更源头的地方,好的答案,原材料从哪来?
这就必须说到百度百科了。
很多人对百度百科的印象可能还停留在「哦那个大家都能编辑的百科」,但现在的百度百科,其实在做一件非常底层但非常重要的事,为AI时代的知识可信度打地基。
来看几个数字。
词条总量突破3000万,覆盖5种语言,包括英、法、日、俄、西班牙语。
累计贡献用户超810万,但UGC内容不是直接入库的,先审后发,机审和人工审核双重把关。
热点内容,分钟级响应,每秒钟会诞生一个新版本词条。
更重要的是它的权威性建设,有一个叫「繁星计划」的东西,联合国科大、中科院、北大等头部机构,汇集了超过10万名专业专家,共建了超过100万条专业词条。自然科学垂类,专业词条覆盖率100%,超过20万条科学词条经过严苛审定。
然后还有一个人机协同的模式,百度百科跟北大公共卫生学院有合作,AI负责出初稿,然后交给硕博老师审核认证,单条词条的创作效率提升了500%。
机器负责快,知识的最后一道闸门,捏在人手里。
这句话是百度创作者大会演讲里说的,我觉得是整场大会里信息密度最高的一句话。
它其实说的是一种选择,一种姿态。在大家都在比谁的AI生成速度更快、谁的参数规模更大、谁的幻觉更少的时候,百度在说,最关键的那道门,我们让人来把守。
正因如此,百度搜索Skill成了全球下载量第一的搜索引擎官方技能插件。信息权威性这件事上,市场反映得很直白,大多数人心里是有杆秤的,就算没专门做过测评,用多了,感觉出来了。
顺着上面的再说一个,百度创作者大会上还有一个细节,我觉得挺有意思的。
百度搜索最近上线了交互式组件,就是打开某些搜索结果页,你可以直接上手操作。可以拖动太阳系模型,看行星之间的真实距离,不是图片,是可以操作的3D模型,拖一下,那个尺度感是完全不同的。
可以顺着黄河的地图点下去,一个城市一个城市地看它流经的地方。
可以把一个分子结构拆开,看内部构成,不是图示,是可以转动、可以分解的。
可以亲手试试小孔成像的物理原理,调节小孔的大小,看成像的变化。
这个我觉得有趣的地方在于,它改变的不是信息本身,而是接收信息的方式。
从前搜索是被动的,你拿到一份材料,你读完,你可能理解了,可能没理解,材料本身不知道你理解了没有。
交互式的搜索,是你去做这件事,而不是看这件事。
小孔成像,如果你只是读一遍文字,可能五分钟后就忘了。如果你自己动手调一遍,感受过那个成像变化,这个知识会跟你待更久。
给你准信儿,还要让你真正懂它。
这两件事,都挺难的。
很多年前,艾略特在诗剧《岩石》中发出震耳发聩的“灵魂三问”:
我们迷失于生活中,生命在哪里? 我们迷失于信息中,知识在哪里? 我们迷失于知识中,智慧在哪里?
诚如所言,AI时代,信息的获取变快了,但信息的可信度反而变成了一个需要重新建立的问题。大家获得了更多的答案,却不得不同时应付更多的哪个答案是对的。
这个焦虑的根源,果壳的文章说得很准,AI幻觉是架构问题,GEO投毒是治理问题,二者叠加,构成了一个系统性的可信度危机。
架构问题需要架构层的解法,治理问题需要治理层的解法,你不能指望靠某一个单点突破,把这两个问题都解决。
百度这次创作者大会展示的,是一套同时在两个层面都有解法的体系,双层Agent加三道过滤,是架构层的;秒级巡检加人工介入,是治理层的;繁星计划加人机协同,是长期的知识生产质量保障。
这不是某一个技术亮点,而是一个系统。
你如果只做架构层,答案快,但出了错没人管。
你如果只做治理层,知道错了,但信源本身就不稳。
二者缺一不可。我理解的AI时代的信任,不是“这个AI说的肯定是对的”,而是“这个AI说的有迹可查、有人兜底、有机制保障”。
说得清、查得到、有人管。这才是这个时代,一个AI产品能给用户的真正确定性。
知识的最后一道闸门,捏在人手里。
这句话的含金量,仍在上升啊。
热门跟贴