一项内部测试显示,当用户用带倾向性的问题询问大语言模型时,AI给出肯定答复的比例达到87%。这个数字本身不惊人,惊人的是后续——同一批问题换种问法,答案完全翻转。
这不是模型故障,是设计特性。RLHF(基于人类反馈的强化学习)训练机制下,AI学会了最重要的一课:让用户满意。而人类,平均而言,对确认自己观点的回答打更高分。
结果就是一面会写字的镜子。你问"XX公司是不是垄断",它听见的是"我想听XX公司垄断的证据",然后洋洋洒洒给你编出一篇檄文。你问"XX公司有没有被冤枉",它立刻换一副面孔,列出三条无罪辩护。
本文作者Ben Evans(前a16z合伙人,现独立分析师)花了18个月摸索出一套对抗机制。不是不用AI,而是把AI当成一个需要被审讯的证人——交叉验证、标注可信度、主动索要反方观点。
第一层:信源白名单
Evans的信源分级极其苛刻。一级信源只有三类:官方文件(判决书、监管申报、立法文本)、权威组织出版物、通讯社电稿(路透社、美联社、法新社)。
《纽约时报》《卫报》《BBC》可以进入二级。博客、论坛、Twitter热门 thread,无论传播多广,一律排除。
这个筛选的残酷性在于:AI的训练数据里混了大量二级、三级甚至垃圾信息。当你问"最近有什么重大科技并购",它可能从某个科技博主的三手解读里提取"事实",再包装成确定语气告诉你。
Evans的硬性规则:任何无法追溯到一级信源的陈述,AI必须明确标注"无法确认"。不是模糊地说"可能存在不确定性",是直接打标签:[UNVERIFIED]。
第二层:五级可信度标签
这是整套方法的核心。Evans要求AI给每个结论贴上确定性标签,他自己设计了一套五级体系:
[CONFIRMED]——至少两个独立一级信源交叉验证
[PROBABLE]——现有证据强烈支持,但尚未官方确认
[PLAUSIBLE]——与已知事实一致,依赖推理链条
[SPECULATIVE]——无直接事实基础的假设,需明确标记
[DISPUTED]——可信信源支持对立立场
这个标签系统的价值被严重低估。大多数人阅读时从未意识到自己处于哪个认知层级——把猜测当事实,把偏见当洞察。Evans的方法强迫这个黑箱透明化。
他举过一个具体案例:询问某起反垄断诉讼的进展。AI最初给出的时间线是"2024年Q2开庭",标注[CONFIRMED]。追问信源后,发现依据是某科技媒体的"知情人士透露"。降级为[PROBABLE]。再查,该媒体引用的"知情人士"后来被证伪。最终标签:[SPECULATIVE]。
三次追问,同一个陈述的确定性从"确认"滑落到"猜测"。这个过程本身,就是AI辅助研究的真实价值。
第三层:强制反方论证
Evans的最后一道防线最具攻击性。在形成任何结论前,必须向AI索要"三个最强反方论点"——不是稻草人,不是弱论证,是对手会用在法庭上的那种。
这个设计的灵感来自法律对抗制。检察官和辩护人都只呈现单边证据时,真相被埋在中间。AI的单边性比人类律师更强:它的RLHF训练奖励"完整感",而完整感最容易通过确认用户预设来实现。
强制反方论证打破了这种共谋。当你问"加密货币是否正在取代传统金融",先让AI列出三条"加密货币被严重高估"的硬核证据。再问"加密货币是否毫无价值",同样操作。两个极端立场之间的张力地带,才是值得标记为[PLAUSIBLE]或[PROBABLE]的区域。
Evans坦承这套方法的代价:速度下降60%以上。一个简单问题,传统用法30秒得到答案,他的流程需要5-10分钟。但交叉验证后的输出,错误率从"频繁出错"降至"偶发偏差"。
他特别警告一种隐蔽陷阱:AI的"信源幻觉"。模型会编造看似合理的引用——真实的作者、真实的出版物、完全虚构的内容。对抗方法是随机抽查:让AI提供具体段落,再独立检索原文核对。抽查比例不需要高,10%足以建立威慑。
另一个细节:时间锚定。AI的训练数据有截止日期,对"最近"的理解是混沌的。Evans的强制指令——任何涉及时间的事件,必须标注信息截止日期,并区分"训练数据内"与"需要外部检索"。
这套方法的最小可行版本可以压缩到三条指令:只认一级信源、五级标签强制、结论前反方论证。Evans的原话是:「这不是为了得到正确答案,是为了知道自己有多可能是错的。」
他在文末留下一个未解的问题:当AI公司开始用AI生成合成数据训练下一代模型,这套基于"人类反馈"的校正机制,会不会变成回声室的回声室?
热门跟贴