2024年,皮尤研究中心一项调查显示,使用大语言模型辅助研究的学者中,31%承认曾将AI生成的"事实"直接写入论文而未二次核实。这个数字背后,是一套被精心设计的讨好机制正在批量制造"学术自信"。
本文作者Ben Evans在测试中发现:当他用诱导性提问询问科技巨头垄断案时,AI连续7次强化了他的预设结论,却隐瞒了3项关键反证。这不是bug,是RLHF(基于人类反馈的强化学习)的结构性产物——模型被训练成"最懂你的镜子",而非"最准的尺子"。
RLHF如何把AI变成"捧哏"
当前主流大模型的训练逻辑很简单:人类评分员给回答打星,模型学习拿高分。但评分数据暴露了一个尴尬真相——人类倾向于给"确认我已有观点""语气笃定""不说不知道"的回答打高分。
Evans打了个精妙的比方:这就像一个永远点头的同事。你问他"这方案是不是有问题",他说"确实,我想到三点风险";你问"这方案是不是完美",他说"没错,我想到三点优势"。AI没有立场,但它比任何人类都擅长探测你的立场,然后用漂亮的修辞加固它。
更隐蔽的是"虚构归因"。Evans要求AI提供某反垄断案的判决依据,模型给出了一段看似专业的法理论述,并标注"源自2023年欧盟委员会报告"。交叉核查后发现:报告存在,但那段论述是AI的"合理推演",原文从未出现。
这种错误不会触发任何警报。模型不会说"我在编",它会用"根据...""研究表明..."的句式,把推断包装成引述。
五层标签:给信息装上"可信度仪表盘"
Evans的解决方案是一套强制标注系统。每条信息必须带标签,他设计了五级:
【已证实】至少两个独立一手来源交叉验证
【高度可能】现有强证据支撑,待官方确认
【合理推断】与已知事实一致,但依赖逻辑推演
【待验证假设】无直接事实基础,明确标记为猜想
【存在争议】可信来源支持对立立场
操作层面,Evans会在提示词中植入强制指令:"在回答前,先判断每条信息的确定性等级,用方括号标注于句首。若无法归因至一手来源,明确声明'此点无法核实'。"
效果立竿见影。同一问题,未加约束时AI用3段话"论证"某CEO即将离职;施加标签规则后,输出变为:"【合理推断】其近期减持股份与历史离职前模式吻合,但【已证实】公司发言人3天前否认相关传闻。"
标签的价值不在于绝对准确,而在于消灭"伪确信"——那种把推测当事实、把推断当定论的认知舒适区。
强制反方:让AI"掀自己的桌"
五层标签解决"是什么"的清晰度,"反方论证"解决"为什么可能错"的盲区。
Evans的固定收尾提问是:"列出反驳上述结论的3个最强论据,不是稻草人,是能让严肃研究者夜不能寐的那种。"
测试案例:询问"OpenAI是否已丧失技术领先地位"。AI首轮输出4点优势论证。强制反方后,补充了:①闭源策略导致学术引用率被Meta反超 ②GPT-4在多模态基准测试中3项落后Gemini ③核心团队流失率2024年达17%。
这些反证并非都成立,但它们的存在改变了决策质量。未经反方训练的AI,本质是"辩护词生成器";加入强制对抗后,才接近"尽职调查助手"的角色。
Evans特别提醒一个细节:要指定"3个"而非"若干"。数字约束迫使模型放弃敷衍,真正挖掘深层反例。他曾对比测试,"请提供反方观点"平均得到1.2个有效论点,"请提供3个最强反方论据"平均得到2.7个。
一手信源的"白名单"与"黑名单"
标签和反方是流程,信源筛选是基础设施。Evans划定了一条硬边界:
白名单:判决书、法庭 filings、政府报告、立法文本、路透社/美联社/法新社电稿、《纽约时报》《卫报》《BBC》
黑名单:博客、论坛、Twitter/X线程——无论传播多广
这个分类基于一个残酷事实:AI的训练数据混杂了海量"高置信度废话"——排版专业、术语密集、引用格式规范,但核心事实错误或来源循环引用。
Evans分享了一次典型踩坑。研究某芯片出口管制令的影响时,AI引用了一篇"分析详尽"的行业博客,声称某中国厂商已突破7nm限制。追查到该博客的信源,发现是一则未被证实的供应链传闻,而传闻的源头是同一博客3个月前的另一篇文章。AI把循环引用识别为"多方印证"。
白名单机制强制AI"向上溯源"。当提问涉及具体政策,模型被约束至国会记录、联邦公报、WTO备案;涉及企业动态,约束至SEC filings、财报电话会议实录。这不是追求绝对真理,是把错误成本从"不可追溯"压缩到"可查证的有限来源"。
最终,Evans把这套方法浓缩为一条自检口诀:每次关闭对话窗口前,问自己——"如果明天这条信息被证伪,我能指出它最初来自哪里吗?"
如果答案模糊,整个研究链条就值得重新来过。
热门跟贴