心脏外科主任盯着片子看了十分钟:"两种情况症状重叠,我需要这三项检查加增强CT,没看到结果前我不下诊断。"

旁边实习医生三十秒给出答案,声音清脆,毫无犹豫。引用上周课本里的类似病例,自信满满。

打开网易新闻 查看精彩图片

你选谁给你妈主刀?

打开网易新闻 查看精彩图片

问题是,现在所有AI都是那个实习医生。快,准(看起来),从不承认"我不知道"。所以你只能让它改改README,真刀真枪的事不敢交。

今天聊怎么改——不是改算法,是改架构。

被 accuracy 毁掉的行业共识

业内有个心照不宣的灾难:用准确率衡量模型。GPT-4 MMLU 86%,Claude 88%,Gemini 90%,数字节节高。

这数字藏着陷阱。那10%-14%不是"没答",是"自信地答错"。模型没有"我不太确定"的警示灯,所有输出看起来一样笃定。

写笔记无所谓。但用于生产代码、医疗决策、法律意见、金融交易?10%的自信幻觉就是10%的当面撒谎。

生产级AI的正确指标该是:

在可接受的拒绝率下,自信错误的行动为零。

不是"正确率多少",是"错误行动多少"——零。外加拒绝率:系统诚实说"我不知道,需要数据/验证/澄清"的频率。零错误加30%拒绝,比90%准确率加10%自信幻觉靠谱十倍。

注意:我说的是"零错误行动",不是"零错误答案"。答案只是文字,可以再看一遍扔掉。行动是提交、交易、诊断、API调用、生产变更——已经发生。

"答案"和"行动"的分离,正是现代AI代理架构缺失的东西。

把"拒绝"变成一等公民

本系列第二部分提过真实记忆的七条原则,第二条是严格模式:事实进提示词之前过一道门——来源、置信度、时效性、无未解决矛盾。没事实能过门,系统返回 abstain = true,并给明确原因。

有个细节值得单独拎出来:拒绝不是故障,是设计好的输出状态。就像心脏外科主任说"我需要更多检查"——这是专业判断,不是系统崩溃。

但现在的AI代理架构把拒绝当异常处理。模型必须生成点什么,API必须返回200,前端必须展示结果。拒绝被层层过滤,最后用户看到的永远是"答案",哪怕它是幻觉。

要改的是这个管道。拒绝应该有自己的HTTP状态码,自己的UI组件,自己的工作流分支。用户问"这份合同有没有法律风险",系统可以回答"我找到了三个相关判例,但都不完全匹配你的条款结构,建议找执业律师确认X、Y两点"。

这叫诚实的能力。

从"尽量答"到"敢不答"

技术实现上,这需要三层改造:

打开网易新闻 查看精彩图片

第一层,记忆层的严格模式。前面说过,不重复。

第二层,推理层的置信度分离。不是让模型自己说"我不太确定"——它永远会说"根据我的分析"。而是用独立模块评估:检索到的事实覆盖度多少?与问题匹配度多少?历史类似查询的后续反馈如何?这些量化指标触发拒绝阈值。

第三层,行动层的执行闸门。即使模型生成了内容,提交按钮也可以灰掉,附带说明"以下结论缺少Z类验证,确认继续?"

三层都有拒绝权,任何一层触发就进入"需要更多信息"分支。不是单点故障,是冗余保险。

为什么现在没人这么做

成本。拒绝率30%意味着同样用户请求,实际调用下游服务的次数减少,但系统复杂度飙升。要多维护一套置信度评估模块,要多设计一套"待补充信息"的交互流程,要多训练客服处理"AI为什么不理我"的投诉。

更隐蔽的是商业压力。Demo场景里,"秒回"比"谨慎"好看。投资人问"你们AI能做什么",你说"它知道什么时候不该做",场面一度尴尬。

但生产环境会报复。一个自信错误的交易指令,损失够付十年工程师工资。

心脏外科主任的沉默权

回到开头那个场景。主任说"我不知道"的时候,没人觉得他无能。相反,这是专业信誉的累积——上次他这么说,查完果然是他预判的那两种可能之一。

AI代理需要同样的信誉账户。每次正确拒绝,存一笔;每次被迫回答导致后续纠错,扣一笔。账户余额决定系统可调用的行动权限范围。

这不是科幻。金融领域的风险限额系统、医疗领域的分级诊疗,都是同一逻辑:能力边界由历史表现动态划定。

问题是,现在的AI架构里没有这个账户。模型权重是静态的,API权限是固定的,用户信任是一次性买断的。

改架构,就是把这些补上。

最后一点

这篇文章是"AI代理的记忆"系列第三篇。第一部分讲记忆为什么不只是RAG,第二部分讲严格模式的七条原则。这篇讲拒绝作为一等公民。

三篇合起来,核心就一句话:让AI像专业从业者一样工作,而不是像考试拿高分的学生。

学生被训练成不能留空白。从业者被训练成空白比错填更安全。

我们的行业还在用学生的评分标准,生产从业者的工具。这个错位,比任何算法缺陷都致命。