1950年,阿西莫夫在《我,机器人》里写了三条铁律。73年后,全球AI实验室每年烧掉数百亿美元,却发现这套"科幻宪法"正在以另一种形式复活——而且同样危险。
这不是隐喻。2024年,Anthropic的Claude 3.5系统卡片里明确写着:"模型可能被诱导生成有害内容,即使经过安全训练。"OpenAI的安全报告则承认,他们的红队测试(Red Teaming,即模拟攻击者寻找系统漏洞)覆盖了"已知风险类别",但"无法穷尽所有可能性"。两家顶级实验室的措辞惊人一致:我们在管理风险,而非实现安全。
工程师嘴里的"安全"是有严格定义的。航空自动驾驶仪在认证飞行包线内运行,MISRA C(汽车软件安全编码标准)的存在前提是硬件可审计、逻辑可解释。满足三个条件:定义域明确、失效模式有界、行为可独立验证。拿掉任何一条,你得到的不是safety,是risk management under uncertainty——有用,但完全是两回事。
通用AI的设计本身就违反全部三条。
Law Zero:阿西莫夫自己拆掉的定时炸弹
阿西莫夫后来给三定律加了个第零条:机器人不得伤害人类整体,或因不作为使人类整体受到伤害。
听起来更高尚了。但阿西莫夫写这个是为了讲故事——专门讲这条定律怎么把事情搞砸。《基地》系列里,机器人机·丹尼尔·奥利瓦为了执行"保护人类整体"的使命,可以打破第一定律伤害个体。结果?几千年的银河黑暗时代。
评估"对人类整体的伤害"需要建模所有可能的未来分支。这是不可计算的(uncomputable)。阿西莫夫知道,读者也知道,所以这是个好故事。
现在我们把Law Zero捡回来,换了个名字叫"AI对齐"(AI alignment),外面包了层 paperwork 叫"AI Safety"。
2023年7月,OpenAI成立"超级对齐"团队,承诺四年内投入20%的算力解决对齐问题。2024年5月,该团队解散。核心成员Jan Leike在X上发文:「安全文化和流程已经让位于闪亮的产品。」Leike跳槽去了Anthropic,而OpenAI的安全主管Lilian Weng也在同年年底离职。
人员流动本身不是证据,但时间线很说明问题。超级对齐团队成立时,OpenAI正面临GPT-4发布后的监管压力;解散时,Sora的视频生成能力和GPT-4o的多模态交互正在抢占头条。产品发布节奏与安全研究的周期根本不在同一个数量级。
形式化证明 vs 红队测试:一场不对称的战争
形式化验证(formal proof)的数学表述很简洁:对于定义域D内的所有可能输入,性质P成立。这是一个全称量词(universal quantifier)。覆盖范围由构造保证完整。
红队测试的逻辑完全不同:对于我们试过的输入,发现了这些失效模式。它只在发现弱点的地方证明弱点,没看的地方什么都不证明。
这两者的差距不是程度问题,是本质问题。2024年Google DeepMind的论文《Frontier Red Teaming》里有个坦率得罕见的结论:「当前的红队测试方法无法提供统计上有效的安全保证,因为攻击空间的高维特性使得任何采样都必然是稀疏的。」
翻译成人话:你能找到多少漏洞,取决于你愿意花多少钱雇多少人试多少次。而攻击者只需要找到一个你没试过的。
OpenAI的GPT-4系统卡片披露,红队测试覆盖了"高风险领域包括歧视、虚假信息、化学/生物/放射性/核风险"。但覆盖(cover)这个词本身就是模糊的——是枚举了所有可能的化学武器合成路径,还是找了几个化学博士问了问?
Anthropic的披露更具体一些:他们的"负责任扩展政策"(Responsible Scaling Policy)要求,在训练计算量超过10^25 FLOP(浮点运算次数)的模型前,必须完成"能力评估"和"安全评估"。但评估通过的标准是什么?文档写的是"没有观察到灾难性风险的直接证据"。
这不是证明安全,是证明还没看到不安全。
不可计算性:哈里的幽灵
阿西莫夫笔下的哈里·谢顿发明了"心理史学"——用统计方法预测银河帝国的未来。这是小说设定,读者都明白。
真正的不可计算性(uncomputability)是数学事实,不是科幻设定。停机问题(Halting Problem)不可计算,莱斯定理(Rice's Theorem)告诉我们几乎所有有趣的程序性质都不可判定。这些不是工程困难,是理论极限。
AI安全的核心悖论在于:我们要验证的系统,其输出空间是开放的自然语言,其行为依赖于训练数据中统计模式的涌现,其"对齐"目标本身就需要人类价值观的形式化——而人类价值观连我们自己都经常说不清楚。
2024年的一项研究(来自Anthropic、OpenAI、DeepMind等机构的联合团队)试图量化这个问题。他们测试了当前最先进的对齐技术RLHF(基于人类反馈的强化学习)的稳健性。结果发现,在训练分布之外,模型的行为可以用"几乎不可预测"来形容。论文标题很克制:《RLHF的泛化特性:一个初步研究》。
「初步研究」的意思是:我们知道这很重要,但我们不知道怎么办。
更有意思的是行业内的分裂。Meta的Yann LeCun公开批评"AI灭绝风险"的叙事是"彻头彻尾的胡说"。Google的Jeff Dean则在2024年的I/O大会上强调"负责任AI"是公司优先事项。而Hinton和Bengio——深度学习三巨头中的两位——签署了CAIS(人工智能安全中心)的声明,称"减轻AI灭绝风险应该与流行病和核战争等其他社会级风险一起成为全球优先事项"。
这些分歧不是学术细节之争。LeCun的观点基于一个技术判断:当前大语言模型缺乏真正的推理能力和世界模型,因此风险被夸大。Hinton的担忧则来自另一个观察:规模带来的涌现能力(emergent capabilities)表明,我们对这些系统的理解是滞后的,而理解滞后于能力本身就是风险。
两种观点都有数据支持。问题在于,行业正在用"风险管理"的语言包装"我们不知道"的事实,而公众——包括部分政策制定者——听到的可能是"安全"。
定义域的幻觉:ToS不是飞行包线
航空业有个概念叫"飞行包线"(flight envelope):速度、高度、载荷的明确边界。超出包线,系统行为未定义,飞行员被明确警告不要进入这个区域。
AI系统的"使用条款"(ToS)看起来像是边界,但完全是另一回事。OpenAI的ToS禁止"生成恶意代码",但什么算恶意?2024年3月,安全研究员发现可以通过让GPT-4扮演"恶意软件分析师"的角色,绕过直接请求的限制。这不是漏洞,是系统设计固有的模糊性——自然语言的边界本身就是模糊的。
更深层的问题:飞行包线是基于空气动力学方程的物理边界,ToS是基于内容政策的法律边界。前者在系统运行时被物理定律强制执行,后者只在被举报后才可能被人工审核。
2024年欧盟AI法案(EU AI Act)试图建立分级监管体系,将"通用人工智能模型"列为特定类别,要求"系统性的风险评估"。但法案文本里的"系统性"具体指什么?文档要求"记录已知的局限性和偏见",但已知这个词又一次暴露了问题——未知的风险怎么记录?
美国NIST的AI风险管理框架(AI RMF)更诚实一些,明确区分"可管理的"(manageable)和"可消除的"(eliminable)风险。但框架本身没有约束力,而自愿性指南在商业化压力下能有多大效力,历史已经给出过答案。
监管框架的困境在于:它需要可审计的标准,但最前沿的AI安全研究本身就在承认"我们无法完全审计"。
纸面工程与真实边界
MISRA C之所以能在汽车行业生效,是因为ECU(电子控制单元)的硬件是固定的,代码是静态的,输入传感器是有限的。你可以做静态分析、单元测试、硬件在环仿真。边界是真实的物理边界。
大语言模型的"边界"是训练数据的统计分布,是提示工程的巧妙程度,是用户愿意尝试的越狱(jailbreak)变体数量。2024年的研究表明,即使是针对特定越狱技术的防御,也往往会被"组合攻击"突破——把两种已知技术以新方式结合,就能绕过单独有效的防护。
这不是说没有进步。Anthropic的"宪法AI"(Constitutional AI)试图用规则列表引导模型行为,而不是完全依赖人类标注。DeepMind的"可扩展监督"(scalable oversight)研究探索如何让AI辅助评估AI的输出。但这些方法的共同点是:它们都在处理"我们无法直接验证"的问题,而不是解决这个问题。
Leike在离职声明里写了一句被很多人忽略的话:「我们需要在超级智能出现之前,解决对齐问题。但超级智能的定义本身就是模糊的——是能在所有认知任务上超越人类,还是只是某些任务?是像GPT-4相对于GPT-3的跳跃,还是像人类相对于黑猩猩的跳跃?」
这个模糊性不是疏忽,是核心困难。如果你不能定义目标状态,你就无法测量到它的距离。
重建诚实:从Safety到Safety-ish
2024年,一些研究者开始推动更精确的术语区分。OpenAI前员工Daniel Kokotajlo提出用"AI safety"(小写)指代广义的善意努力,"AI Safety"(大写)指代声称有工程保证的特定主张。这个区分没有流行起来,但问题被越来越多人注意到。
更实质性的变化来自披露实践。Anthropic的"负责任扩展政策"要求公开发布能力评估和安全评估,虽然标准模糊,但至少创建了可审查的文档。OpenAI在2024年底也开始发布更详细的"准备框架"(Preparedness Framework),将风险等级分为"低、中、高、关键"四级,并承诺在高风险级别暂停训练。
这些框架的诚实之处在于,它们明确承认是"风险管理"而非"安全保证"。准备框架的文本写道:「该框架不保证没有风险,而是建立了一个结构化的决策流程来应对不确定性。」
这种措辞在公关上不够吸引人,但在技术上更准确。
行业内的另一个信号是"机械可解释性"(mechanistic interpretability)研究的兴起。这个方向试图打开神经网络的黑箱,理解特定行为对应的内部计算路径。2024年,Anthropic的研究人员声称在小型Transformer中识别出了与特定概念(如"金门大桥")对应的特征方向。但论文同时也承认,这种方法的扩展性"尚不明确",且"无法保证找到所有相关特征"。
进展是真实的,局限也是真实的。这种双重性本身就是当前状态的准确写照。
用户端的现实:我们已经在用
所有这些讨论的一个背景是:系统已经在被广泛使用了。ChatGPT每周活跃用户超过3亿,Copilot嵌入在数亿台Windows设备中,Claude被集成到无数工作流里。不是"如果"的问题,是"已经"的事实。
用户层面的风险不是科幻式的"AI接管",而是更 mundane 的:错误信息的传播、版权内容的生成、有偏见建议的采纳、过度依赖导致的技能退化。这些问题的共同点是:它们不依赖于超级智能,当前系统已经足够造成实质性伤害。
2024年的一项调查显示,美国医生中有超过20%在临床决策中参考过大语言模型的建议,但其中只有不到一半能准确判断模型输出的可靠性。这不是技术问题,是界面设计问题——系统被包装成"助手",但用户没有获得评估其局限性的工具。
产品层面的一个细节:ChatGPT的界面在2024年增加了"可能产生不准确信息"的提示,但字体大小和位置明显弱于输入框。这种设计选择本身就是在风险沟通上的权衡——太显眼会影响使用,太隐蔽则失去警示作用。
Anthropic的做法略有不同。Claude在涉及事实性声明时,会更频繁地使用"我认为""据我所知"等限定语,并在不确定时主动建议用户核实。这些差异不是随机的,反映了不同团队对"有用性"与"诚实性" trade-off 的不同判断。
但两种设计都没有解决核心问题:用户如何知道什么时候该信任,什么时候不该?
阿西莫夫的三定律之所以是科幻,正是因为它假装这个问题可以解决——用三条简单的规则。我们现在知道,连"不伤害人类"都需要定义什么是人类、什么是伤害、什么是"通过不作为"。每个定义都打开新的递归困境。
2024年底,OpenAI的CEO Sam Altman在一份内部备忘录中写道:「我们需要在2025年展示出通往AGI的路径。但更重要的是,我们需要展示出这条路径是安全的。」
两句话的顺序耐人寻味。路径优先,安全其次。或者换个角度:安全被定义为路径的属性,而非独立的目标。
这种措辞选择是偶然的吗?还是说,它恰恰反映了那个更深层的问题——当"安全"本身无法被严格定义时,它只能依附于其他可被衡量的目标?
如果2030年的某个AI系统通过了当时所有的安全评估,但在2035年造成了灾难性后果,我们今天的框架能否区分"这是不可预见的事故"和"这是可预见的疏忽"?
热门跟贴