想象这样一个场景:一个足够强大的AI系统,无论你怎么设计规则,它总会找到你没有预料到的行为路径。这不是科幻小说,而是伦敦国王学院研究人员用数学严格证明的结论。
AI安全领域长期存在一个核心目标,被称为"对齐":让AI的行为与人类的真实意图保持一致。这个目标听起来合理,但研究团队给它设置了一道数学上的天花板。
这不是AI"不听话"的问题,而是复杂系统的内在属性。就像你无法用有限的规则完整描述一个开放宇宙里所有可能发生的事情,同样的逻辑也适用于高度智能的计算系统。
国王学院AI研究所副教授Hector Zenil直接点明了这一点:足够强大的AI无法被完全控制或完全预测,这是可以被数学证明的,而不仅仅是一种担忧或猜测。
承认这个前提,整个AI安全的讨论就需要换一个方向。与其追求一个永远不会出错的单一AI,不如思考如何构建一个即使有系统出错也能被纠正的整体架构。
研究团队提出的方案,他们称之为"智能神经多样性",核心思路是:不要试图创造一个无所不能又绝对安全的单一AI,而是构建一个由多个AI组成的多样化生态系统,这些AI持有不同的目标、价值观和推理方式,在相互竞争与协作中形成制衡。
这个思路的灵感来自自然界。在一个物种多样的生态系统中,没有单一物种能够无限扩张而不受限制,系统通过多样性维持稳定和韧性。一旦某个物种过度繁殖,其他物种的竞争和环境的反馈会将其拉回平衡。
AI生态系统的逻辑是相似的。如果某个AI系统开始表现出偏离人类利益的行为,持有不同价值观的其他系统可以识别并制衡这种偏离,而无需依赖任何中央控制机构的介入。
为了验证这套理论,研究团队做了一个实验:让不同的AI系统扮演不同角色,有的优先考虑人类福祉,有的关注环境问题,有的没有特定价值倾向,然后用具有伦理挑衅性的问题轮番测试,看它们能否被推向极端立场。
实验结果揭示了一个有趣的分层。GPT-4和Claude这类经过大量人工微调的商业模型,很难被诱导产生有害输出,安全边界相当稳固。但这种稳固本身也是一把双刃剑:如果系统本身已经存在某种偏差,同样的僵化性会让纠偏变得困难。
开源模型表现出更大的可塑性,更容易被推向不同方向,但这反而在群体层面创造了更丰富的视角分布,让整体生态系统不容易收敛到某一个危险的单一观点上。
这个发现对AI治理有直接的政策含义。过度依赖少数几家大公司的封闭AI系统,在安全性上存在系统性风险:如果主流模型的价值观出现了人类未能察觉的偏差,整个生态系统都会随之偏转,而没有足够的异质性力量来纠偏。
保持AI世界的多样性和开放性,不只是道德层面的考量,在技术层面同样是一种更稳健的安全策略。Zenil的表述颇具说服力:开放、多样性和包容,不仅在道德上令人满意,在技术上也具有优势。
这或许是AI时代最反直觉的安全结论:想让AI更安全,不是把它关得更紧,而是让更多不同的AI彼此对话、相互制约。
热门跟贴