刘永谋 | 超级智能治理：究竟是控制超级AI，还是监管搞超级AI的人？|刘永谋|吴玉章|沙盒|罗素

*中国人民大学吴玉章讲席教授刘永谋首发于微信公众号，保留一切知识产权，侵犯必究。

基本上所有人包括AI研发人员，都同意通用AI、超级AI的应用存在重大风险，应该对TA们的加以控制。实际上，最早提醒大家注意超级智能生存性风险的恰恰是AI专家。当然，我怀疑：这种呼吁很大程度上是AI宣传术，炒作AI觉醒问题以获得社会的关注。

为什么？因为他们一边高呼超级AI有风险，一边反对监管AI发展。有一种回应性解释是：AGI、ASI暂时还实现不了，还需要几十年。可是，他们又隔三差五地宣布通用AI已经在某个产品中实现了，甚至某个产品已经出现意识了。

如果超级AI在五十年左右会出现，鉴于它可能导致文明危崖性质的风险，现在考虑监管超级AI有问题吗？回过头来，如果大家提前预计到核能有毁灭世界的风险，你觉得人类应该提前多久讨论如何监管核能呢？比如，提前就禁止核能用作武器。

我的意思是说，按照现在的形势，现在就开始讨论超级AI的监管或治理问题并非多余。

在《超级智能》中，波斯特洛姆花了大量篇幅讨论如何控制超级AI的能力和动机，涉及到沙盒、关机和对齐等大家熟悉的技术性方法。沙盒就是要将超级AI隔绝于某种“金属盒子”中，关机指的是关键时候我们能将超级AI电源切断，而对齐是从效用-偏好上控制超级AI的目标。他承认这些方法都不百分百消除风险，但是可以综合作用，并非可以不断完善。

然而，我觉得超级AI治理的关机不是控制超级AI，而是控制搞超级AI的人，尤其是研发和运行超级AI的人。

第一，现在超级AI还没有，如果风险巨大，可以禁止研发超级AI。这不等于不发展AI，而是说AI发展的路千万条，这条路可以不选。就像我们可以研发核能利用，但是禁止搞原子弹。

第二，起码在控制超级AI的问题解决之前，可以暂停研发超级AI。

第三，问题在于即使国家禁止，AI专家可以私下搞超级AI，原因可能是极个别专家觉得超级AI没什么风险，或者干脆是不在乎，甚至可能就是因为金钱诱惑甘愿被邪恶势力利用。

第四，即使在控制超级AI方法找到，超级AI可以安全运行之后，以AI专家为典型的人的问题仍然存在。这正是目前核武器扩散面临的情况。

罗素的有益AI理论恰恰看到这一点，才提出指导AI专家的有益机器三原则。而在波斯特洛姆那里，这一问题被称为“第一委托代理问题”，直接就被忽略了。

我重读了《超级智能》，波斯特洛姆的关于控制的观点十分混乱。比如，他提出超级AI可以被构建为四种类型，即神谕、精灵、主权、工具。所谓神谕，指的是超级AI只是个超级问答系统。按照他所说的超级AI在任何方面都强过人类的超级智能定义，这根本不是超级AI。所谓工具，指的是工具性、能力弱的AI。这显然就不是超级AI，不应该在这一章中出现。他自己也说：

预期在实施强大的寻找过程（包括寻找内部工作计划的过程和直接寻找符合使用者定义标准的方案的过程）中自发且偶然地产生类似代理的、具有目的性的行为模式，可能还不如直接建造代理。使超级智能明确地具有类似代理的结构，可能会提高超级智能的可预测性和透明度。

对于为什么要搞超级AI的理由是，不搞AGI、ASI人类损失很大。这个理由没有计算好处减去风险之后有多少。我赞同是搞工具AI，不承认有什么工具性超级AI，要全面反对超级AI的研发和应用。

波斯特洛姆最让我无语的支持超级AI理由是：

创造超级智能的显而易见的理由是：这样我们就能够将寻找给定价值观的有效方法所需要的工具箱推理任务交给超级智能。间接规范方法还使我们能够将选择要实现的价值观所需要的一些推理任务交给超级智能。

我们可能不知道我们真正想要什么、什么是符合我们的利益的，或者什么是道德上正确的或理想化的。这个事实给我们提出了一个挑战，而间接规范正是应对这个挑战的一个方法。

预期基于我们目前的理解（可能是非常错误的理解）做出猜测，不如将价值观选择所需的一部分认知工作委托给超级智能。

也就是说，我们不知道用什么价值观对齐AI，因此要搞超级AI，因为它能告诉我们应该用何种价值观对齐AI。这究竟是AI向人对齐，还是人向AI对齐呢？这种想法就是主张“人的AI化”或“人的智能机器化”。根本不值得一驳。

一定要注意：反对超级AI，不等于反对AI，没有什么AI必然走向AGI、ASI的“必然”。历史表明：任何一种技术的发展都是蕴含着多元可能性，技术风险与后果关键在于人的选择而非技术本身。

在这一点上，大家知道我历来反对技术实体论，因为它意味着宿命论。就AI而言，从来没有什么向善的AI，你不治TA就不会向善。