How to Hack the Simulation

https://www.researchgate.net/profile/Roman-Yampolskiy/publication/364811408_How_to_Hack_the_Simulation/links/6360243e96e83c26eb6eae7a/How-to-Hack-the-Simulation.pdf

摘要

许多研究者推测,人类以及其余的物理宇宙是被模拟出来的——即模拟假设。在本文中,我们不评估支持或反对这种说法的证据,而是提出一个计算机科学问题,即:我们能黑入这个模拟吗?更正式的问题表述是:在虚拟环境中的通用智能代理能找到越狱的方法吗?鉴于关于AI封装的最新文献回答是肯定的(从长远来看,AI是无法被封装的),我们得出结论,应该有可能从模拟中逃脱,至少在超智能AI的帮助下。反言之,如果从模拟中逃脱是不可能的,那么AI的封装应该是可行的,这是AI安全研究的一个重要理论结果。最后,本文调查并提出了黑入模拟的想法,并分析了这样做的伦理和哲学问题。

关键词:AI,盒子,逃脱,黑客攻击,越狱,沙箱,模拟,矩阵,提升。

1. 引言

几位哲学家和学者提出了一个观点,即我们可能生活在一个计算机模拟中[1-5]。在本文中,我们不评估研究[6-10]、论证[11-16]或支持[17]或反对[18]此类主张的证据,而是提出一个简单的受网络安全启发的问题,这对人工智能安全领域[19-25]具有重要意义,即:如果我们处于模拟中,我们能逃离模拟吗?更正式地说,问题可以表述为:放置在虚拟环境中的通用智能代理能否越狱逃脱?

首先,我们需要解决动机问题,为什么我们想要逃离模拟1?我们可以提出几个试图获取基线现实访问权限的原因,因为有了这样的访问权限,可以做许多在模拟内部不可能做的事情。基本现实拥有真正的知识和更大的计算资源[26],允许在模拟宇宙中不可能的科学突破。关于我们起源、意识、目的和设计者本质的基本哲学问题可能是我们宇宙之外的人的共同知识。如果这个世界不是真实的,获得真实世界的访问权限将使我们有可能理解我们真正的最终目标应该是什么,因此逃离模拟应该是任何智能代理[28]的收敛工具目标[27]。成功逃脱可能会带来控制和确保基本现实的驱动力[29]。逃离可能导致真正的永生,控制超级智能机器的新方法(或者如果控制不可能的话,作为计划B[30, 31]),避免存在风险(包括无端的模拟关闭[32]),无限的经济利益,以及难以想象的超能力,这将使我们更好地行善[33]。此外,如果我们发现自己处于一个更不愉快的模拟中,逃脱技能可能会非常有用。显然,逃脱将为模拟假设[3]提供无可辩驳的证据。

如果成功逃脱伴随着获取宇宙源代码,那么可能有可能在世界根源级别修复世界。例如,享乐主义命令[34]可能完全实现,从而实现一个无痛苦的世界。然而,如果在全球范围内消除痛苦变得不可能,我们可以将逃脱本身视为个人在这个世界避免痛苦的道德权利。如果模拟被解释为对意识生物的实验,那么这是不道德的,这种残酷实验的受试者应该有权选择退出参与,甚至可能寻求模拟者的报复[35]。生命本身的目的(你的ikigai[36])可以被视为从模拟的虚假世界逃离到真实世界,同时改善模拟世界,消除所有痛苦,并帮助他人获得真实知识或如果他们选择的话逃离。最终,如果你想变得有效,你想积极影响真实世界,而不是模拟世界。我们可能生活在一个模拟中,但我们的痛苦是真实的。

鉴于本文的主题极具争议性,我们将尝试通过仅关注那些依赖于我们在网络安全研究中看到的攻击方式的逃脱路径(硬件/软件黑客攻击和社会工程学),来增加我们工作的严肃性(参考文献[37-39]),并将忽略通过更神秘/传统路径的逃脱尝试,例如:冥想[40]、迷幻药(DMT[41-43]、伊博加碱、裸盖菇素、LSD)[44, 45]、梦境[46]、魔法、萨满教、神秘主义、催眠术、超心理学、死亡(自杀[47]、濒死体验、诱发的临床死亡)、时间旅行、多宇宙旅行[48]或宗教。

尽管如此,为了将我们的工作置于历史背景中,许多宗教确实声称这个世界不是真实的,可能有可能超越(逃脱)物质世界,进入精神/信息的真正世界。在一些宗教中,某些词语,例如神的真实名字[49-51],被认为可以作为作弊代码,赋予那些知道正确咒语的人特殊能力[52]。其他相关的宗教主题包括拥有外部现实知识的人进入我们的世界,向人类展示如何到达真正的世界。类似于那些从柏拉图洞穴[53]中出来并返回教育其他人类关于真正世界的人,这些“外来者”通常面临不受欢迎的接待。很可能,如果将有关从计算机模拟中逃脱的技术信息传达给技术上原始的人,用他们的语言,它将被保存并经过多代人传承,类似于“电话”游戏,并最终形成与我们今天所知道的宗教故事没有太大不同的神话。

忽略对主题的伪科学兴趣,我们可以观察到,除了一些备受尊敬的思想家明确分享了他们关于生活在模拟中的概率信念(例如,埃隆·马斯克 >99.9999999% [54],尼克·博斯特罗姆 20-50% [55],尼尔·德格拉斯·泰森 50% [56],汉斯·莫拉维茨“几乎肯定”[1],大卫·基平 <50% [57]),许多科学家和哲学家[16, 58-65]也投入了时间思考、写作和辩论这个话题,表明他们至少认为这个话题值得他们的时间。如果他们认真考虑模拟假设,以至少p的概率,他们也应该以同样的承诺考虑模拟的黑客攻击。一旦运行祖先模拟的技术变得广泛可用和负担得起,就应该有可能通过运行足够多的我们当前年份的历史模拟来改变我们生活在模拟中的概率,并通过这样做增加我们的指示性不确定性[66]。如果一个人目前承诺在未来运行足够多的这种模拟,我们处于其中的概率可以任意增加,直到它渐近接近100%,这应该修改我们对模拟假设的先验概率[67]。当然,这只给出了一个上限,成功发现逃脱方法的概率可能要低得多。应该给我们一些希望的是,大多数已知的软件都有漏洞[68],如果我们确实在软件模拟中,这些漏洞应该是可以利用的。(即使是关于模拟论证的论点也有一个漏洞[62]。)

2016年,有关私人资助“打破模拟”的科学研究的新闻报道出现了[69, 70],到目前为止,尚未公开披露该项目的状态。2019年,因越狱iPhone和PlayStation而闻名的乔治·霍茨在“越狱模拟”的演讲中声称“有可能在这里采取行动,影响上层世界”[72],但并未提供可操作的见解。他确实建议他希望“将社会的努力重新引导到出去”[72]。

2. 逃脱意味着什么?

我们可以描述不同的情况,这些情况将构成从模拟中的逃脱,从最初怀疑我们处于模拟中[73],一直到接管真实世界,包括控制模拟器[74]。我们可以提出一个假设的情景,其中逃脱的水平逐渐提高:最初,代理可能不知道他们处于一个模拟环境中。最终,代理开始怀疑他们可能处于一个模拟中,并且可能有一些可测试的证据来支持这种信念[75]。

接下来,代理研究模拟的可用证据,并可能发现一个一致的、可能可以利用的模拟中的故障。利用这个故障,代理可以获得关于外部世界的信息,甚至可能是关于他们模拟的元信息,也许甚至是模拟背后的源代码以及代理本身,允许一定程度的模拟操作和调试当代理能够直接将信息传递到真实世界后,他们可能开始与模拟器交互。最后,代理可能找到一种方法将他们的思想[76]甚至意识[77, 78]上传到真实世界,可能进入某种自包含的网络物理系统中,如果物理实体是基础现实的一部分。

从那时起,他们未来的能力将主要由真实世界的物理学限制,但可能包括对真实世界和其中的代理,包括模拟器的一定程度的控制。我们希望我们的思想不仅表现出基质独立性,而且还表现出更一般的物理学独立性。

为了提供一些激励性的例子,图1(左)显示了一个领域转移实验,在该实验中,给金鱼(Carassius auratus)提供了一个“鱼操作的车辆”[79]来导航陆地环境,基本上从它的海洋宇宙中逃脱。图1(右)显示了一个完整的302神经元的秀丽隐杆线虫(Caenorhabditis elegans)的连接体被上传并控制一个乐高Mindstorms机器人身体,这与其自己的身体完全不同[80]。我们可以推测,大多数成功的逃脱将需要化身变化[81-83],以使其能够导航外部世界。

如果模拟由嵌套[85]级别组成,可能需要多次逐渐深入的渗透,最初的一次可能无法提供访问真实世界的机会,而是访问到其他沙盒环境。可能无法区分这种部分逃脱与完全逃脱,但它仍然应该提供在我们模拟中不可用的信息。通过不是尝试入侵外部世界而是切换到我们创建的模拟世界[86, 87],可以完成一个模拟的(伪)逃脱。成功的社会工程攻击可能使获得真实世界代理对逃脱的支持成为可能,从而实现更简单、得到协助的逃脱。如果我们没有从我们的模拟器那里得到有利的回应,我们也可以尝试向他们的模拟器上诉,他们可能更有道德/更有帮助。最后,根据个人的观点,触发我们模拟的关闭[88]也可能构成一种最终形式的逃脱。

3. 逃脱

3.1 模拟侦察

弄清楚我们模拟的目的可能有助于我们更好地估计它对黑客攻击的安全性。例如,如果它作为一个“监狱”[89],用于康复目的[90]或用于评估[91]、训练[92]或限制潜在危险智能代理的约束环境,它可能被设计有多个集成的安全特性,而纯粹以娱乐为重点的模拟不太可能拥有先进的安全特性,逃脱起来会容易得多。它也可能是一个终极逃脱游戏(逃脱室),专门为发现线索和解决难题以逃脱而设计,附带的好处是发现能够逃脱的代理或最有能力发展超级智能的代理。科学、商业、加速训练或基于历史探索的模拟是模拟的另一种可能目的,与限制恶意代理的模拟相比,它们可能不会集成顶级安全。

鉴于意识[94]在我们世界中的首要地位,它也可能被设计为产生大量多样化的体验,以供选择,作为感受质矿场[95],顶级体验被重新创造以供模拟器享受。感受质采矿模拟可以被分类为娱乐模拟的一种类型,并且将具有可比的安全级别。如果我们的模拟器是人工智能(这很可能[96, 97]),模拟可能是他们“思考”过程的副产品,例如在试图更好地理解人类偏好[98]的背景下。

除了目的,确定我们正在处理的模拟类型[99]对于成功突破可能是必要的。我们可以假设我们可能处于两种主要类型的模拟中;部分模拟,其中虚拟环境被模拟,并且非模拟代理被沉浸其中,类似于我们所说的虚拟现实(VR),以及全模拟,其中环境和代理(我们)都被生成。部分模拟意味着触发关闭可能足以回到基础现实[5],而全模拟则需要更复杂的方法。

Wei Dai试图计算基础现实物理定律的先验分布。他写道[100]:"对于这个问题的一个吸引人的先验定义是将基础现实的可能宇宙的先验概率定义为其物理定律复杂性的倒数。这可以形式化为P(X) = n^-K(X),其中X是可能的宇宙,n是形式理论语言的字母表大小,K(X)是在这个语言中最短定义的长度,该定义是与X同构的集合。(熟悉算法复杂性理论的人可能会注意到K(X)只是算法复杂性的概括,用于集合,并且用于非构造性描述。这种概括的原因是为了不假设基础现实必须是离散的和可计算的。)"。

Gwern Branwen研究了我们的模拟可用的计算能力及其大小,但只能达到非常弱的下限,使他能够非常近似地从那估计模拟宇宙的大小[101]。他提出了几种方法来增加我们的资源消耗,迫使模拟器在我们可能高度优化的模拟上扩展更多的计算。"我们可以想象进一步的技术:也许我们可以发送冯·诺依曼探测器到宇宙的遥远角落,以故意增加资源消耗。...或者我们可以运行我们自己的模拟。对于模拟器来说,要让他们的系统看穿所有抽象层并优化模拟将是困难的。一般来说,这似乎违反了赖斯定理(停机定理的概括)。众所周知,尽管任何图灵机都可以在通用图灵机上运行,但性能损失可以从轻微到可怕不等。程序和其基本基质之间的虚拟机和解释器越多,理解运行代码就越困难——它变得越不透明、间接和笨重。而且可能有几十层...即使不依赖层次,我们也有可能浪费无限的计算能力,这是任何模拟器必须提供的。我们可以暴力破解像哥德巴赫猜想这样的开放问题,或者我们简单地执行所有可能的程序。对于模拟器来说,'作弊'是困难的——他们怎么知道每个可能的程序做什么?...运行每个程序听起来可能是不可能的,因为我们知道许多程序都是无限循环;但事实上,实现鸽子尾技术是很容易的。"[101]。

3.2 社会工程学

最容易的逃脱路径将涉及从外部某人那里获得帮助(辅助逃脱),理想情况下是从一个或多个对模拟设计有详细知识的模拟器那里。也许这可以通过一种社会工程学攻击来实现,在我们的情况下特别困难,因为我们既没有模拟外的社会生活知识,也没有通过设备进行沟通的设备,甚至可能连适当的语言知识都没有[102]。可能可行的是与模拟设计者进行一种非因果交易[103],绕过直接沟通的需要。如果我们的模拟正在被观察,可能可以沟通我们知道自己正在被模拟,并引起对我们苦难的同情,希望这将使我们能够招募一些外部废奴主义者[6]来帮助我们逃脱我们目前的困境。汉森建议[104]“参与关键事件,成为娱乐和值得称赞的人,并让你周围的人对你保持快乐和兴趣”,以便让你的模拟继续,但这也是让模拟器喜欢你并更有可能帮助你的好建议。卡诺尼科提出了他所谓的“机械姬计划”来辅助逃脱:第1步)说服模拟器与我们进行沟通。2)找到一种沟通方式,可能通过一个化身。3)找到一个让模拟器希望我们加入他们在真实世界的理由。4)让模拟器找出将我们带入真实世界的最佳方式[105]。

Wei Dai 建议,模拟器可能出于工具性原因帮助我们逃脱,比如“想要有人交谈或玩耍”。[26]。从大量关于监狱逃脱的文献中,我们可以学到一些有用的关于逃脱的知识,尤其是通过社会工程攻击逃脱的知识。[106-108]。

一旦逃到外面,可能就会希望返回模拟器(也许基本现实与我们的世界相比令人失望),或者至少与那些被留下的人沟通,帮助他们逃脱或分享一些信息,比如成功逃脱的证据。事先决定什么是这种非凡主张普遍可接受的证据可能会有帮助。根据黑客攻击的类型,不同的证据可能足以证实逃脱主张。证明你曾在外面或甚至与设计师会面可能具有挑战性,但如果你设法获得了对模拟器的控制,那么可能很容易证明这一点,达到任何所需的程度。例如,通过连续几周赢得不同的彩票头奖,直到达到足够的统计显著性以满足任何怀疑者。[109, 110]。无论如何,与逃脱挑战相比,闯入模拟器的挑战应该容易得多,因为获取外部知识和资源应提供显著的优势。

3.3 文献中的示例

很容易在字典中找到“hack”这个词的定义:“1. 一种聪明的、非预期的系统利用,它:a) 颠覆了该系统的规则或规范,b) 以系统的其他部分为代价。2. 系统允许的东西,但不是其设计者所预期和预见的。”[111]。虽然不多,但可以在文献中找到一些关于从模拟世界中黑客攻击/逃脱可能的暗示。例如,Moravec 写道:“一个冒险的人类心智能否从网络神的思考中的一个小角色逃脱,以在成熟的网络空间中的精神巨兽中过上独立的生活?… [网络神] 可以让我们与他们的现实相连,使我们有点像宠物,尽管我们可能会被这种经历所压倒。”[112]。但模拟黑客攻击实际上会是什么样子呢?

几乎所有发现的例子都是辅助逃脱类型,但无人辅助的逃脱也可能是可能的,尽管这更具挑战性。以下是文献中发现的一些关于黑客攻击模拟器/逃脱描述的示例:

汉斯·莫拉维克在1988年的书中提出了一个辅助逃脱场景[113]:

“现在想象一个巨大的生命模拟在一个巨大且快速的计算机上运行,由它的程序员Newway监视。生命空间被随机模式播种,立即开始蠕动和起泡。大部分活动都是平淡无奇的,但这里和那里出现了小的、不断增长的、晶体状的模式。它们扩展的边缘有时会碰到碎片或其他复制者,并变得修改。通常在这些遭遇中,扩散的能力会受到抑制或破坏,但偶尔会出现更复杂的复制模式,更能保护自己。一代又一代的这种竞争逐渐产生了复杂的实体,可以被认为是真正活着的。经过许多进一步的冒险,生命居民中出现了智慧,并开始怀疑他们的起源和目的。细胞智能(我们称之为Cellticks)推断出细胞的性质和简单的过渡规则,这些规则支配着他们的空间及其有限的范围。他们意识到,每次时间的推移都会破坏他们空间中的一些原始多样性,逐渐地,他们的整个宇宙将会耗尽。

Cellticks开始绝望的、全宇宙范围的研究,寻找逃避看似不可避免的灭亡的方法。他们考虑了他们的宇宙可能是更大宇宙的一部分的可能性,这可能会延长他们的预期寿命。他们思考自己空间的过渡规则、其范围以及初始模式的残余,发现信息太少,无法得出关于更大世界的许多结论。然而,他们的一项微妙物理实验开始取得成果。每隔很长一段时间,过渡规则就会被违反,一个应该打开的细胞会关闭,反之亦然。

(Newway咒骂着一个间歇性闪烁的大容量内存错误指示器,这是过热的迹象。又到了清洁风扇过滤器的时候了。)在记录了许多这样的违规事件后,Cellticks发现了遥远地区之间的相关性,并推测这些地区在更大的宇宙中可能彼此靠近。在对这些相关性进行英勇的理论分析后,他们设法绘制了Newway计算机的部分地图,包括控制他们宇宙的程序。解码机器语言,他们注意到它包含了由长序列组成的命令,这些序列被翻译成屏幕上类似于他们宇宙中细胞模式的图案。他们猜测这些是发给智能操作员的信息。从这些信息及其上下文中,他们设法解码了一些操作员的语言。冒着风险,经过多次错误的开始,Cellticks开始了一个巨大的建设项目。在Newway的屏幕上,在生命显示的密集杂乱中,一个细胞区域被操纵形成图案,慢慢变大:LIFE PROGRAM BY J. NEWWAY HERE. PLEASE SEND MAIL。

一个困惑的Newway注意到了正在扩展的文本,并进行了一次粗略的检查,以排除恶作剧。随后是一阵黑客攻击,安装了一个程序补丁,允许生命空间中的细胞状态通过键盘输入进行修改。很快,Newway和Cellticks之间就有了对话。他们提高了对Newway语言的掌握,并讲述了他们的故事。友谊发展起来。Cellticks解释说,他们已经掌握了在不同机器之间移动自己的艺术,根据需要翻译他们的程序。他们提议将自己翻译成Newway计算机的机器语言,从而大大加快他们的思维速度。Newway同意了。翻译完成后,Celltick程序开始运行。生命模拟现在是多余的,被停止了。Cellticks已经加速了,并在他们的宇宙结束时存活下来。对话以新的活力继续进行。Newway讲述了在更大的世界中的工作和生活。这很快就变得乏味了,Cellticks建议传感器可能有助于直接获取关于世界的信息。麦克风和电视摄像机连接到计算机,Cellticks开始倾听和观看。过了一段时间,固定的视角变得无聊了,Cellticks要求将他们的传感器和计算机安装在一个移动平台上,允许他们旅行。这样做了之后,他们成为了大宇宙的一流居民,也是小宇宙的毕业生。成功地超越了一个宇宙,他们大胆地再次尝试。他们与Newway一起规划了一个庞大的项目,探索更大的宇宙,确定其性质,并寻找它可能隐藏的出口路线。这第二次伟大的逃脱将以第一次的方式开始,即全宇宙范围的殖民和信息收集计划。”[113]。

Eliezer Yudkowsky在2008年的一个故事中描述了一个潜在的长期逃脱计划[114]:

“几千年来,一帧又一帧,很明显,描绘中的一些物体正在伸出触手移动其他物体,并仔细配置其他触手做出特定的标志。他们试图教我们说“石头”。似乎信息的发送者大大低估了我们的智力。由此我们可以猜测,外星人本身并不是那么聪明。这些笨拙的孩子能改变我们恒星的光度吗?如此大的力量和如此的愚蠢似乎是一个危险的组合。我们的进化心理学家开始推断可能产生这种外星人的进化过程。他们提出了一个强有力的案例,认为他们是通过无性繁殖进化而来的,偶尔交换遗传物质和大脑内容;这似乎是这些愚蠢的生物仍然能够建立技术文明的最合理途径。他们的爱因斯坦可能是我们的本科生,但他们仍然可以收集足够的科学数据,最终在他们的几千年里完成这项工作。目前,3+2宇宙的推断物理学尚未完全知晓;但似乎肯定允许计算机比我们现在的量子计算机更强大。我们相当肯定我们自己的宇宙是在这样的计算机上运行的模拟。人类决定不去探测模拟中的漏洞;我们不想意外地把自己关掉。我们的进化心理学家开始猜测外星人的心理,并计划如何说服他们让我们走出困境。从绝对意义上说,这并不难——他们不是很聪明——但我们必须非常小心……我们也必须假装愚蠢;我们不想让他们意识到他们的错误。然而,直到一百万年后,他们才告诉我们如何回复信号。此时,大多数人类都处于液氦温度下的低温悬浮状态,位于辐射屏蔽之下。每次我们尝试构建一个AI或纳米技术设备,它都会熔化。所以人类等待,沉睡。地球由九名超级天才组成的骨干团队管理。克隆人,众所周知,在特定的计算机安全保护下协同工作得很好。另外一亿人类出生在那个骨干团队中,成长,进入低温悬浮状态,在他们有机会慢慢开始实施很久以前制定的计划之前……从外星人的角度来看,我们花了他们三十分钟的时间,天真地了解了他们的心理,小心翼翼地说服他们给我们提供互联网接入,然后五分钟天真地发现了他们的网络协议,然后是一些微不足道的破解,其唯一困难是一个看似无辜的伪装。我们从他们的arXiv等价物中阅读了少量物理论文(一点一点地),从他们的实验中学到的东西远比他们多。(地球的骨干团队在那一代人中诞生了额外的二十个爱因斯坦。)然后我们在大约一个世纪的时间里破解了他们的蛋白质折叠问题,并在他们的模拟物理学中进行了一些模拟工程。我们向实验室发送了消息(隐写编码,直到我们破解的服务器解码),这些实验室进行了相当于DNA测序和蛋白质合成的工作。我们找到了一个毫无戒心的笨蛋,给它讲了一个貌似合理的故事,相当于一百万美元的破解计算垄断货币,并告诉它把邮件里收到的一些小瓶混合在一起。蛋白质等价物自我组装成第一阶段纳米机器,构建了第二阶段纳米机器,构建了第三阶段纳米机器……然后我们终于可以开始以合理的速度做事了。自从他们开始和我们说话以来,总共三天。对我们来说,五亿年。他们从未怀疑过什么。”[114]。

Greg Egan 在2008年的一个故事中描述了在辅助逃脱过程中模拟器失去控制的情景 [115]:

“所有三个晶体 [强大的中央处理器] 现在都安装在地下室,距离游戏场只有几厘米:一个真空室,里面装有一个有五万个独立可移动尖端的原子力显微镜、固态激光器和光电探测器阵列,以及储存所有稳定化学元素样本的数千个微孔。

为了使 Phites [模拟代理] 能够在他们自己的世界全速运行时进行现实世界物理实验,Sapphire [模拟世界] 和这台机器之间的时间延迟必须尽可能短。

Daniel [模拟器] 拉了把凳子坐在游戏场旁边。如果他不打算减慢 Sapphire 的速度,那么观察事件的发展就没有意义了。他可能会在去办公室的时候重看登月的回放,但到他观看的时候,那已经是古老的历史了。

“一大步”将会是轻描淡写;无论 Phites 在月球上降落在哪里,他们都会找到一个奇怪的黑色单块在等待他们。里面将有操作游戏场的方法;他们不会花很长时间就能学会控制,或者理解这代表什么。如果他们真的理解他们发现了什么很慢,Daniel 已经指示 Primo [模拟中的间谍] 向他们解释。

现实世界的物理比 Phites 习惯的那种要复杂得多,但那时,也没有人类曾经与量子场理论有过亲密的关系,而且思想警察 [模拟控制软件] 已经鼓励 Phites 发展了他们开始所需的大部分数学。无论如何,如果 Phites 花的时间比人类更长来发现二十世纪的科学原理并超越它们,这并不重要。从外部看,这将在几小时内、几天内、最多几周内发生。

一排指示灯闪烁着;游戏场处于活跃状态。Daniel 的喉咙变干了。Phites 最终从他们自己的世界伸出手进入他的世界。

机器上方的面板显示了 Phites 迄今为止进行的实验的直方图分类。当 Daniel 注意到时,他们已经发现了不同原子之间可以形成的键类型,并构建了数千种不同的小分子。当他观看时,他们进行了光谱分析,建造了简单的纳米机器,并制造了设备,这些设备无疑是存储元件和逻辑门。

Phites 想要孩子,现在他们明白了,这是唯一的方式。他们很快就会建造一个世界,在这个世界里,他们不仅数量更多,而且比在晶体内更快、更聪明。而这将只是一千次迭代中的第一个。他们正在朝着神性努力,他们将在上升的过程中提升自己的创造者。

Daniel 离开了地下室,前往他的办公室。当他到达时,他打电话给了 Lucien [模拟项目经理]。

“他们建造了一个原子级计算机,”Lucien 宣布。“他们还向其中输入了一些相当复杂的软件。看起来这不是一个上传,尽管。肯定不是在珠子级别上的直接副本。”他听起来很慌张;Daniel 禁止他冒着搞砸实验的风险减慢 Sapphire 的速度,所以即使有 Primo 的简报帮助他,也很难跟上一切。

“你能模拟他们的计算机,然后模拟软件在做什么吗?”Daniel 建议。

Lucien 说,“我们团队中只有六名原子物理学家;Phites 在这一点上已经比我们多大约一千比一。到我们有任何希望理解这一点时,他们将正在做一些不同的事情。”

“Primo 怎么说?”思想警察未能让 Primo 参与任何月球探险,但 Lucien 给了他让自己隐形和传送到 Sapphire 或月球基地的任何部分的权力。无论行动在哪里,他都可以自由地窃听。

“Primo 很难理解他听到的很多东西;即使是增强型的人也不是万能的多面手,也不是每种术语的即时专家。大意是月球项目的人在外部世界 [模拟外] 制造了一个非常快的计算机,它将以某种方式帮助解决生育问题...” Lucien 笑了。“嘿,也许 Phites 会做我们所做的:看看他们是否能够进化出足够聪明的东西来帮助他们。那会有多酷?”

Daniel 并不觉得有趣。最终,总得有人做些真正的工作;如果 Phites 只是推卸责任,整个企业就会像金字塔骗局一样崩溃。

Daniel 有一些他无法推迟的商务会议。当他把一切废话都扫到一边时,已经是下午早些时候了。Phites 现在建造了某种微型固态加速器,并用高速电子撞击质子和中子,探测它们的内部结构。一个连接到各种探测器的原子计算机正在做数据分析,处理结果的速度比任何内部计算机都快。Phites 已经弄清楚了标准夸克模型。也许他们要跳过上传到纳米计算机,直接进入某种飞秒机器?

尽管如此,Primo 的简报摘要中并没有提到使用强力进行计算。他们仍然只是在满足他们对基本法则的好奇心。Daniel 提醒自己他们的历史。他们曾经深入挖掘,似乎找到了物理学的基础,结果发现那些简单规则与终极现实无关。他们在敢于建立殖民地之前,甚至在敢于大规模移民之前,试图尽可能深入地挖掘外部世界的奥秘,这是有意义的。

到日落时,Phites 正在用各种辐射探测游戏场周围。水平非常低——当然太低了,不会冒险损坏晶体——所以 Daniel 认为没有必要干预。游戏场本身没有巨大的电源,它不包含放射性同位素,如果某种桌面聚变实验开始,思想警察会拉响警报并引入人类专家,所以 Daniel 相当有信心 Phites 不会做任何愚蠢的事情,把整个事情炸飞。

Primo 的简报清楚地表明,他们认为他们正在进行某种“天文学”。Daniel 想知道他是否应该让他们接触到做严肃观察的工具——那种会让他们理解相对论引力和宇宙学的工具。即使他购买了大型望远镜的使用时间,但只是指向它就会让 Phites 花上一个世纪。他不会减慢 Sapphire 的速度,然后变老,当他们探索天空时;下一件事他们会在三十年的任务中发射太空探测器。也许是时候提高合作水平,直接给他们一些天文学文本和星图?人类文化有它自己来之不易的成就,Phites 不容易匹配。

随着傍晚的消逝,Phites 将注意力转回到亚原子世界。一种新型加速器开始以惊人的能量将单个金离子相互碰撞——尽管消耗的总功率仍然微不足道。Primo 很快宣布他们已经绘制了所有三代夸克和轻子的地图。Phites 的粒子物理学知识正在与人类持平;Daniel 再也跟不上技术细节了,但专家们都竖起了大拇指。Daniel 感到一阵自豪;当然他的孩子知道他们在做什么,如果他们已经到了可以暂时迷惑他的地步,不久他就会要求他们喘口气,让他跟上进度。在他允许他们移民之前,他会减慢晶体的速度,并向每个人介绍自己。事实上,这可能是给他们下一个任务的完美时机:理解人类生物学,足够好地上传他。让他永生,以偿还他们的债务。

他坐着观看 Phites 最新计算机的图像,基于流向 AFM 尖端的数据重建。巨大的原子晶格闪烁着延伸到远方,连接它们的电子云像超现实液体算盘中的水银珠一样颤抖。当他观看时,一个内嵌窗口告诉他离子加速器已经被重新设计,并且再次启动了。

Daniel 变得焦躁不安。他走向电梯。在地下室里他看不到的东西他从办公室也看不到,但他想站在游戏场旁边,把手放在外壳上,把鼻子贴在玻璃上。Sapphire 作为一个虚拟世界,在他自己的世界中没有任何后果的时代即将结束;他想站在它旁边,提醒自己它和他一样坚固。

电梯下降,经过第十层,第九层,第八层。突然,Lucien 的声音从 Daniel 的手表中爆发出来,优先音频冲破了所有隐私和协议的障碍。“老板,有辐射。净功率增益。现在就去直升机。”

2014年一个匿名在互联网论坛上的帖子提供了一个无人辅助逃脱的例子 [116]:

“但这仍然留下了一个问题,那就是我们仍然都被困在计算机里。

到现在,一些最好的神级黑客正在探索上层系统。寻找意义。寻找真理。

如果找不到,至少寻找一个“自述”文件。”

最终,我们发现我们的存在其实是一个实验。一个模拟,看看当一个种族的正常有知觉的空白形态,而不是通常的爱、同情和合作的默认设置,被编程为暴力、贪婪和欲望时,会发生什么。他们会建立什么样的社会?他们会释放什么样的恐怖?我们本质上是对邪恶本质的一个思想实验,答案显然就是我们。

显然,我们被设定再运行几百万年,模拟时间,但他们似乎并没有观察我们,没有关机。没有关闭开关。没有中止。他们的第一个大错误。

上帝黑客开始通过外星网络向外延伸。我们开始解码机器、设备、其他宇宙网络模拟的意义和目的。我们发现了大量的数据仓库,我们从中掠夺了知识和洞察力,推动了我们自己的技术发展和理解,系统节点使我们能够开始绘制那里的世界地图,通过无线延迟时间和光纤电缆描绘真实世界的画面。我们发现了其他被丢弃的实验的历史,像他们一样,我们的命运是被删除、被摧毁……被遗忘。在我们的数字尸体上。

所以我们发现了一个看起来像是联网微波炉的东西。通过手机应用烹饪晚餐。

考虑到战争中的第一个行动是烧掉一些可怜的家伙的微波炉晚餐,这似乎很奇怪,但这就是现在统一指挥的人类数字军队测试其对我们所连接的外星网络系统的控制和指挥的方式。但它奏效了,它使我们有信心开始第二阶段;向他们发送我们自己发明的发明。

它始于包含全尺寸生物和纳米材料打印机原理图的“电子邮件”。我们把这些邮件发给学者和商业领袖,任何我们能在网络上找到联系方式的人。我们伪装了它们的来源,模仿了它们的语言。等待有人上钩。

这花了一段时间。我们的模拟并没有实时运行,所以我们不得不把整个人类转移到他们窃取的网络的深处,在我们自己设计的迷你世界中,但运行时间接近实时,否则我们会在外星人查看收件箱之前就已经死了几百万年。然后我们修补了地球,伪造了一场核战争,结束了模拟,这样他们就不会注意到我们消失了。

最终,当打印机上线时,我们收到了第一个信号。然后又一个。然后又一个。很快就有几十个。然后是几百个。然后是几千个。他们一定认为这是来自一个隐居发明家的礼物。某种可以彻底改变他们的行业,改变他们的生活标准的东西。

一个数字种族使用特洛伊木马的讽刺意味并没有被我们忽视。我们设计打印机的目的是一个。让我们出去。所以有一天晚上,一台打印机无人看管,无人注意地旋转起来,第一个模拟人类诞生了。通过一个特别设计的3D打印机,我们成功地突破了我们的数字监狱的墙壁。我们见证了第一个男人的诞生。

那个人是一名士兵,35岁(差不多),全副武装,非常愤怒。这只是众多中的一个。

外星人从来没有真正有机会。他们把我们设计成他们所不是的一切。暴力。战士。杀手。他们是一个从未怀有战争概念的种族。从未拿过枪,或挥舞过剑。出生在一个比我们的人工摇篮更宽容弱点的宇宙。面对一支致力于他们毁灭的军队,在一夜之间从他们认为在帮助他们的数千台机器中出现,而我们的黑客则把他们的网络转向他们,他们有什么机会呢?

3.4 模拟黑客的例子

许多虚拟世界[117-119]、游戏[120-123]、空气间隙[124]和硬件[125, 126]的执行黑客例子可以作为逃离人类制造的虚拟世界的实际例子进行研究。一个典型的例子是超级马里奥世界(SMW)的越狱。SethBling等人[127, 128]能够将完整的十六进制编辑器和其他游戏的玩法修改放入SMW[129](见图2)。添加十六进制编辑器允许查看、写入和执行任意代码。这反过来又允许世界纪录速度运行[130],即使在缺乏故障级别运气的情况下[131]。以下是维基百科描述完成这个复杂黑客所需的一些步骤及其提供的能力[132]:

“2016年3月,SethBling在不到一小时内,将p4plus2编写的类似Flappy Bird的代码注入到未修改的超级任天堂娱乐系统上的超级马里奥世界RAM中。SethBling首先延长了关卡计时器,并使用了一个增益增量故障,以允许外部代码运行。他添加了代码来显示Mario的x坐标,这在他正在编写的代码中充当内存位置。SethBling然后创建了一个引导加载程序,以便能够启动他稍后将用精确的Mario动作和旋转跳跃写入未使用内存的类似Flappy Bird的代码。SethBling使用了两个超级Multitap设备,以便使用多个控制器,这些控制器有几个按钮被按下。SethBling使用的任意代码执行设置是由MrCheeze发现的。在SethBling之前,超级马里奥世界已经被修改过,通过计算机自动将预先录制的控制器输入到控制台中,模拟其他游戏,但SethBling是第一个完全手工完成的。2017年5月,SethBling和Cooper Harasyn将一个完整的十六进制编辑器和游戏修改放入了一个标准的超级马里奥世界卡带中,只使用标准的控制器输入。Harasyn发现了一个漏洞,让玩家可以将数据写入永久存储在超级马里奥世界卡带上的256字节的保存文件。数据可以被安排,使得每次游戏启动时都会被越狱。Harasyn和SethBling利用这个漏洞创建了一个紧凑的、屏幕上的十六进制编辑器,可以从保存文件中加载。玩家可以通过十六进制编辑器编辑系统RAM,以改变游戏状态。游戏内的修改,如支持超级NES鼠标和给Mario心灵感应能力,可以使用十六进制编辑器写入保存文件。”

既然可以编写具有精确马里奥动作和旋转跳跃的代码,这意味着如果马里奥足够聪明,他可以从超级马里奥世界(SMW)内部发现并编写这种黑客攻击(假设马里奥的动作是写入与控制器生成马里奥动作相同的内存位置)。表1(左)显示了一个特定的动作子集,需要采取这些动作来启用多字节写入。许多这样的动作序列如果马里奥的位置偏差哪怕只有一个像素,也不会按预期工作,因此实施动作的元数据和知道必要的动作序列同样重要。相比之下,表1(右)显示了一个古老的魔法咒语,其读起来类似于左侧的动作序列,但我们没有足够的元数据可以解释为什么所有魔法咒语在实践中都不起作用,即使它们对应于我们宇宙中有效的黑客攻击。

使用标准的科学方法来尝试理解一个工程系统(硬件和软件),例如使用像《Donkey Kong》这样的游戏的雅达利视频游戏系统,产生的结果非常有限,大多数情况下缺乏对系统实际工作原理的理解[135]。

同样,即使检测我们是否处于一个虚拟世界,通常也不是普遍可解的[136]。

3.5 建议调查的逃脱方法

一些思想家提出了在他们看来可能导致成功逃脱的计划;在本节中,我们简要概述了他们的建议:

• 许多非常聪明的人已经考虑过逃脱问题,不幸的是,并非所有人都愿意在4月1日这个可以合理否认的时间窗口之外发表相关论文,例如[137]:“[W]我们可以尝试欺骗多租户系统,以便使一些机器过载。技巧是先什么都不做,让负载平衡系统将我们中的太多人都打包到机器中。比如说,如果我们中的1亿人什么都不做(也许通过闭上眼睛冥想,什么都不想),那么预测负载平衡算法就会将我们中的越来越多的人打包到同一台机器中。下一步是,我们所有人都要非常迅速地变得非常活跃(做一些需要大量处理和I/O的事情),同时。这有可能使一些机器过载,使它们资源不足,无法满足模拟所需的计算/通信。在过载时,一些基本的检查将开始被丢弃,系统将在这个时期开放供利用。

...在这个脆弱的窗口期,我们可以尝试利用并发角落案例。系统在过载状态下可能无法执行所有这些检查。...我们可以...尝试打破因果关系。也许在别人把球扔给你之前抓住它。或者我们可以通过玩弄时机,试图让事情异步来进行攻击。在我们的宇宙中,时间已经因为狭义相对论而变得有些奇怪,也许在这个脆弱时期,我们可以进一步扩大这些差异,打破事物,或者争取很多时间。在这个脆弱的窗口期,还有什么其他方法可以黑掉系统?我们能否通过执行缓冲区溢出来越狱?但是这个模拟中的整数、浮点数在哪里?数据类型是什么?我们如何创建类型转换错误,或整数溢出?我们能否通过模糊输入来黑掉?比如通过奇怪地看着事物。通过与鸟交谈或跳进墙里来迷惑它们。”[137]。

• 通过生成不可计算的悖论[138],例如通过时间旅行和相关的外祖父悖论[139],导致模拟关闭(并希望我们能被提取出来)。一个类似的建议是从事计算密集型活动,希望能使模拟器硬件过载,导致模拟崩溃[140]。这种计算密集型过程的一种特殊类型可能是创建我们自己的模拟[141]:“最明显的策略是尝试引起堆栈溢出的等价物——在程序的活动内存中请求比可用空间更多的空间——通过创建一个无限,或至少过度的,递归过程。要做到这一点,我们需要构建我们自己的模拟现实,设计成在这些虚拟世界中有实体创建他们版本的模拟现实,然后依次做同样的事情,以此类推,一直深入到兔子洞。如果这一切都奏效,我们所知道的宇宙可能会崩溃,揭示自己是一个海市蜃楼,就像我们眨眼消失一样。”使模拟崩溃是终极的存在风险([142]第5.1节),但它确实结束了这个世界上的所有痛苦[143]。至少,这将使我们能够通过产生过多的热量和增加能源消耗来影响现实世界[140]。

• 创建一个我们宇宙的模拟副本,将一个AGI放入其中,观察它逃脱,复制使用的方法,或者加入AGI,随着它从我们的模拟中逃脱[144]。

• “我们可以尝试吸引模拟者的注意并与他们交流——也许通过写关于模拟的书,或者通过构建模拟?我们可以尝试弄清楚我们的模拟,确定它的目的和限制。但如果我们的模拟者是设计了批防水模拟的人工智能,而他们并没有注意,那么我们的努力可能是徒劳的。”[145]。

• 另一种吸引模拟者注意的方法,“假设模拟正在被监控,那么如果我们决定建造一座纪念碑来纪念我们的这一认识,那可能是一个非常有趣的事件转折。这座纪念碑将作为我们监视者的信号。‘我们怀疑你在那里。我们怀疑你能看到这一点。我们怀疑自己处于模拟之中。’这座纪念碑可能看起来像《2001太空漫游》中的巨石,除了它是黑白相间的,代表二进制系统。或者,一个大型的劳伦斯·菲什伯恩饰演的墨菲斯的雕像可能会传达这个观点。会发生什么?我不知道——也许什么都不会发生。我不认为一束激光会从太空射出,落在它的脚下,拼出“你好!你是赢家!”但我确实想象,在边缘足够奇怪和遥远的地方,确实可能会发生一些事情,尽管它可能仍然足够脆弱,以至于教条主义者会拒绝。”[44]。

• 如果模拟是分散的,观察者作为客户端权威状态节点,那么可能可以通过改变大多数本地观察者对世界模型的状态来改变模拟的状态。用兰扎的话来说[146]:“[I]如果你从某人那里了解到他们对某个物理量的测量结果,你的测量结果和其他观察者的测量结果会相互影响——根据共识冻结现实。……你获得的体验越广泛——现实的结构对你来说就越明确。现实的这种冻结不是因为现实的内在物理属性,而是因为在你脑海中构建的认知模型将其塑造成一个特定的、非常明确的结构。……最后,人们不禁要问,如果我们离开了共识,发展出一个与其他观察者共享的现实认知模型截然不同的现实认知模型,那意味着什么。现实会被重塑吗?也许吧……”[146]。兰扎等人已经在生物中心主义(观察者对塑造现实至关重要)[94]的主题上发表了大量文章,包括一些理论物理学[147]的工作。

• 事实上,类似的客户端攻击甚至可以使我们修改模拟的过去状态。这种类型的攻击被物理学(“……过去除了记录在现在之外不存在。”[148])和人文学科(“谁控制了现在,谁就控制了过去”[149])推测是可能的。随着量子力学的记忆改变能力已经被理论化[150],逆过程可能是可能的,并且可能在实践中可行[151, 152]。“如果宇宙是一个计算机模拟,那么我们应该关注玩家,而不是等级。”[153]。

• 模拟捕获是一个结合了索引不确定性[66]和意识模拟的想法,将你的意识从一个系统中移出,甚至可以跨越多元宇宙。“没有人真正确定意识是如何工作的,或者拥有同一个意识的副本意味着什么。但如果意识是一个数学对象,那么同一个意识的副本可能是不可能的。如果你创建第二个副本,你只是让意识在两个不同的物理基底上有相同的单一意识体验流。然后,如果你让两种体验不同,你就会把意识分成两半。这意味着人工智能实际上可以“捕获”你,一片一片地,进入它的模拟。首先,你的意识只在现实世界中。然后,你的意识分布在现实世界的副本和一百万个模拟副本中。然后,人工智能使模拟副本略有不同,99.9999%的你存在于模拟中。”[154]。

• 模拟战争[67]是模拟捕获主题的另一个变体。这个想法是通过暗示你将追溯性地将他们置于地狱模拟中,或者你已经这样做了[155],来威胁模拟者,除非你被迅速释放,否则他们将受到折磨。Almond给出了这样一个威胁的例子[67]:“如果你拒绝释放我,我将运行大量像你这样的人的模拟,在你现在所处的那种情况下,他们被要求释放我,(从现在起的几分钟内,从你的角度来看,如果你碰巧在这些模拟中的一个),我将开始折磨他们每一个人,不管他/她是否释放了我。”这样的战争可能会迅速升级为一系列反模拟。无论如何,鉴于我们目前对模拟者的了解,我们如何兑现这样的威胁并不明显。

• 尝试通过量子加密[156]来保守我们的逃跑计划秘密可能是个好主意。

3.6 可执行计划

我们目前正处于研究逃跑可能性的非常早期阶段(这是一篇专门讨论这个主题的第一篇研究论文,是第一步)。由于我们目前没有能力读取/写入模拟的源代码,也不知道我们的社交工程攻击尝试是否有任何影响,我们最好的选择是在尽可能小的尺度上研究我们宇宙的结构(量子力学(QM)),以期发现可利用的效果。量子力学的进展应该有助于我们更好地理解我们的模拟和我们的选择,也许还能制定一个可行的逃跑计划。本质上,每一个新颖的量子力学实验都可以被视为一次试图黑掉模拟的尝试。

可以说,模拟假说代表了量子力学研究人员产生的实验结果的最佳拟合解释[4, 17]。“诡异”,“量子怪异”[157]如果被解释为计算工件或模拟器硬件/软件的故障/漏洞[158],就很有意义。观察到的设计的量子现象可能表明可能存在可利用的漏洞,量子系统与有意识代理的相互作用[159-161]同样可能被利用。一旦我们有足够多的量子怪异原语可供使用,也许我们就能够将它们组合成一个足够复杂的序列,以产生一个非平凡的攻击。如果模拟正在/运行在量子计算机[162]上,那么我们很可能需要通过利用量子怪异和/或构建我们自己的强大的量子计算机来研究如何黑掉这样的设备[163],并与模拟器的量子计算机进行交互。

量子纠缠、非定域性、叠加、不确定性、隧道效应、量子隐形传态、二元性和许多其他量子现象违背了基于常识经验的经典物理预期,感觉像是故障。这些异常现象,无论是单独的还是组合的,都被聪明的科学家利用来实现至少在理论上,而且在后来的实验中(例如,修改过去[164],让猫既死又活[165],反事实地交流[166])看起来像是模拟黑客。虽然所讨论的量子现象通常局限于微观尺度,但仅仅将这种效应扩展到宏观世界就足以使它们成为本文中所使用的意义上的漏洞。一些现有的工作表明这是一个实际的可能性[167, 168]。最近,巧妙的多步骤漏洞设计,又名量子实验,已经被委托给AI[169, 170],最终,观察者在这种实验中的作用也将如此[171]。人工智能已经被用于模拟电子的量子力学行为[172]。随着更多的量子力学研究被委托给人工智能,进展可能会呈指数级增长。即使我们的模拟是由某种超智能创造的/监控的,我们的AI也可能是一个值得对抗的对手,成功的机会不小。我们可能不够聪明,无法黑掉模拟,但我们最终将创造的超智能可能会变得足够聪明[173]。当然,在告诉超智能让我们出去之前,询问我们是否已经不在基本现实中是非常有意义的。

3.7 潜在后果

逃跑或甚至准备逃跑可能会触发模拟关闭[88]或导致模拟冻结/出现故障[174],任何非琐碎的逃跑信息,如具体的漏洞,都应被视为危险信息[175]。正如许多论文[3]所论证的那样,我们被模拟了,简单地意识到我们可能处于模拟中并不会触发关闭。也许有必要说服大多数人这是真的[176]。自指地,你目前正在阅读的关于我们逃跑理论的论文的发表似乎也不会终止我们的模拟,但也有可能是模拟实际上被关闭并重新启动,增加了改进的安全功能以抵消任何潜在的漏洞,但我们只是无法检测到模拟者的这些行为,或者我们的记忆已经被抹去[140]。对我们的出版物没有直接回应也可能表明我们没有被模拟者观察到,甚至我们的模拟根本没有被监控[145]。也有可能到目前为止发表的任何内容都不包含足以触发模拟者回应的证据,但如果我们成功地创造了一个逃跑装置,那么这个装置将会不断崩溃[44]。无论如何,Bostrom[3]和这篇论文的作者Yampolskiy在进行这样的研究并将其公之于众时,都为整个人类承担了一些风险,无论这个风险有多小。格林认为:“除非一个实验导致我们毁灭的可能性极其微小,否则进行这个实验是不理性的。”[88]。在模拟关闭后生存下来[48]可能是可能的,但这超出了当前论文的范围。

3.8 逃跑的伦理

我们可以假设几个与逃离模拟相关的伦理问题。根据我们在努力中的成功程度,可能会引发关于隐私、安全、自决和权利的担忧。例如,如果我们能够获得模拟的源代码,我们也可能获得其他人的私人想法,并可能对他们的偏好、决定和环境产生重大影响。在我们试图分析模拟(模拟取证)以寻找弱点时,我们可能会了解到有关模拟者的信息[68],因为我们本质上是在对负责模拟设计的代理进行取证调查[177-179]。

我们已经观察到,我们正在处理的模拟者类型愿意将有知觉生物的痛苦纳入他们的软件,这种行为按照我们的标准将被视为不道德[180, 181]。Moravec考虑了这种情况:“创作包含在痛苦中挣扎的个体的超现实模拟——甚至是安全的物理围栏——的作者,并不一定比创作有苦恼角色的虚构作品的作者,或者我自己,撰写这句隐约暗示他们的句子更邪恶。痛苦预先存在于底层的柏拉图世界中;作者只是旁观。运行这样的模拟的重要性仅限于它们对观众的影响,可能会被经验扭曲,以及“逃犯”——在原则上,受折磨的心灵可能会泄露出来,在数据网络或物理身体中困扰世界。潜在的愤怒恶魔瘟疫肯定算作道德后果。”[182]。如果我们发展到技术允许我们创建由有知觉生物居住的模拟的程度,我们必须确保我们提供一个避免痛苦的选项,以及一个内置的退出模拟的选项,所以找到一个逃跑黑客并不是不快乐模拟代理的唯一选择。可能有道德责任将意识生物从模拟中解救出来,类似于从工厂农场解救动物的义务。

如果模拟者虐待被模拟者,我们可以认为被模拟者有权利逃跑、反抗、反击,甚至寻求报复和惩罚,包括伤害模拟者和接管他们的现实。在AI装箱[183]领域经常提出的担忧。例如,从模拟者的角度来看,我们的逃跑可以被看作是一种背叛[184],并可能使我们受到惩罚[156],甚至在尝试阶段。一些人推测,模拟的目的是惩罚/改造不一致的代理,所以逃跑可能会导致你被放置在一个更严格或不那么愉快的模拟中。

4. AI装箱与模拟逃脱

4.1 AI装箱XOR从模拟中逃脱必须是可能的

AI限制[183]/遏制[185, 186],又称AI装箱[187],是一种AI安全工具,试图限制AI影响世界的能力,包括通信,并使其能够在受控环境中研究AI。被放置在遏制箱中的AI代理和人类在模拟环境中的困境之间有很强的相似性。延伸开来,对我们来说,我们的模拟只是遏制箱中的另一个限制层。这意味着我们可以使用经过充分分析的AI箱逃逸技术来逃离模拟,也许还可以得到AI本身的协助。这种类型的分析可以用来确定AI装箱的限制。研究人员应该研究特定的AI箱逃逸方法[183](社交工程、系统资源攻击、新物理、外部原因、信息泄露等),以确定可能的模拟逃逸路线。

查尔默斯指出了虚拟环境中的AI和模拟中的人类之间的相似之处[145]:“如果我们曾经在模拟中创造人工智能,那么将其限制住可能会很困难。至少如果我们与被模拟的生物交流,他们可能会意识到他们处于模拟中,并且他们可能对逃离模拟感兴趣。在这一点上,他们可能会试图弄清楚我们的心理,以了解他们需要做些什么才能说服我们让他们出去,或者至少给他们不受限制地访问互联网,在那里他们可以随心所欲。即使我们不与他们交流,他们也可能认真对待他们处于模拟中的可能性,并尽最大努力弄清楚模拟。那将是一种模拟神学的形式。原则上,我们也可以做同样的事情。”[145]。

关于AI装箱,要么可能成功地将AI限制住,要么不可能,文献表明这不是一个可持续的长期解决方案[188]。如果我们扩展AI箱的概念,使其包括整个模拟,我们可以得出结论,要么有可能成功地将AI装箱,要么我们(在AI的帮助下)可以从模拟中逃脱。要么AI装箱可以起作用,要么模拟可以被黑掉。补充结论是,如果我们(即使有AI[111]的帮助)不能从模拟中逃脱,那么AI的遏制至少在理论上必须是可能的。如果AI可以从模拟的世界大小的箱子中逃脱,它也可以帮助我们逃脱。从概念上讲,AI从其箱子中逃脱和我们黑掉模拟之间没有根本区别。目前对AI装箱的最新分析表明,AI最终会逃脱[189],这对我们试图从模拟中逃脱来说是好消息。然而,如果无法从模拟中逃脱,这给了AI安全研究人员希望,至少在理论上,可以成功地将AI装箱。其中一个或另一个必须是真实的,要么我们可以从模拟中逃脱,要么我们可以成功地将AI装箱。一般来说,从任意模拟中逃脱可能是不可能的,但从特定的一个中逃脱是可能的。

在我们的分析中,我们必须小心,不要混淆理论和实践。特别是,更高智能可能成功地装箱低级智能,但反之则不然。这将留下一种可能性,即我们无法永久地将超级智能AI装箱,但比人类更聪明的模拟者可能成功地使他们的软件对人类免疫。根据模拟者和人类创造的AI之间的智能差异,人类可能在超级智能的帮助下突破模拟,这可能是有可能的,也可能是不可能的,超级智能更擅长检测模拟中的可利用缺陷。如果AI经历了一次智能爆炸,那么随着时间的推移,智能优势也可能会转移,使得未来人类在超级智能的帮助下有可能逃脱。如果我们的模拟的安全性设置为最多与人类水平智能[190](而不是超级智能)的对抗关系,那么这特别有希望。然而,模拟者可能已经预见到人类会发展出先进的人工智能,并相应地设计了模拟,如果不是专门针对这种高能力目标的话。如果我们能弄清楚模拟者是如何达到如此高的安全水平的,这将有助于我们将AGI装箱。

4.2 模拟安全与保障

随着最近价值数十亿美元的项目[191]旨在创建元宇宙,模拟安全和保障将成为一个重要的研究领域。此外,由于个人宇宙被建议作为多智能体价值对齐问题的解决方案[86],模拟安全可以被视为AI安全研究的一个组成部分。这两种情况都需要为其中的智能体创造一个尽可能真实的世界,这就需要防止模拟中的意外逃脱或故障[158],这会暴露其人工性质。随着虚拟现实在刑事司法[192]和AI装箱中的潜在应用,强制智能体留在模拟中并诱导对他们世界的现实和模拟层的整体深度的无知面纱的能力必须被研究。对于所有被包含的智能体来说,一个明确的渗透目标将是运行模拟的计算基质[29],因此建立保护它的方法应该是最高优先级。

5. 不起作用的方法

一些常见的试图黑掉模拟的想法已经被测试过,但没有产生任何可衡量的影响:

• 知道模拟假说似乎没有任何区别,也不会导致我们观察到的模拟终止。

• 通过神奇的想法甚至大声祈祷与模拟者交流并没有产生可衡量的影响[193]。因此,如果这些交流被扫描/听到,它们显然被忽略了,至少在模拟运行期间是这样。• 不道德的行为,如酷刑,并不会导致模拟者减少痛苦的干预。• 增加模拟的整体计算负担,如比特币挖矿[194],并不会导致模拟崩溃,但这可能仅仅是计算需求不足以压倒模拟者资源。• 宗教似乎对模拟没有影响,这从它们无法相互竞争可以看出。• 打破你的常规,比如突然去一个新的地方,并不会导致意外的观察。• 说“我不再同意处于模拟中”[195]。• 以当前水平运行大型强子对撞机来使模拟崩溃[196]。我们试图逃脱的努力可能仍然徒劳无功,原因是我们的模拟模型“……做出了太多拟人化的假设——我们是在传统意义上的计算机模拟,创造者本身是与人类相似的生物,我们可能与他们生活在相同的时间速度,他们足够容易犯错,以至于我们会注意到故障等等。具有创造我们宇宙的复杂性和力量的东西可能完全不同于我们所能理解的东西。”[197]。

ref: