NASA把4台电脑搞成"互相拆台"，结果比共识算法还稳

字节漫游指南

2026-04-13 18:01 ·北京

你的分布式数据库用3台服务器做冗余，一次网络抖动让它们对"哪条写入先到"产生0.5秒分歧。系统选择冻结自保，800毫秒里所有写入失败，用户看到报错，你凌晨3点爬起来查日志——三台机器都对，只是时间戳差了几毫秒。安全机制生效了，故障也发生了。

这是每个分布式工程师都经历过的经典噩梦。我们把它当作"做生意的成本"：投票器本应是救星，结果成了凌晨debug的对象。

NASA刚交付了一台绕月飞行的计算机，在强辐射环境下允许4台处理器"互相拆台"，却比你花百万买的云架构还稳。

教科书教什么，NASA就反着来

教科书教什么，NASA就反着来

分布式系统的黄金法则是共识（consensus）。Paxos、Raft、PBFT——这些算法名字背后是同一条铁律：所有节点必须对系统状态达成一致，才能继续工作。分歧即故障，故障即停机。

NASA的猎户座飞船飞行计算机（Orion Flight Computer）装了4个完全独立的处理器，运行同一套任务代码。但关键来了：它们从不试图达成共识。

传统设计会让4个节点投票选出"多数派"，少数派被静默或重启。NASA的方案是：让4个节点各自输出结果，用一个硬件投票器（voter）做简单多数裁决。3比1？听3个的。2比2？系统进入降级模式，但不停机。

「我们故意允许它们不一致，」猎户座航空电子负责人Jason Hundley解释，「辐射可能让单个处理器瞬间发疯，但4个同时发疯的概率低到可以忽略。」

辐射环境下的"疯人院"逻辑

辐射环境下的"疯人院"逻辑

太空辐射不是地球上的位翻转（bit flip）。高能粒子穿透芯片时，可能让寄存器值突变、程序计数器乱跳、甚至让CPU执行完全错误的指令。地面数据中心的"故障"是节点失联或网络分区；太空的故障是单个节点产生看似合理、实则离谱的计算结果。

2017年，NASA在德克萨斯州粒子加速器做过测试：用质子束轰击猎户座计算机原型，模拟深空辐射环境。结果是一台处理器在计算轨道参数时，突然输出"飞船正在坠入太阳"——而另外3台正常显示月球转移轨道。

如果这是你的Kubernetes集群，Raft算法会尝试让故障节点重新同步日志，期间整个服务可能不可用。NASA的投票器只问一句话：「你们4个，谁跟谁答案一样？」然后执行多数派指令，把异常值直接丢弃，不诊断、不同步、不修复。

故障节点继续运行，继续输出垃圾，只是没人听它的。

你的凌晨3点，NASA的"设计即放弃"

你的凌晨3点，NASA的"设计即放弃"

地面工程师追求"优雅降级"：节点故障时，尽量保留数据一致性，尽量自动恢复，尽量让用户无感知。这套思路在太空行不通——你不可能凌晨3点ssh进绕月飞船修配置。

猎户座计算机的设计哲学是「故障隔离优先于故障修复」。4个节点之间没有共享状态，没有心跳检测，没有日志复制。它们像4个互不认识的算命先生，各自掐指一算，投票器只看结果是否扎堆。

这种架构的代价是硬件冗余度极高：4套完整计算单元、4套电源、4套冷却系统。收益是确定性——系统行为只取决于"几个节点正常"，而不是"哪个节点在什么时候说了什么"。

Jason Hundley团队算过账：猎户座任务期间，单节点因辐射产生严重错误的概率约1/3。4节点同时出错的概率低于百万分之一。他们不需要防范"共识失败"，因为根本没有共识机制可供失败。

分布式系统的两种宗教

分布式系统的两种宗教

这个故事拆穿了行业的一个默认假设：分布式系统必须解决共识问题。Paxos活了30年，Raft成了面试必考，不是因为它们完美，而是因为我们在地面环境里，节点故障通常是"失联"而非"发疯"。

当你的威胁模型变成"节点可能产生任意错误输出"，共识算法反而成为攻击面。2018年，AWS S3曾因单个节点的状态机bug引发数小时中断——如果当时有3个节点各自独立计算、简单多数裁决，故障范围会小得多。

NASA的方案无法直接复制到地面：4倍硬件成本、确定性延迟牺牲、无法支持需要强一致性的场景（比如转账）。但它提供了一个被忽视的选项：有时候，放弃共识比追求共识更可靠。

你的下一次架构评审，会不会有人提议"我们试试NASA那个互相拆台的方案"？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴