AI故障自救的两种路线：诊所模式 vs 免疫系统|免疫系统|密钥|服务器|调用

凌晨三点，你的AI服务突然挂了。这时候你有两个选择：把病人送到诊所，还是让身体自己产生抗体？

这不是比喻。SelfHeal和NeuralBridge这两款工具，正代表了AI API自愈的两种完全不同的架构哲学。一个像诊所，一个像免疫系统。我花了一段时间研究两者，发现它们的差异比表面看起来要深得多。

先说说AI API是怎么死的。常见的死法有四种：请求太猛被限流（429）、上游超时拖垮整条链、模型突然下线、或者供应商整个接口大变脸。两款工具都能处理这些问题，但解题思路完全不同。

SelfHeal走的是"代理模式"。你的请求先发到它的代理服务器，成功就放行，失败就交给大模型分析，返回一个修复方案让客户端重试。流程是：Agent → SelfHeal代理 → 目标API，出错后大模型分析（密钥已被脱敏）→ 返回修复指令 → 客户端重试。这是典型的诊所逻辑：送出去，诊断完，带着药方回来。

NeuralBridge则完全相反。它是一个110KB的Python包，零依赖，直接嵌入你的进程。调用失败时本地诊断、本地修复，没有网络跳转，没有第三方介入，数据不出你的运行时。代码看起来很简单：注册一下，加个can_proceed()判断，后面的调用如果失败就自动自愈。这是免疫系统逻辑：修复能力长在身体里。

几个关键数字值得细看。延迟方面，SelfHeal每次调用增加5毫秒，NeuralBridge是0.0025毫秒。按每秒一万次调用算，前者每秒额外消耗50秒的总等待时间，后者在每秒33.3万次调用下仍可视为零开销。

"零凭证暴露"这个说法需要拆开看。SelfHeal确实会在送给大模型分析前脱敏密钥，这是好的。但你的API密钥每次请求都要经过它的代理服务器——大模型看不见，代理基础设施看得见。"分析前脱敏"和"完全不碰第三方基础设施"是两回事。

SelfHeal深度绑定MCP（Model Context Protocol），这既是特点也是局限。如果你已经在MCP生态里深耕，这种设计很顺手；但如果你的架构不围着MCP转，这层代理就显得厚重。NeuralBridge的嵌入方式则对现有架构零侵入，加几行代码就行，但你需要自己处理更复杂的编排逻辑。

选哪个？看你的约束条件。数据不能出域、延迟极度敏感、已有成熟监控体系——NeuralBridge更对味。愿意让渡部分控制权换取开箱即用的智能路由、深度投入MCP生态、团队不想维护自愈逻辑——SelfHeal更省心。

没有标准答案。只有你的凌晨三点，更愿意被哪种方式叫醒。