「周一早上,一个工程师在休年假,午饭前三个工作流全卡住了。」

这不是什么创业公司翻车现场,是技术团队最熟悉的隐形炸弹。Slack 里堆满「 quick question 」(快速提问),站会变成 scavenger hunt (寻宝游戏)——到处找上下文。到周三,团队终于想明白:问题不是产出不够,是 critical knowledge (关键知识)全锁在一个人脑子里。

打开网易新闻 查看精彩图片

被误认的「优秀」

大多数领导层看到这种情况,不会叫停。他们会换一套说辞:

「她是我们最强的工程师。」

「他对平台的理解没人比得上。」

「出事了找他。」

作者承认自己职业生涯里全说过,也全为此付过代价。卡住的从来不是 coding skill (编码能力),是 missing map data (缺失的地图数据)——某些决策为什么存在、隐藏依赖藏在哪里、哪些改动看起来安全实则 downstream (下游)爆炸。

团队有才华,系统很脆弱。

读过《凤凰项目》的人知道这叫 the Brent Effect (布伦特效应):一个不可替代的人被绑上每条 critical path (关键路径),领导把 heroic saves (英雄式救火)当成系统健康,一切正常直到这人消失。

不同年代,同一部电影,只是 dashboard (仪表盘)更好看了。

核心图: Brent 效应的运行机制

Brent 效应不是性格缺陷,是 operating model choice (运营模式选择)。你设计的是 local efficiency (局部效率),醒来发现的是 global fragility (全局脆弱性)。

危险之处在于形成过程毫无异常。起初一切正常: ticket (工单)还在流转, release (发布)还在出去,领导看到的 dashboard 还是绿的。唯一早期信号是行为层面的——风险出现时所有人都知道该 @ 谁,但没人问为什么这个模式反复出现。

大多数团队追踪 cycle time (周期时间)、 deployment frequency (部署频率)、 incident count (故障数)。很好,继续追踪。但如果不追踪 skill and context distribution (技能与上下文分布),你就漏掉了能 invalidate (使失效)以上全部三项的风险。

作者现在用一个简单评分应对关键域,不是因为分数有多酷,而是因为「我们应该多交叉培训」这种 hand-wavy (含糊的)对话从来熬不过季度末压力。

五维评分表:找到你的单点故障

选一个 critical service (关键服务)或 workflow (工作流),五个维度各打 0-2 分。目标不是完美,是暴露 roadmap (路线图)依赖了哪根神经。

维度一: Coverage (覆盖度)

多少工程师能在没有常规负责人的情况下安全修改这个区域?

0 分:只有一个人

1 分:2-3 人,但需要大量同步

2 分:4 人及以上,能独立推进

维度二: Recovery (恢复能力)

on-call (值班人员)能否在不升级给同一个人的情况下恢复核心流程?

0 分:必须找特定人

1 分:能处理常见 case ,复杂情况仍需升级

2 分: runbook (操作手册)完备,常规场景全覆盖

维度三: Decision Traceability (决策可追溯性)

工程师能找到决策背后的原因吗?

0 分:代码注释和文档都没有,只能问人

1 分:部分文档化,关键决策有记录

2 分:架构决策记录( ADR )完整,上下文可回溯

维度四: Onboarding Transfer Speed (新人上手速度)

新工程师 30 天内能 ship meaningful change (交付有意义的改动)吗?

0 分:3 个月以上才能独立贡献

1 分:1-2 个月,需要大量指导

2 分:30 天内能合并首个体量适中的 PR

维度五: Ownership Rotation Health (负责人轮换健康度)

过去 2 个季度负责人轮换过吗?

0 分:同一人持有超过 6 个月

1 分:名义上轮换,实际仍依赖原负责人

2 分:真正完成知识转移,新负责人独立决策

总分 10 分。关键规则:按 domain (领域)打分,不是按 team (团队)。团队整体看起来健康,可能某个支付流程、某个集成接口、某个部署路径仍然命悬一线。目标不是漂亮的平均分,是找到那根 thread (细线)。

为什么团队打分没用

作者特别强调 score by domain, not by team (按领域打分,不是按团队)。这个区分极其关键。

团队层面的指标太容易伪装健康。10 个工程师的支付团队,平均 coverage 可能 1.5 分看起来还行——但拆到具体领域:核心账务模块 0 分(只有老张能动),对账接口 0 分(只有小李懂),退款流程 1 分(两人能处理简单 case )。三个 0-1 分的领域,恰好是季度末大促最可能出事的环节。

平均分的幻觉让领导层误判风险分布。绿色 dashboard 背后,是三个「 quick question 」就能阻塞全队的单点。

另一个常见陷阱:名义轮换,实际没转。 Ownership 在组织架构图上换了人,但新负责人每个决策都要 Slack 原负责人, on-call 遇到非常规情况直接电话轰炸。这种「伪轮换」打 1 分都算客气,实际风险接近 0 分。

从「英雄叙事」到「系统免疫」

Brent 效应的深层悖论:它往往由「优秀」喂养而成。

那个总能救火的人,获得更多关键项目;更多关键项目,加深系统对他的依赖;更深的依赖,制造更多需要救火的场景。循环强化,直到 PTO 成为 stress test (压力测试)。

打破循环需要刻意设计。不是「找个备份」,是重新设计知识分布的激励机制。

具体做法:把 coverage 和 rotation 纳入绩效评估。不是惩罚那个被依赖的人,是奖励主动拆解依赖的行为——写文档、做分享、带新人、推动重构降低认知门槛。让「让我变得不再必要」成为晋升信号,而非职业风险。

另一个杠杆:强制 PTO 测试。不是鼓励休假,是观察休假期间的真实系统表现。哪些流程卡住、哪些决策无人敢做、哪些「 quick question 」反复出现——这些才是优先级最高的技术债。

你的下一步

这周五下午,花 20 分钟做这个实验:打开你们最 critical 的三个服务,用五维表打分。不用追求完美数据,诚实即可。

如果某个领域总分 ≤3 ,恭喜你找到了季度末的隐藏炸弹。下周的站会,别聊 feature 进度了,聊聊怎么把那个 0 分改成 1 分。

最简单的起点:让那个「不可替代」的人这周开始写「如果明天我消失」文档——不是完整的架构设计,是三张便签:我最常被问的三个问题、我最后悔的三个技术决策、我最害怕有人触碰的三块代码。

知识分布的衡量,从今天开始。