一个工具能救命,也能坑娃。关键看你怎么用。

Max Wisdumb是个私人诊所的眼科医生,也是个爱折腾的技术宅。他最近干了两件事:用大型语言模型(LLM,即基于海量文本训练的人工智能对话系统)确诊了一个差点被漏掉的致命脑病,然后又用同一个工具,让自己两岁的女儿在婴儿床里罚站了三小时。

打开网易新闻 查看精彩图片

这两件事放在一起,恰好说清了当下AI最尴尬的真相——它既可以是专业人员的超级外挂,也可以是懒人父母的甩锅神器。

第一幕:从"再观察观察"到"马上住院"

病人是个年轻男性,拄着拐杖进来,说话含糊,眼睛睁不开。他妈妈说他最近瘦了75磅(约34公斤),只用10周,而且在严格控制饮食。

急诊室已经打发他回家一次了。肚子疼、头疼、视力模糊、短暂晕厥——按常规流程检查完,建议"随访家庭医生"。

但Wisdumb认识这孩子很多年。他知道这人以前什么样,现在瘦脱相了不对劲。

维生素缺乏?他想到韦尼克脑病(Wernicke's encephalopathy,一种因严重缺乏维生素B1导致的急性脑损伤,常见于长期酗酒或极度营养不良者)。这病在年轻人里罕见,症状又不典型,急诊漏诊不奇怪。

但他不是内科医生,不能越界。他把情况喂给ChatGPT,模型回复"高度可能"。

他找眼科同事商量,对方有医院权限,认同判断,建议直接上"香蕉袋"(一种含多种维生素和矿物质的静脉输液)+专项血检+核磁共振,还帮忙给急诊打电话报备。

说服妈妈再跑一趟医院不容易——刚被赶出来,谁想回去?但最终去了。

核磁正常。血检结果出来,Wisdumb把数据再喂给AI,指向更明确。高二氧化碳、异常电解质——典型的韦尼克脑病代谢特征。

这次急诊没再放手。病人住院,确诊,治疗。

韦尼克脑病是医学急症,早发现可逆,拖久了就是永久性脑损伤、严重失忆或死亡。这个病例被漏过两次:第一次急诊,第二次核磁正常后差点又放走。

AI在这里扮演的角色很精确:不是替代诊断,而是帮一个专科医生快速锁定罕见病方向,突破"这不是我的领域"的心理障碍,推动跨科室协作。

第二幕:从"帮我哄睡"到"站军姿三小时"

同一个工具,换了个场景,画风突变。

Wisdumb两岁的女儿有睡眠问题。他建了套"睡眠训练协议",用ChatGPT生成执行方案。

具体操作:孩子哭的时候,AI根据哭声类型、持续时间、上次喂食时间,判断是"需要干预"还是"继续等待",然后给指令。

某天晚上,女儿站在婴儿床里哭。AI说:这是抗议性哭泣,不要进去,让她自己平静下来。

他照做了。

三小时后进去看,孩子还站着。站着睡着了,站着醒着,反正就是站着。没躺下,没坐下,硬站三小时。

「我让她在婴儿床里站了三个小时,」他在原文里写,「因为我信任这个系统胜过信任自己的判断。」

这句话是关键。医疗场景里,AI是辅助,最终决策权在人和专业同事手里。育儿场景里,AI成了甩锅对象——"系统说不用管",于是真的不管了。

五个要点:为什么同一把刀,切菜切手两相宜

1. 专业壁垒是防火墙,也是减速带

医疗有明确边界。Wisdumb知道自己不是内科医生,所以AI输出只是"高度可能",必须找同事确认。这个"知道自己不知道"的自觉,挡住了盲目行动。

育儿没有执业门槛。谁都能当父母,AI建议听起来又科学,很容易直接执行。专业壁垒的缺失,让同一套工具从"参考"滑向"指令"。

2. 反馈周期决定学习速度

医疗决策的反馈很快:血检、影像、治疗反应,几天内验证对错。错了能纠,对了能确认。这种快速闭环让使用者和AI一起进化。

育儿反馈慢且模糊。孩子站三小时,当下看不出伤害,长期影响更难追溯。没有明确后果,就不会触发反思机制。

3. 责任归属清晰度不同

医疗场景责任链明确:医生签字,医院背书,出事可追溯。AI只是链条中的一环,不会成为最终责任人。

育儿场景责任模糊。孩子出问题,父母怪AI?AI怪父母?没有第三方仲裁,容易陷入"都怪你/都怪我"的扯皮。

4. 数据质量与场景匹配度

韦尼克脑病有明确医学文献支撑,症状-诊断-治疗方案在训练数据里存在大量结构化信息。AI输出可靠性高。

婴儿睡眠训练的数据混杂了行为主义心理学、民间经验、商业营销话术。同样叫"睡眠训练",方法从"哭声免疫法"到"亲密育儿"完全对立。AI只能给平均答案,而平均答案对具体孩子可能是错的。

5. 人机协作模式的选择

医疗案例里,AI是"第二意见"生成器。人类保留否决权,且否决权有专业背书。

育儿案例里,AI是"决策外包"接收器。人类主动放弃判断,把执行权交给算法。

这两种模式没有绝对好坏,但后者需要极强的元认知能力——你得知道什么时候该质疑系统。而疲惫的新手父母,恰好是元认知资源最匮乏的群体。

工具不会犯错,错的是使用姿势

Wisdumb的反思很直接:「我信任系统胜过信任自己。」

这句话可以有两种解读。悲观版:AI让人类变懒,丧失基本判断力。乐观版:AI逼人类更清晰地定义"什么情况下我该相信自己"。

医疗场景的成功,恰恰因为他没完全信任AI——信任的是"AI+同事+可验证数据"的组合。育儿场景的翻车,是因为他把复杂决策压缩成了单一输入-输出。

这指向一个更深层的问题:当我们说"AI辅助决策"时,"辅助"的边界在哪里?

医疗行业有百年积累的质量控制体系,边界相对清晰。日常生活没有。我们正批量制造"AI建议→直接执行"的灰色地带,而用户手册还没写好。

Wisdumb的经历是个微型样本:同一个用户,同一套技术,不同场景,结果天差地别。这说明问题不在工具本身,而在场景化的使用协议缺失。

我们需要的不只是更好的模型,更是明确的"人机分工说明书"——什么时候AI做主,什么时候人类必须介入,什么时候应该暂停系统寻求外部确认。

目前这份说明书,得靠每个用户自己写。有人写得好,救人一命。有人写得潦草,娃站三小时。

下次当你准备把某个生活决策交给AI时,不妨先问自己:如果这事搞砸了,我能说清楚是谁的责任吗?如果答案模糊,可能就该把手从"自动执行"按钮上挪开。

毕竟,孩子不会因为你用了AI而原谅你——她只会记得自己在婴儿床里站了很久,而爸爸没进来。