医学一直被认为是“科学+经验”的结合,但微软最近用一个AI程序证明:看病这事儿,机器人也能学,甚至比人更厉害。
这个AI叫“MAI-DxO”,它参加了一场“考试”——诊断《新英格兰医学杂志》里那些“难倒医生”的复杂病例(比如症状不明显、容易误诊的疑难杂症)。结果显示:AI答对了85%的题,而人类医生只能答对20%(差不多是AI的1/4)。
更厉害的是,AI不仅更准,还更省钱——它安排检查的平均成本比医生低20%。
这场“考试”是怎么设计的?
这些病例都是特意选的“烧脑题”:症状不典型、病因难猜,专门用来考倒医生。微软挑了300道这样的题,让AI和21位美英全科医生“比赛”。
为了模拟真实看病流程(医生会先问症状、安排检查,再根据结果调整判断),AI和医生都要按步骤来:每一步收集信息后,决定下一步做什么(比如抽血、拍CT),像玩“推理游戏”一样推进诊断。
AI凭什么赢?三个关键
1.“群策群力”的聪明劲儿:AI不是单打独斗,而是集合了市面上多个顶尖AI模型(比如Claude、DeepSeek、GPT等)的“智慧”,再通过一个“协调器”(类似虚拟会诊)整合它们的思路,像医生讨论病例一样综合判断。
2. 没偏见,更理性:人类医生容易“先入为主”(比如看到咳嗽就怀疑感冒,可能忽略其他病因),但AI不会被这种“经验偏见”影响,分析更客观。
3. “打草稿”的透明性:AI不仅给出诊断结果,还会把“思考过程”一步步列出来(比如“因为患者有X症状,所以排除Y病;根据Z检查结果,判断是A病”),医生可以随时查看并核查,像学生交卷时附上解题步骤。
但这事儿还没“落地”,为啥?虽然AI考试成绩好,但离真正进医院用还有几步要走:
- 监管没明确:美国FDA(管医疗设备的机构)还没说这种AI算不算“医疗设备”,能不能正式用。
- 真实场景待验证:现在测试用的是“模拟题”,真实看病时情况更复杂(比如患者描述不清、突发状况),AI还需要在真实医院里“实战考试”。
微软不是唯一的玩家。谷歌也在开发类似的AI系统,模拟医患对话来诊断。早期测试中,它的准确率是59%(医生33%),虽然不如微软的85%,但也比医生强不少。
如果AI真能进医院,可能带来两个大变化:
- 更少误诊,更少浪费:医疗错误是看病贵的一大原因(比如误诊后重复检查),AI更准能减少这些浪费。
- 好医生“人人能用”:偏远地区或医疗资源少的地方,可能通过AI获得顶尖医生级别的诊断,不再依赖“本地有没有好医生”。
微软的AI看病测试结果很惊艳:更准、更便宜、还能“摊开草稿”让人检查。但它现在还像“学霸学生”,要真正成为“医院同事”,还得通过监管审批和真实场景的“实战考验”。未来如果成功,可能让看病更高效、更公平。
热门跟贴