85%准确率！微软AI诊断系统超人类四倍，成本还降20%

SENSORO升哲科技

2025-07-03 17:22 ·北京

医学一直被认为是“科学+经验”的结合，但微软最近用一个AI程序证明：看病这事儿，机器人也能学，甚至比人更厉害。

这个AI叫“MAI-DxO”，它参加了一场“考试”——诊断《新英格兰医学杂志》里那些“难倒医生”的复杂病例（比如症状不明显、容易误诊的疑难杂症）。结果显示：AI答对了85%的题，而人类医生只能答对20%（差不多是AI的1/4）。

更厉害的是，AI不仅更准，还更省钱——它安排检查的平均成本比医生低20%。

这场“考试”是怎么设计的？

这些病例都是特意选的“烧脑题”：症状不典型、病因难猜，专门用来考倒医生。微软挑了300道这样的题，让AI和21位美英全科医生“比赛”。

为了模拟真实看病流程（医生会先问症状、安排检查，再根据结果调整判断），AI和医生都要按步骤来：每一步收集信息后，决定下一步做什么（比如抽血、拍CT），像玩“推理游戏”一样推进诊断。

AI凭什么赢？三个关键

1.“群策群力”的聪明劲儿：AI不是单打独斗，而是集合了市面上多个顶尖AI模型（比如Claude、DeepSeek、GPT等）的“智慧”，再通过一个“协调器”（类似虚拟会诊）整合它们的思路，像医生讨论病例一样综合判断。

2. 没偏见，更理性：人类医生容易“先入为主”（比如看到咳嗽就怀疑感冒，可能忽略其他病因），但AI不会被这种“经验偏见”影响，分析更客观。

3. “打草稿”的透明性：AI不仅给出诊断结果，还会把“思考过程”一步步列出来（比如“因为患者有X症状，所以排除Y病；根据Z检查结果，判断是A病”），医生可以随时查看并核查，像学生交卷时附上解题步骤。

但这事儿还没“落地”，为啥？虽然AI考试成绩好，但离真正进医院用还有几步要走：

监管没明确：美国FDA（管医疗设备的机构）还没说这种AI算不算“医疗设备”，能不能正式用。
真实场景待验证：现在测试用的是“模拟题”，真实看病时情况更复杂（比如患者描述不清、突发状况），AI还需要在真实医院里“实战考试”。

微软不是唯一的玩家。谷歌也在开发类似的AI系统，模拟医患对话来诊断。早期测试中，它的准确率是59%（医生33%），虽然不如微软的85%，但也比医生强不少。

如果AI真能进医院，可能带来两个大变化：

更少误诊，更少浪费：医疗错误是看病贵的一大原因（比如误诊后重复检查），AI更准能减少这些浪费。
好医生“人人能用”：偏远地区或医疗资源少的地方，可能通过AI获得顶尖医生级别的诊断，不再依赖“本地有没有好医生”。

微软的AI看病测试结果很惊艳：更准、更便宜、还能“摊开草稿”让人检查。但它现在还像“学霸学生”，要真正成为“医院同事”，还得通过监管审批和真实场景的“实战考验”。未来如果成功，可能让看病更高效、更公平。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴