打开网易新闻 查看精彩图片

医疗AI圈有个公开的秘密:电子病历(EHR)数据像一团缠在一起的耳机线,你以为是线的问题,其实是口袋的问题。AIModels.fyi团队最近扒了37个医疗AI项目的底裤,发现超过80%的模型在训练前,数据清洗成本占了总预算的60%以上。

问题出在EHR的结构本身。患者一次就诊可能产生200多个字段,从血压到医保编码,从手写笔记到CT影像链接。更麻烦的是时间戳——同一次住院,护士记录、医生诊断、药房发药的时间可能相差几小时,甚至几天。想把这堆东西塞进标准的机器学习表格,相当于把一家三代人的相册强行按日期排序,还要假装所有人都在同一个时区。

某医疗AI公司CTO私下吐槽:「我们花了18个月做特征工程,最后发现模型学的是哪家医院用的键盘品牌。」这不是笑话。不同医院的EHR系统由不同厂商搭建,字段命名规则千差万别,同一项指标可能有47种写法。

更隐蔽的坑是缺失数据。表格模型默认"空值=未知",但医疗场景里,空值可能是"医生没问"也可能是"问了但患者拒绝回答",这两种情况对诊断的意义完全不同。有团队尝试用多模态模型绕过表格化,结果推理成本暴涨12倍,产品化直接卡死。

AIModels.fyi的实测显示,目前开源的医疗AI基准测试集,超过半数在数据预处理阶段做了"过度清洗"——删掉了太难对齐的字段,也删掉了真正有用的临床信号。一位参与评测的工程师说,他们上线前发现模型对"患者姓名长度"有轻微预测相关性,排查三周才确定是某家医院用姓名字段存了内部编码。