医疗AI公司狂砸4.2亿清洗数据，发现EHR根本塞不进表格|ehr|医疗ai公司|清洗数据|电子表格

医疗AI圈有个公开的秘密：电子病历（EHR）数据像一团缠在一起的耳机线，你以为是线的问题，其实是口袋的问题。AIModels.fyi团队最近扒了37个医疗AI项目的底裤，发现超过80%的模型在训练前，数据清洗成本占了总预算的60%以上。

问题出在EHR的结构本身。患者一次就诊可能产生200多个字段，从血压到医保编码，从手写笔记到CT影像链接。更麻烦的是时间戳——同一次住院，护士记录、医生诊断、药房发药的时间可能相差几小时，甚至几天。想把这堆东西塞进标准的机器学习表格，相当于把一家三代人的相册强行按日期排序，还要假装所有人都在同一个时区。

某医疗AI公司CTO私下吐槽：「我们花了18个月做特征工程，最后发现模型学的是哪家医院用的键盘品牌。」这不是笑话。不同医院的EHR系统由不同厂商搭建，字段命名规则千差万别，同一项指标可能有47种写法。

更隐蔽的坑是缺失数据。表格模型默认"空值=未知"，但医疗场景里，空值可能是"医生没问"也可能是"问了但患者拒绝回答"，这两种情况对诊断的意义完全不同。有团队尝试用多模态模型绕过表格化，结果推理成本暴涨12倍，产品化直接卡死。

AIModels.fyi的实测显示，目前开源的医疗AI基准测试集，超过半数在数据预处理阶段做了"过度清洗"——删掉了太难对齐的字段，也删掉了真正有用的临床信号。一位参与评测的工程师说，他们上线前发现模型对"患者姓名长度"有轻微预测相关性，排查三周才确定是某家医院用姓名字段存了内部编码。