国际疾病分类编码(ICD)是医疗数字化的基础设施。医生看完病历手写代码,耗时且易错。英语世界的自动编码研究已经很多,俄语区却几乎空白。

问题在于数据。俄语病历结构松散、缩写混乱、语法复杂,现有模型直接迁移效果很差。更麻烦的是标注——需要既懂医学又懂编码的专家,成本极高。

打开网易新闻 查看精彩图片

新数据集RuCCoD试图破局。它收录了5.4万份俄文出院小结,覆盖住院和门诊场景,并配备人工校验的ICD-10代码。这是目前俄语领域规模最大的同类资源。

打开网易新闻 查看精彩图片

实验结果显示,基于该数据训练的模型在宏平均F1上达到0.42,较基线提升明显,但离临床可用还有距离。主要瓶颈在于罕见病编码和复合诊断的拆解。

打开网易新闻 查看精彩图片

研究者开源了数据和代码。这对俄语区医疗AI是必要的第一步——先解决"有没有",再谈"好不好用"。