科大讯飞的医疗大模型团队选在常规工作日放出V3.5版本,没有发布会,没有预热海报,只有一份技术报告和两组评测成绩。
按官方披露,这颗纯国产架构的医疗模型在IDC和MedBench两项评测里都拿了第一。IDC是国际医疗对话理解评测,考的是模型能不能听懂医生和患者的真实对话。MedBench则是国内医疗大模型竞技场,涵盖了临床知识、诊断推理、治疗方案等多个维度。两个榜单方向不同,但讯飞都排到了榜首。
打开网易新闻 查看精彩图片
真正让业内侧目的是病历采纳率这个指标。91%——就是说模型生成的病历草稿,医生基本不用大改,可以直接归档。做过医疗信息化的都清楚,病历书写占用了医生大量时间,如果一个模型真能把采纳率拉到九成以上,节省的不只是打字时间,而是整个诊疗流程的流转效率。
注意一个细节:讯飞这次对标的是GPT-5.5,而且限定在医疗这个垂直领域。不是比写诗,不是比解数学题,就是比看病历、写诊断、理解医患对话。在垂直场景里用专有数据做精调,跑赢通用大模型,这条路径已经被验证过不止一次,但在医疗领域拿到91%这个数字,还是让人琢磨——通用模型和行业模型之间的差距,可能比我们想的要大。
当然,评测榜单的局限性也得说。跑分高不等于临床好用,病历采纳率91%是在什么规模、什么病种、什么级别的医院测出来的,这些细节目前还没有公开。如果测试集集中在三甲医院的标准化病历,那和基层医院的实际情况会有落差。技术报告里提到的落地路径,要看接下来能在多少家真实医院跑通。
热门跟贴