凌晨1点,某三甲医院急诊科。62岁男性急性STEMI并发急性心衰,血压185/105 mmHg,血氧91%。护士推来除颤仪,催促确认替格瑞洛剂量。患者肾功能受损,标准剂量易致脑出血,减量又怕支架血栓。医生只有3分钟——这3分钟漫长得像一个世纪。

深夜,珠江医院胸外科主任乔贵宾仍在伏案。身兼主任、主任医师、博导,日均工作超10小时,疑难病例加班是常态。《中国医生》总导演那句"没有哪个国家的医生承受这样的超级压力",精准概括了这一现实。

打开网易新闻 查看精彩图片

数据更直观:2024年全国诊疗101.5亿人次,三级医院28.7亿,病床使用率近九成。508.2万执业(助理)医师支撑百亿级需求。每次处方、医嘱、检查、手术方案,都需医生决策。而PubMed收录超4000万条文献,年增百万级。压力不仅来自患者数量,更来自高负荷中追赶最新证据的挑战。

互联网医疗提升就诊效率,却触不到核心痛点——医生的决策供给。这正是医学AI的真正空间。但过去一年,通用大模型进医疗后频频翻车。

最头疼的是"幻觉"。它会虚构文献,即使要求提供DOI号,链接也常错误,点开是另一篇文章。乔贵宾和同事都用过通用大模型,高幻觉率在胸外科这类硬核诊室,危害不亚于误诊。

英国皇家外科医学院期刊研究显示,某些主流AI平台医学参考文献超三分之一可能伪造:Grok 3幻觉率33.6%,DeepSeek DeepThink 25%。这些"幻觉引用"看似真实,带虚构Mayo Clinic链接或误导性标题。近半数顶尖模型回答医学问题时,默认不披露信息来源。

这与医生核心工作相悖:循证——如何知道推理和决策有理可据、权威、准确?尤其涉及知识盲区时,快速准确找到权威依据,最刚需也最头疼。而基于概率文本生成的通用大模型,并不天然具备"循证"能力。

业界将检索增强生成(RAG)奉为圭臬,把病历、指南、论文切片灌入向量数据库,让模型"带着资料回答"。但medRxiv论文显示,医学临床文本生成中加入RAG后,无依据声明率从5.0%飙升至43.6%,幻觉概率增加8.7倍。

临床文本高度非结构化,充满上下文依赖、时间敏感信息和冲突证据。不同患者、时间点的医学术语重叠度极高。RAG易检索出"语义相似但实际属于其他患者或错误时间点"的片段——找到"看起来相关"的资料,未必是"真正适用"的证据。模型据此凭空捏造虚假医学叙事。

如何确保找到对的证据、用对的上下文、给出可复核的判断?如何让每次回答绑定可信证据链?5月13日,阿里健康推出"氢离子",一款面向临床和科研医生的医学AI产品,试图破局。

产品设计上,AI被放在最后,定语首先是证据、循证。官方定位要解决"中国500万医生的一切医学问题"。"低幻觉、高循证"是核心标签:所有回答提供权威出处,支持一键溯源、直达信源。

"在严重幻觉率上,我们比国内竞品领先2-3倍。"阿里健康CTO祥志说。这让人联想到医学界"神器"UpToDate,医生查房、开药、处理疑难病例或准备科研时常用。但"氢离子"门槛更低:自然语言、多轮对话、语音、图片等多模态提问,像和同事讨论病例,AI结合上下文持续理解回应。

内测阶段,医生反馈最集中的关键词是"可信""可靠",尤其对"循证问答"评价极高。一位三甲急诊科主任医师88天内登录193次。

回到凌晨1点的急诊室。"心电捕手"打开"氢离子",输入"急性ST段抬高型心梗合并急性心衰,PCI术后替格瑞洛剂量调整(eGFR65)"。AI明确推荐负荷剂量180mg、维持剂量90mg bid,加粗标注依据——中华医学会2025年最新治疗指南。点击可直接查看电子化指南原文,无需翻找PDF。

关键细节:"氢离子"不是高亮整段文本,而是定位到真正决定结论的"关键三行"。医生看到的不只是"这篇文章可能相关",而是"依据具体在哪里"。

回答引入两个维度:时效性("2025年")和权威性("中华医学会指南"),强调对全球权威指南和文献日更级追踪筛选,基于动态证据生成回答。医学证据每天都在变化:新指南、新药物、新疗法、新临床试验层出不穷,肿瘤、感染、心血管等领域顶刊新结果可能直接改变第二天治疗策略。证据没跟上影响判断,代价是患者健康。

阿里健康深耕医学健康十余年,此次与国家级医学顶刊达成独家内容合作,是"氢离子"循证能力的底层支撑。从"撮合就诊"到"决策供给",医学AI的战场正在转移。医生需要的不是更聪明的聊天机器人,而是能站在证据链上、经得起复核的"神助攻"。

88天193次登录,这个数字本身说明问题:当AI真正解决"可信"痛点时,医生的使用频率不会说谎。