阿里健康推医学AI"氢离子"：88天登录193次，医生为何高频使用|免疫性疾病|医学|医生|循证|氢离子|治疗|阿里健康

凌晨1点，某三甲医院急诊科。62岁男性急性STEMI并发急性心衰，血压185/105 mmHg，血氧91%。护士推来除颤仪，催促确认替格瑞洛剂量。患者肾功能受损，标准剂量易致脑出血，减量又怕支架血栓。医生只有3分钟——这3分钟漫长得像一个世纪。

深夜，珠江医院胸外科主任乔贵宾仍在伏案。身兼主任、主任医师、博导，日均工作超10小时，疑难病例加班是常态。《中国医生》总导演那句"没有哪个国家的医生承受这样的超级压力"，精准概括了这一现实。

数据更直观：2024年全国诊疗101.5亿人次，三级医院28.7亿，病床使用率近九成。508.2万执业（助理）医师支撑百亿级需求。每次处方、医嘱、检查、手术方案，都需医生决策。而PubMed收录超4000万条文献，年增百万级。压力不仅来自患者数量，更来自高负荷中追赶最新证据的挑战。

互联网医疗提升就诊效率，却触不到核心痛点——医生的决策供给。这正是医学AI的真正空间。但过去一年，通用大模型进医疗后频频翻车。

最头疼的是"幻觉"。它会虚构文献，即使要求提供DOI号，链接也常错误，点开是另一篇文章。乔贵宾和同事都用过通用大模型，高幻觉率在胸外科这类硬核诊室，危害不亚于误诊。

英国皇家外科医学院期刊研究显示，某些主流AI平台医学参考文献超三分之一可能伪造：Grok 3幻觉率33.6%，DeepSeek DeepThink 25%。这些"幻觉引用"看似真实，带虚构Mayo Clinic链接或误导性标题。近半数顶尖模型回答医学问题时，默认不披露信息来源。

这与医生核心工作相悖：循证——如何知道推理和决策有理可据、权威、准确？尤其涉及知识盲区时，快速准确找到权威依据，最刚需也最头疼。而基于概率文本生成的通用大模型，并不天然具备"循证"能力。

业界将检索增强生成（RAG）奉为圭臬，把病历、指南、论文切片灌入向量数据库，让模型"带着资料回答"。但medRxiv论文显示，医学临床文本生成中加入RAG后，无依据声明率从5.0%飙升至43.6%，幻觉概率增加8.7倍。

临床文本高度非结构化，充满上下文依赖、时间敏感信息和冲突证据。不同患者、时间点的医学术语重叠度极高。RAG易检索出"语义相似但实际属于其他患者或错误时间点"的片段——找到"看起来相关"的资料，未必是"真正适用"的证据。模型据此凭空捏造虚假医学叙事。

如何确保找到对的证据、用对的上下文、给出可复核的判断？如何让每次回答绑定可信证据链？5月13日，阿里健康推出"氢离子"，一款面向临床和科研医生的医学AI产品，试图破局。

产品设计上，AI被放在最后，定语首先是证据、循证。官方定位要解决"中国500万医生的一切医学问题"。"低幻觉、高循证"是核心标签：所有回答提供权威出处，支持一键溯源、直达信源。

"在严重幻觉率上，我们比国内竞品领先2-3倍。"阿里健康CTO祥志说。这让人联想到医学界"神器"UpToDate，医生查房、开药、处理疑难病例或准备科研时常用。但"氢离子"门槛更低：自然语言、多轮对话、语音、图片等多模态提问，像和同事讨论病例，AI结合上下文持续理解回应。

内测阶段，医生反馈最集中的关键词是"可信""可靠"，尤其对"循证问答"评价极高。一位三甲急诊科主任医师88天内登录193次。

回到凌晨1点的急诊室。"心电捕手"打开"氢离子"，输入"急性ST段抬高型心梗合并急性心衰，PCI术后替格瑞洛剂量调整（eGFR65）"。AI明确推荐负荷剂量180mg、维持剂量90mg bid，加粗标注依据——中华医学会2025年最新治疗指南。点击可直接查看电子化指南原文，无需翻找PDF。

关键细节："氢离子"不是高亮整段文本，而是定位到真正决定结论的"关键三行"。医生看到的不只是"这篇文章可能相关"，而是"依据具体在哪里"。

回答引入两个维度：时效性（"2025年"）和权威性（"中华医学会指南"），强调对全球权威指南和文献日更级追踪筛选，基于动态证据生成回答。医学证据每天都在变化：新指南、新药物、新疗法、新临床试验层出不穷，肿瘤、感染、心血管等领域顶刊新结果可能直接改变第二天治疗策略。证据没跟上影响判断，代价是患者健康。

阿里健康深耕医学健康十余年，此次与国家级医学顶刊达成独家内容合作，是"氢离子"循证能力的底层支撑。从"撮合就诊"到"决策供给"，医学AI的战场正在转移。医生需要的不是更聪明的聊天机器人，而是能站在证据链上、经得起复核的"神助攻"。

88天193次登录，这个数字本身说明问题：当AI真正解决"可信"痛点时，医生的使用频率不会说谎。