首创证据锚定技术，百川推出最低幻觉循证增强医疗大模型M3 Plus|医生|大模型|百川|证据锚定技术|首创

勇砺商业评论阿桶观察白丽

1月22日，百川智能正式发布 Baichuan-M3 Plus，严肃医疗场景下的问答准确性、可靠性，再次刷新了刚刚推出的M3所创下的世界纪录。凭借独创的六源循证技术与M3基座结合，M3 Plus将幻觉率降低至2.6%，低于 Open Evidence，达到全球最低水平；首创“证据锚定”技术，不仅给出引文来源，还能将模型生成的每一句医学结论，精确锚定到原始论文中的对应证据段落，使 AI 的医学判断真正做到可核验、可追责、可教学。

更具意义的是，百川宣布推出「海纳百川」计划，将全球最低幻觉的循证增强医疗大模型以API形式，免费开放给中国医疗服务机构，共同繁荣国内的AI医疗生态，推动中国AI医疗的变革，让每一位中国医务工作者都能拥有可靠、好用的AI助手。

低幻觉率再次刷新世界纪录，让AI具备迈向临床的诊疗能力

对于中国的医生而言，拥抱AI的先决条件，是AI真实具备了足够优秀的诊疗能力。当患者频繁使用DeepSeek、豆包等通用大模型的AI产品去寻求诊疗建议，大量的误判、幻觉，不仅让医生不胜其烦，更逐渐演变为一场对中国医疗AI技术的信任危机。

随着上周百川M3大模型的正式开源，这一局面已被彻底打破。M3不仅在 Healthbench、Healthbench Hard 等多个权威评测中登顶榜首，实现了对 GPT-5.2的全面超越，更在 OpenAI 引以为傲的低幻觉领域完成超越，以3.5%的幻觉率领跑全球。

作为百川拓展低幻觉技术路线的成功实践，M3首创的 Fact-Aware RL的强化学习范式，使底座模型在无工具的设定下，幻觉也能大幅降低到SOTA水平。在此基础上，M3 Plus 将 M2 Plus 模型已验证有效的六源循证范式，引入模型训练和推理过程，确保模型的每条建议都有专业医学证据支持。最终，M3 Plus的事实性幻觉降低到新的SOTA，仅2.6%，相较GPT-5.2大幅下降超30%。即便与行业标杆 Open Evidence相比，M3 Plus 也完成了超越。

首创“证据锚定”技术：让 AI 的每一句医学结论，都能被逐句核验

在循证医学体系中，真正决定医生是否信任一条结论的，从来不是语言是否流畅，而是结论背后的证据是否权威、是否准确、是否可追溯。相比“说得像不像医生”，临床更关心的是：这句话，究竟依据哪篇论文、哪条指南、哪一段原文。

当前行业中，无论是通用大模型还是医疗模型，大多已支持“文献引用”——在结论后标注论文或指南来源。但在实际使用中，医生往往会发现：点开引文，依然无法判断 AI 的这句结论究竟源自哪一段证据。更常见的问题是两类：一是“张冠李戴”，引用编号存在，但文献内容对不上；二是“内容冲突”，文献本身正确，但被引用的段落与结论并不匹配，甚至存在拼接、误读。

百川 M3 Plus 首创“证据锚定（Evidence Anchoring）”技术，不是简单标注“引用自哪篇文献”，而是要求模型生成的每一句医学结论，都必须精确对应到原始论文或指南中的具体证据段落。每一句判断，都能被逐字溯源、逐条核验。

为实现这一目标，百川将“证据锚定”作为独立训练目标，引入 Citation Reward Model，对错误引用进行明确惩罚，让模型只能在“确实有证据支持”的空间中推理与生成。最终，结论与证据段落的匹配准确率超过 95%，真正让 AI 的医学判断做到可核验、可追责、可教学。