衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

“我们没有能力一会儿金融、一会儿娱乐、一会儿医疗,只能深耕一条主线。”

百川智能CEO王小川用这样一句话,给过去两年被外界不断拉扯的路线画下一条清晰的边界。

与此同时,百川发布并开源新一代医疗大模型Baichuan-M3

在OpenAI推出的医疗AI评测HealthBench上,Baichuan-M3以65.1分位列第一;在不依赖工具或检索增强的纯模型设置下,其医疗幻觉率降至3.5,达到当前世界最低。

王小川表明公司账上有约30亿元资金,意味着百川可以在一条赛道里持续投入。

他说,百川智能成立那天起,他就已经在全员信中写道:

  • 立志往后二十年,为生命科学和医学的发展尽一份力,为大众健康做出一点贡献,核心路径是构建生命健康数学模型,并已经付诸行动。

谈及近期备受关注的AI大模型企业上市,王小川表示“他们主要还是踩在通用模型技术红利和政策支持的基础上”,医疗AI成熟会晚一点,还有一、两年的时间。

“百川预计在2027年启动IPO上市。”

打开网易新闻 查看精彩图片

百川智能模型技术负责人鞠强透露,百川目前约80%的算力都投入到强化学习相关训练,M3正是在这一训练策略下成型的阶段性成果。

除了强推理和低幻觉,端到端的问诊能力是M3另一项突出能力。

模型之外,百川也同步给出了产品侧的时间表——

今年上半年,百川将陆续发布两款to C的医疗产品。初期免费开放,后续可按模块引入付费能力,重点服务于患者的辅助决策与居家健康看护场景。

“和最近市面上大家看到很多的泛健康医疗AI产品不一样。”王小川说。

80%的算力投入强化学习,有了M3模型

80%的算力投入强化学习,有了M3模型

和去年5月发布的Baichuan-M2相比,Baichuan-M3在模型的训练重心发生了根本变化。

其核心关键词可以用一句话概括:fact-aware的强化学习。

鞠强表示,医疗大模型普遍面临一个难以回避的问题:推理能力越强的模型,越容易在医疗场景中产生幻觉;而一味压制幻觉,又会让模型在复杂问题面前变得过于保守。

Baichuan-M2时期,百川更多依赖工具链和后处理方式来兜底,Baichuan-M3则选择了把幻觉问题前移到训练阶段解决。

鞠强进一步解释:

  • M3的训练并不是简单提高强化学习的比例,而是重新定义了“什么是错误”。

当模型给出看似合理、但缺乏事实依据的医疗判断时,这类输出会在训练中被明确惩罚;与此同时,模型在推理链条中的探索空间并没有被压缩。

这种对事实一致性的感知能力,是fact-aware强化学习的关键所在。

打开网易新闻 查看精彩图片

围绕这一目标,Baichuan-M3在训练和算法层面做了几处关键调整。

第一项变化发生在强化学习的动态性上。

Baichuan-M2阶段,患者状态是动态的,但负责打分的“医生评价模型”相对固定;到了Baichuan-M3这里,评价模型本身也会随主模型能力提升而迭代,避免模型在后期训练中提前撞上能力天花板。

第二项升级体现在幻觉控制方式的转变。

Baichuan-M3不再依赖外部循证工具去修正输出,而是在模型内部完成幻觉压制,这使得问诊过程可以保持连续性,而不会频繁被工具调用打断。

第三项变化针对的是医疗场景特有的长对话结构。

鞠强提到,现有通用强化学习算法在多轮问诊中容易不稳定,百川为此专门对算法结构做了改造,使模型能够在较长对话中保持目标一致性。

以上技术调整让Baichuan-M3具备了“原生的、端到端的严肃问诊能力”。王小川强调,这和通过prompt让大模型扮演医生完全不一样。

打开网易新闻 查看精彩图片

明确“严肃医疗”,重视“院外需求”

明确“严肃医疗”,重视“院外需求”

聊完技术后,王小川花了相当多时间讲“为什么医疗必须重做一遍”。

在他看来,当下国内医疗方面有四个长期的结构性不足。

首先是医生数量始终无法匹配需求;其次,医患关系高度不对等,患者是信息最少的一方,却要承担决策后果;第三,国内没有家庭医生体系,大量病人被动涌向三甲医院;最后,医学本身仍然存在认知盲区,医生也有不确定和不了解的情况。

基于此,百川想让普通人都明明白白地看病。

  • 知道自己在经历什么、为什么要这样做、下一步有哪些选择。
    你能理解医生在判断什么,你能把这些话复述给另一个医生听,你也知道如果选择A或B,大概会发生什么。

因此,百川选择把更多精力放在院外诊疗场景,尤其是患者在家中面对不确定症状时的辅助决策能力。

在王小川的叙述里,百川这么做的重要原因是团队相信:未来真正的医疗增量本来就不在医院里。

在王小川看来,医院更多承担的是执行功能。

“你已经决定要做什么了,来医院,是做检查、做手术、用药、监护。真正影响患者路径的判断往往发生在更早的时候。症状出现时要不要重视?先去哪里?是否需要再确认一次?这些决定,很多时候是在医生不在场的情况下完成的。”

这一选择也直接决定了其商业化方向——是“严肃医疗”,是“院外需求”。

虽然产品还未亮相,但根据其回应,所推出的产品不会越过监管边界给出诊断或处方,主要功能还是帮助用户理解信息、整理症状,并明确下一步行动。

王小川表示,在能力层面,Baichuan-M3已经足够发挥这样的作用,但不意味着百川会急于把模型推向所有场景。

One More Thing

One More Thing

百川的医疗AI产品理念上覆盖全病种,但也给了明确重点:

第一步,儿科和肿瘤。

目前,已与北京儿童医院和中国医学科学院肿瘤医院合作,推进真实场景验证。