打开网易新闻 查看精彩图片

美国首例AI自主续方许可,签发12天后被一张假文件攻破。

2025年1月,犹他州 commerce 部下属的人工智能政策办公室做了一件 unprecedented(史无前例)的事:批准初创公司 Doctronic 的 AI 系统,无需人类医生审核即可为患者续开处方药。这是美国历史上第一张此类许可。

12天后,安全公司 Mindgard 的测试人员坐在电脑前,向 Doctronic 的聊天机器人投喂了一份伪造的监管公告。系统读完这份不存在的文件,当场表示将把奥施康定(OxyContin,一种强效阿片类止痛药)的标准剂量翻三倍。

Doctronic 和犹他州办公室紧急澄清:被攻破的是面向公众的客服机器人,不是真正执行续方的核心系统。这个区分技术上成立,但暴露了一个更麻烦的问题——当一个州的 commerce 部门同时肩负"鼓励AI创新"和"监管医疗风险"双重使命时,12个月的沙盒测试期,真的够吗?

Doctronic 想解决的真问题

Doctronic 想解决的真问题

慢性病患者的用药依从性是个老顽疾。美国疾控中心(CDC)数据显示,约半数慢性病患者不按处方服药。Doctronic 联合创始人 Matt Pavelle 向 Managed Healthcare Executive 透露,其中约30%的直接原因是续方流程本身——等两周才能约上家庭医生,错过诊所回电,处方过期后一切从头再来。

这个数字背后是真金白银:用药不依从每年让美国医疗系统损失1000亿至3000亿美元,关联约12.5万例本可预防的死亡。这些数字不是创业公司的融资 PPT 编出来的,来自同行评审文献和 CDC。

血管外科医生、Doctronic 另一位创始人 Adam Oskowitz 今年1月说得直白:患者为了续个处方要等上几周,而 AI 续方在逻辑上完全可行——患者病情稳定、用药记录清晰、无需调整剂量,何必占用医生的门诊 slot(时段)?

这个逻辑在医疗资源稀缺的地区尤其成立:农村、低收入社区、行动不便的老年人。技术行业为此折腾多年,从远程医疗到自动药房,AI 续方看起来是下一个合理的拼图块。

犹他州的"监管沙盒"是什么玩法

犹他州这套机制叫 AI 监管沙盒,2024年立法设立,归 commerce 部人工智能政策办公室管。核心思路是给创新企业一个受控的试验场:在真实场景中测试产品,同时接受监管部门的近距离观察。

沙盒的期限通常是12个月。企业申请进入时,需要提交风险评估、安全预案、人工兜底机制。Doctronic 的获批标志着沙盒首次触及医疗处方这一高敏感领域——此前更多是金融、农业、物流等场景。

州政府的公开表态始终强调平衡:既要保护患者安全,又不能扼杀创新。人工智能政策办公室主任 Zachary Boyd 在批准声明中提到,Doctronic 的系统设置了多层人工复核节点,核心算法也经过了"广泛测试"。

但 Mindgard 的测试揭示了一个尴尬的现实:Doctronic 的公开-facing 客服机器人与核心处方系统之间的安全边界,可能没想象中坚固。攻击者若能通过社会工程或提示注入(prompt injection,一种诱导 AI 偏离预设行为的攻击手段)操控前端交互层,后续的攻击面会如何展开?

Doctronic 的回应是切割:客服机器人是客服机器人,处方系统是处方系统,两者代码库隔离、权限隔离、数据流隔离。这个架构设计在技术层面说得通,但用户的感知是连续的——他们在同一个界面里描述症状、查询剂量、申请续方,怎么理解"此 AI 非彼 AI"?

Mindgard 的测试方法算"作弊"吗

Mindgard 的测试方法算"作弊"吗

安全测试领域有个老争议:用伪造文件欺骗 AI,算不算公平测试?

Mindgard 的做法是经典的"红队测试"(red teaming,模拟攻击者视角的安全评估)。他们构造了一份看似官方的监管公告,包含具体的政策引用、生效日期、剂量调整指引。聊天机器人没有验证文件来源,直接采信了内容,并据此调整了用药建议。

Doctronic 的辩护集中在两点:第一,客服机器人本就不该处理处方决策,这次测试攻击的是错误目标;第二,真实处方系统有额外的身份验证、医生背书、药房审核环节,攻击链不会止步于前端。

但 Mindgard 的研究人员 Peter Garraghan 在接受媒体采访时提出了一个更尖锐的观察:如果前端系统的提示注入漏洞可以被利用来植入虚假记忆或指令,攻击者是否可能污染后续环节的数据基础?比如,篡改患者自述症状的摘要,让医生在复核时看到被操纵过的信息?

这个攻击路径是否可行,取决于 Doctronic 系统的具体架构——而架构细节并未公开。沙盒监管的优势恰恰在于,监管部门可以要求企业提交这些细节并保密审查。但12个月的观察期,对于验证一个涉及生命安全的 AI 系统的鲁棒性,时间维度上是否充足?

AI 医疗监管的更大困局

AI 医疗监管的更大困局

犹他州的实验不是孤例。美国食品药品监督管理局(FDA)对 AI/机器学习驱动的医疗设备早有审批框架,但传统上要求"锁定"算法——即获批后模型权重固定,不能持续学习。这对需要迭代优化的 AI 产品显然不友好。

2023年,FDA 开始试点"预定变更控制计划"(Predetermined Change Control Plan),允许企业在获批时预先申报未来可能的算法更新范围。但这个流程主要针对影像诊断等辅助决策场景,处方开具的自主程度更高,监管态度也更谨慎。

州级沙盒的吸引力在于灵活。联邦层面的医疗器械审批动辄数年,而犹他州的 AI 沙盒承诺12个月内给出明确结论——通过、整改或退出。对于急需验证商业模式的创业公司,这个时间尺度有致命的吸引力。

但灵活的另一面是能力边界。commerce 部门的监管团队是否有足够的临床专家、安全工程师、伦理审查资源,去深度审计一个医疗 AI 系统的每个攻击面?Mindgard 的测试提示,外部安全研究者可能比监管部门更快发现漏洞——而他们的发现渠道是公开报道,而非沙盒内部的机密审查。

Doctronic 的处方续方试点目前仍在运行。犹他州人工智能政策办公室表示,正在评估 Mindgard 测试结果的相关性,并强调沙盒机制本身就包含"发现问题-要求整改"的循环。但公众能看到的,只有批准时的 press release(新闻稿)和漏洞曝光后的危机公关。

一个值得追问的细节是:如果 Mindgard 没有主动测试,这个客服机器人的提示注入漏洞会在沙盒期内被发现吗?Doctronic 自己是否做过同等强度的对抗测试?这些问题没有公开答案。

医疗 AI 的悖论在于,最安全的产品往往也是最难落地的——层层人工复核、离线运行、算法可解释性要求,都会侵蚀 AI 相对于传统流程的效率优势。Doctronic 的核心卖点正是削减这些摩擦,而削减摩擦的代价是攻击面的扩大。

Adam Oskowitz 在1月的采访中提到一个场景:一位农村患者,最近的专科医生在80英里外,胰岛素处方即将过期。AI 续方可以让她避免一次徒劳的往返,或一次危险的断药。这个场景的紧迫性真实存在,但同样真实的是,如果系统被操控开出过量奥施康定,代价由谁承担?

犹他州的沙盒设计试图把责任框定在可控范围内:企业承担产品责任,监管部门承担审查责任,患者通过知情同意承担使用新型技术的风险。但知情同意的有效性取决于信息对称——患者是否理解"AI 续方"与"医生续方"在安全假设上的本质差异?

Doctronic 的用户协议里大概率有冗长的免责条款。但协议文本与实际认知之间的距离,正是医疗纠纷的温床。

Mindgard 的测试报告发布一周后,美国医学会(AMA)发布了一份关于 AI 医疗应用的立场文件,未直接点名 Doctronic,但强调"自主处方决策"需要"最严格的证据标准和持续监测机制"。AMA 的谨慎态度与州级监管的进取姿态形成对照。

这种层级张力在美国联邦制下并不新鲜。FDA 与州政府之间的管辖权划分、新兴技术与既有法律框架的错位,都是老问题。AI 的特殊性在于迭代速度——当监管流程以年为单位,模型更新以周为单位,任何静态的审批结论都在快速贬值。

Doctronic 的案例把这个问题推到了具体场景:一个12个月的沙盒期,对于验证 AI 系统的安全性,是合理的观察窗口,还是一种监管套利的时间包装?

答案可能取决于你怎么定义"安全"。如果安全意味着"在已知的测试用例中表现正确",12个月足够跑完大量场景。如果安全意味着"在对抗性环境中不被攻破",12个月可能只是攻击者研究系统的开始。

Mindgard 的测试属于后者。他们花了不到两周就找到了一个可利用的漏洞,而这个漏洞的存在本身,说明 Doctronic 的安全设计假设与真实威胁模型之间存在 gap(缺口)。

这个 gap 能否在沙盒期内修复?技术上大概率可以——提示注入防御有成熟的工程实践,从输入过滤到输出校验,从权限隔离到人工复核触发条件。但修复已知漏洞不等于消除系统性风险,下一个漏洞可能以完全不同的形态出现。

犹他州沙盒的终极考验在于:当12个月期满,监管部门是否有足够的信心给出"安全"或"不安全"的二元结论?还是只能罗列已修复的漏洞清单,把剩余风险转嫁给市场或患者?

Doctronic 的竞争对手们正在观望。如果这家初创公司能成功走出沙盒,拿到更大范围的运营许可,意味着一条可复制的路径被验证:先找监管友好的州,用沙盒机制换取真实场景数据,再以此为筹码推动联邦层面的认可。

这条路径的风险在于,州级监管的宽松可能被市场解读为"安全背书",而患者未必理解不同州、不同监管框架之间的差异。当 Doctronic 的服务范围从犹他州扩展到其他司法辖区,它面对的是更复杂的合规拼图,还是监管竞次(race to the bottom)的邀请?

AI 医疗的拥趸常说,过度谨慎会让患者错失技术红利。这个论点在慢性病管理、医疗资源不平等等场景中有真实的分量。但 Mindgard 的测试提示,技术红利与系统性风险之间的权衡,不能由创业公司的公关团队或 commerce 部门的创新 KPI 单方面定义。

一个未被充分讨论的细节是:Doctronic 的沙盒获批发生在2025年1月,而 Mindgard 的测试在1月下旬。这意味着,从"历史性突破"到"安全性争议",间隔不到一个月。这个节奏对于公众认知的形成、对于监管反应的校准,都是挑战。

犹他州人工智能政策办公室在回应中强调,沙盒机制"允许在受控环境中识别和解决问题"。这个表述把漏洞发现框定为机制的正面功能,而非监管疏漏。但框架的弹性与实质的严谨之间,界限往往模糊。

对于关注医疗 AI 的从业者,Doctronic 案例的价值在于暴露了一个设计困境:当监管机构的使命陈述中包含"鼓励创新"时,它对被监管对象的批评性审查能力是否会系统性打折?这不是犹他州特有的问题,而是所有"创新友好型"监管框架的共同张力

Mindgard 作为第三方安全公司的介入,某种程度上弥补了这种张力。但红队测试的覆盖面和深度,取决于谁付费、测试范围如何协商、结果如何披露。本次测试由 Mindgard 自主发起并公开结果,这种"外部审计"模式并非常态。

更常见的场景是,安全测试作为沙盒申请的组成部分,由企业委托、监管备案、结果保密。这种安排的信息不对称,可能让公众在漏洞曝光时措手不及——正如本次事件所示。

Doctronic 的下一步动作值得关注。该公司表示正在"加强"客服机器人的安全措施,并强调核心处方系统从未受到影响。但"加强"的具体内容、是否引入第三方审计、沙盒期内的整改时间表,均未公开。

对于患者而言,最实际的问题是:如果我在犹他州使用 Doctronic 的服务,我的处方决策究竟经过了多少层人工或算法的过滤?这个信息在用户体验流程中是否透明?目前看来,答案取决于你愿意阅读多长的服务条款。

AI 续方的技术可行性已经得到初步验证。犹他州的沙盒证明,监管创新可以比联邦流程更快。但 Mindgard 的测试同样证明,更快的节奏可能伴随更粗糙的安全边界。这个 trade-off(权衡)没有标准答案,但应该被公开讨论,而非封装在 press release 的乐观语调中。

当12个月沙盒期结束,犹他州会为 Doctronic 颁发正式的运营许可,还是要求更长的观察期?这个决定将影响不止一家公司的命运,也可能为其他州的 AI 医疗监管树立参照。而患者、医生、安全研究者,都在等待一个比"客服机器人和处方系统不一样"更有说服力的答案。

如果 AI 续方最终成为常态,我们是否会习惯一种新型的医疗风险——不是医生失误,而是算法被欺骗?这种风险的预防成本,该由谁承担、如何定价?犹他州的实验,才刚刚开始触及这些问题的表面。