医疗AI谈了这么多年"同意与审计",为什么还是一地鸡毛?作者认为,问题出在口号太正确、太模糊——真正要堵住漏洞,得把治理协议做到数据结构和算法层面。
他提出四个必须同时存在的原语:内容寻址健康资产、可编程同意、哈希链溯源、质量加权贡献。每个都针对一个具体失效模式,且都有看似相近、实则不行的替代方案。
先看"健康资产"。医疗数据碎片化是老大难:电子病历系统存一部分,App存另一部分,研究数据集又是固定快照。治理协议要跨这些互不信任的系统生效,首先得让各方对"同一条临床数据"有无可争议的指向方式。
健康资产的核心是asset_id——底层数据的SHA-256哈希。改一个字节,哈希就变,资产标识随即失效。这比传统的数据库主键强在哪?主键只在单一系统内唯一,哈希则在任何系统都唯一且可验证。没有这一层,跨系统的数据调用就无从谈起。
第二个原语是"可编程同意"。纸质签名的问题不是没留痕,而是痕是死的——患者签了某张表,但表上的授权条款无法被下游系统自动解析执行。可编程同意把授权写成机器可读的策略,数据流转时实时校验。作者强调,这不是"把同意存进区块链"那种包装,而是同意本身成为可执行的代码对象。
哈希链溯源解决的是审计可信度。常规日志谁都能改,哈希链让每次修改都留下密码学证据——要篡改就得重算整条链,成本陡增。这里的关键设计是溯源不能自证清白,必须由独立的质量加权贡献机制来验证。这就是第四个原语:不是所有人对数据的贡献等值,采集精度、校验层级、更新频率都该量化进权重。
四个原语必须互不循环依赖。比如溯源链的完整性不能靠溯源自己保证,得靠质量加权机制来背书;而质量评估又需要溯源记录作为输入。这种解耦设计是为了让系统可以局部升级,不会因为动一块就全盘崩溃。
作者坦承,这四个未必是最小集合,设计空间很难证明最优。但它们的组合至少回答了诚实治理必须面对的四个问题:数据如何被唯一标识、授权如何被自动执行、历史如何被防篡改验证、贡献如何被差异化计量。缺任何一个,前面说的"同意与审计"就还是正确的废话。
热门跟贴