美国退伍军人事务部(VA)每天运行着一个号称"全国首个临床验证"的自杀预防算法。它每月标记6,700名高风险老兵,声称能将自杀企图降低"显著"比例。但The Fuller Project的调查发现,这个系统把女性退伍军人——尤其是性侵幸存者——推到了队尾。

2020到2021年,女性老兵自杀率飙升24%,是男性增幅的4倍,更是非服役女性的10倍。算法却在这时候把"离婚男性""丧偶男性"设为优先标签,对性侵创伤和亲密伴侣暴力只字不提。这两种创伤在女性群体中高发,且与自杀风险强相关。

前空军上士Paulette Yazzie听到这个消息时哭了。纳瓦霍族,45岁,伊拉克 deployment 13年,她睡觉要开灯、锁门、用椅子抵住——不是为了防敌人,是防自己人。"他们总是把我们放在第二位,"她说,"这会害死人的。"

算法怎么"看见"风险的

算法怎么"看见"风险的

REACH VET系统2017年上线,全称为Recovery Engagement and Coordination for Health – Veterans Enhanced Treatment。名字很长,逻辑很直接:用61个变量预测谁最可能自杀,然后提前干预。

变量清单包括年龄、婚姻状况、医疗诊断、药物使用记录等。但The Fuller Project获取的政府文件显示,这套模型的"优先人群"画像高度具体:离婚男性、丧偶男性、年轻男性、有药物滥用史的男性。女性群体没有任何细分标签获得同等权重。

更关键的是什么被漏掉了。军事性创伤(Military Sexual Trauma, MST)——VA自己定义的、涵盖服役期间一切性骚扰和性侵的术语——不在模型内。亲密伴侣暴力(Intimate Partner Violence, IPV)同样缺席。VA内部研究早已证实,这两类创伤与女性老兵自杀风险高度相关,但算法选择视而不见。

这种遗漏不是技术限制,是设计选择。机器学习模型可以塞进成百上千个变量,61个是经过筛选的"精选集"。筛选标准是什么?VA从未完整公开。我们只知道,最终进入模型的,是工程师和临床医生认为"重要"的东西。

问题变成:谁的声音在定义"重要"?

2023年5月,VA卫生事务副部长Carolyn Clancy在国会听证会上称REACH VET为"游戏规则改变者"(game changer)。同一场听证,无人提及模型对女性群体的系统性低估。直到The Fuller Project的调查发表,这些设计细节才进入公共视野。

数据里的性别鸿沟

数据里的性别鸿沟

VA的公开叙事一直强调"整体成效"。官方称,被REACH VET标记的老兵,随后6个月内自杀企图"显著减少"。但"显著"是多少?对谁显著?这些细节被包裹在学术黑话里。

我们能确认的数字来自另一个方向:死亡率。

2020至2021年,女性老兵自杀率从约15.2/10万跳升至18.9/10万,增幅24%。同期男性老兵从约33.9/10万增至35.3/10万,增幅仅6%。非服役女性的增幅是2.6%。

换句话说,女性老兵正在以远超其他群体的速度滑向死亡,而VA的旗舰预防工具对此毫无预警。

这种脱节有历史根源。美军女性服役比例长期偏低,自杀研究样本以男性为主。REACH VET的开发依托历史数据,历史数据里女性声音稀薄,模型学到的"风险模式"自然偏向男性特征。这是算法偏见的经典剧本:过去的不平等被编码进未来。

但VA不是被动受害者。2018年的内部演示文稿已经显示模型输出,优先人群画像明确指向男性。五年过去,系统仍在运行,每月6,700个标记里,女性占比从未被单独披露。

幸存者的双重负担

Paulette Yazzie的故事不是孤例。The Fuller Project采访了多位女性老兵,她们描述了一种被系统反复忽视的疲惫。

Yazzie在伊拉克遭遇持续性骚扰和不受欢迎的接近。回国后,她寻求VA心理健康服务,发现流程漫长、评估标准化、很少有人追问服役期间的性别暴力。"他们问你'有没有创伤',但不会具体问'有没有被性侵',"她说,"你得自己知道该说什么。"

REACH VET的设计放大了这种障碍。模型依赖现有医疗记录,而女性老兵的性创伤往往未被记录——不是因为没发生,是因为报告机制失效。军方内部性侵报案率长期低迷,VA接诊时若不问、患者若不说,算法就永远"看不见"。

更隐蔽的是亲密伴侣暴力。女性老兵的伴侣往往也是军人或退役军人,暴力发生在家庭内部,医疗系统缺乏识别框架。REACH VET的61个变量里没有"伴侣暴力史"这一项,尽管VA自己的研究承认这是女性自杀的独立风险因素。

算法在这里扮演了什么角色?不是主动伤害,是结构性遗忘的加速器。它把已经沉默的群体进一步推向数据阴影。

技术中立性的幻觉

技术中立性的幻觉

VA对REACH VET的公开描述始终强调"客观"和"数据驱动"。机器学习被包装成消除人类偏见的工具,但The Fuller Project的调查揭示了相反的事实:技术可以复制并放大既有的权力盲区。

61个变量的选择是人做的。优先人群的定义是人做的。对性创伤变量的排除,也是人做的。每一步都嵌入了决策者的假设——关于谁值得被看见,关于什么构成"风险",关于资源有限时该先救谁。

这些假设从未被公开辩论。国会听证会上,Clancy副部长用"游戏规则改变者"概括一个每月影响数千人生命的系统,却未提及它的性别盲区。直到记者追问,VA才承认"模型持续优化中",但对具体优化内容语焉不详。

这种信息不对称是公共技术治理的常态。政府算法被当作黑箱保护,理由是"商业机密"或"技术复杂"。但当黑箱决定谁获得自杀预防资源时,"信任我们"不是一个足够好的答案。

女性老兵的24%自杀率增幅,是黑箱外部化的代价。她们承担了模型设计缺陷的实证成本,却未被纳入模型修正的决策过程。

修复的可能与阻力

修复的可能与阻力

技术上,REACH VET的偏见并非不可修正。加入军事性创伤和亲密伴侣暴力变量,重新训练模型,用性别分层验证预测准确性——这些步骤在机器学习工程里属于标准操作。

阻力来自别处。

首先是数据基础设施。军方性侵报案系统与VA医疗记录整合度低,大量创伤事件从未进入电子健康档案。修复算法需要修复整个数据链条,而链条的每一个环节都有独立的官僚惯性。

其次是政治敏感度。公开承认旗舰算法存在性别偏见,等于承认VA对 fastest-growing 自杀群体保护不力。在国会拨款听证季,这不是一个受欢迎的叙事。

第三是资源分配。REACH VET每月标记6,700人,VA是否有能力服务更多人?如果加入女性和性创伤幸存者后标记量激增,现有临床团队能否承接?这些问题没有公开答案,但它们塑造了算法优化的实际边界。

VA对The Fuller Project的回应是标准话术:"持续评估和改进"。但Yazzie们等不起持续的模糊。2021年的自杀率数据已经是两年前,模型更新周期未知,而她们每晚仍在开灯睡觉。

当算法决定谁值得被救

当算法决定谁值得被救

REACH VET的案例指向一个更广泛的困境:公共部门越来越依赖预测算法分配稀缺资源,但这些算法的审计和问责机制远远滞后。

VA不是唯一案例。儿童福利系统用算法预测虐待风险,警务系统用算法预测犯罪热点,医疗系统用算法预测再入院概率。每个系统都有类似的盲点:训练数据的历史偏见、变量选择的价值负载、对边缘群体的系统性低估。

区别在于,REACH VET的赌注是生命。一个假阴性——系统判断"低风险"但实际自杀——的代价无法挽回。而The Fuller Project的发现表明,女性老兵正不成比例地成为假阴性的承受者。

这种分布不是随机的。它对应着军事文化中的性别暴力史,对应着VA服务体系的设计惯性,对应着技术治理中"效率优先"压倒"公平优先"的默认设置。

Yazzie现在做老兵权益倡导工作。她教其他女性如何 navigate VA系统,如何在标准化评估中说出自己的创伤。这是一种个体层面的补救,但她知道不够。"算法应该帮我们,"她说,"而不是让我们更努力地证明自己值得被帮。"

VA尚未公布REACH VET的性别分层效能数据。我们不知道每月6,700个标记里女性占多少,不知道被漏掉的高风险女性有多少,不知道性创伤幸存者的识别率是否为零。这些数字存在,只是被锁在黑箱里。

2023年的国会听证上,Clancy副部长说算法是"游戏规则改变者"。她没有说对谁改变,以什么代价。Yazzie们正在支付的代价,是24%的自杀率增幅,是每晚的灯和抵门的椅子,是知道