美国退伍军人事务部(VA)有一套运行了7年的AI系统,每月标记6700名"自杀高风险"老兵进行干预。但一份新调查发现,这套算法给离婚男性、丧偶男性加分,对女性老兵只字不提。更讽刺的是,军中性侵创伤——女性自杀的主要诱因之一——被完全排除在模型之外。

2020到2021年,女性老兵自杀率飙升24%,是男性增幅的4倍,是普通女性的10倍。算法却在此时把她们往后排。

61个变量里的性别盲区

61个变量里的性别盲区

这套叫REACH VET的系统,号称"美国首个临床验证的自杀风险预测算法"。2017年上线,用机器学习分析电子病历,找出最需要帮助的人。

根据《The Fuller Project》获取的政府文件,模型纳入61个变量。离婚且男性、丧偶且男性,这两组人被明确优先。但没有任何一组女性特征获得同等权重。

军中性侵创伤(Military Sexual Trauma)和亲密伴侣暴力,这两个与女性老兵自杀高度相关的因素,压根不在模型里。

VA自己2021年的研究承认,经历过军中性侵的女性,自杀风险是普通女性的2.5倍。但算法选择视而不见。

前空军上士Paulette Yazzie得知这个消息时哭了。这位45岁的纳瓦霍族老兵在伊拉克服役13年,"在军队里做女人已经够难了。被骚扰,被霸凌,"她说,"现在又被推到后面——又一次。"

她在伊拉克时,每晚开着灯睡觉,门锁着,椅子抵在门上。"他们永远把我们放在第二位,"Yazzie说,"这会出人命的。"

"游戏规则改变者"的代价

"游戏规则改变者"的代价

VA对这套系统相当自豪。2024年5月,卫生事务副部长Carolyn Clancy在国会听证会上称其为"game changer"。官方数据显示,被标记的老兵在随后6个月内,自杀企图显著下降。

但显著下降的是谁?

2018年的一份内部演示文稿显示,算法输出的高风险名单里,白人男性占绝对多数。这不是偶然——模型训练数据来自VA历史病历,而VA用户中男性本就占85%以上。

用过去的数据预测未来的风险,本质上是在复制过去的偏见。

机器学习工程师有个说法:垃圾进,垃圾出。REACH VET的问题更隐蔽——它进的是真实数据,出的是系统性盲区。女性老兵的自杀风险信号被噪声淹没,不是因为数据假,而是因为样本少、特征缺。

2017年模型上线时,女性自杀率增速尚未引发警觉。但数据不会等人。2021年的24%增幅,把设计缺陷变成了生死问题。

被删除的变量,被忽略的人

被删除的变量,被忽略的人

为什么军中性侵创伤没进模型?

VA拒绝直接回应。一位发言人称REACH VET"持续优化",但拒绝透露具体调整了哪些变量。

《The Fuller Project》采访的多位前VA数据科学家透露,早期版本曾测试纳入性创伤指标,但因"数据不完整"被搁置。军中性侵报案率本就低,病历记录更零散,模型难以学习有效模式。

这是典型的"数据歧视"——不是算法故意歧视女性,而是女性经历的伤害形式,没被转化成算法能读懂的语言。

离婚和丧偶有清晰的行政记录。性侵创伤没有。于是前者成了预测因子,后者成了空白。

结果是:一名因军中性侵而抑郁、自残的女性老兵,风险评分可能低于一名刚离婚但无心理病史的男性。

Yazzie的案例更复杂。她既是女性,又是纳瓦霍原住民——另一个在VA数据中被压缩的群体。原住民老兵自杀率长期高于全国平均,但REACH VET的种族变量设置同样模糊。

"他们总说'我们关心所有老兵',"Yazzie说,"但系统只认识它能识别的那些人。"

算法治理的老难题

算法治理的老难题

REACH VET不是第一个翻车的公共部门AI。2019年,美国医保算法被曝对黑人患者系统性低估医疗需求;2022年,荷兰税务局的育儿补贴算法错误标记数万移民家庭为欺诈。

这些案例的共同点:技术部署快,问责机制慢。

VA至今未公开REACH VET的完整变量清单和权重设置。国会听证会上,Clancy只展示成功案例,未提及性别差异。直到《The Fuller Project》依据《信息自由法》索取文件,61个变量的细节才部分曝光。

算法审计的缺失,让"优化"成了黑箱。VA说模型在迭代,但外界无从知晓迭代了什么、解决了什么、遗留了什么。

更深层的问题是目标函数的选择。REACH VET优化的是"整体自杀企图下降",而非"覆盖所有高风险群体"。当男性样本占绝对多数,整体最优自然偏向男性。

这是公平与效率的经典张力。VA选择了效率,代价由女性承担。

修复比建造更难

修复比建造更难

技术层面,修复并非不可能。重新加权少数群体、补充性创伤数据源、引入人工复核环节——这些方案在学术文献中早有讨论。

政治层面,阻力更大。REACH VET已被包装成VA的AI标杆,高层公开背书。承认设计缺陷,等于承认"游戏规则改变者"有盲区。

女性老兵团体正在推动变革。Service Women's Action Network呼吁暂停算法决策,改用混合模式:AI筛选+人工评估性别特定风险。VA尚未回应。

Yazzie现在做同伴辅导,帮助其他女性老兵 navigate VA系统。她学会了在问诊时主动提及性创伤,"因为系统不会问"。

"他们知道我们有PTSD,"她说,"但不知道PTSD从哪来。"

2024年,VA计划将REACH VET扩展至药物滥用和 homelessness 预测。新场景,旧算法。女性老兵的24%增幅,会被写进下一个版本的训练集吗?还是说,她们将继续以"数据噪声"的身份存在,直到某次审计、某篇报道、某位国会议员的追问,才短暂进入视野?

算法没有记忆,但使用算法的人有。问题是:谁负责记住那些被低估的风险,谁在系统之外持续追问?