一个MIT博士生把打地鼠玩明白了：AI偏见的新解法|mit|打地鼠|模态|算法|维度

去年夏天，Walter Gerych在实验室里盯着屏幕上的向量空间图，发现了一个让他头疼的规律——每按下一个偏见，另一个偏见就会从别处冒出来。这就像游乐场里的打地鼠游戏，而他和同事们给这个现象起了个名字："Whac-A-Mole dilemma"（打地鼠困境）。

这个困境困扰着所有试图给视觉语言模型"去偏见"的研究者。Gerych现在是MIT与Worcester Polytechnic Institute、Google合作项目的论文一作，他们刚刚在2026年国际学习表征会议（ICLR）上 acceptance 了一个新方案：WRING。不是换个更大的锤子，而是改变整个游戏的玩法。

为什么皮肤科AI会漏诊黑皮肤患者

先从一个具体的医疗场景说起。

今天的医院和诊所里，皮肤科医生 increasingly 依赖AI模型辅助判断皮肤病变——这是良性痣，还是可能癌变的黑色素瘤？但问题在于：如果模型对特定肤色存在偏见，它可能在关键时刻漏诊高风险患者。

这不是假设。原文明确提到，在高风险的医疗场景中，模型表现的缺陷已经将偏见变成了一个"quintessential safety issue"（典型的安全问题）。

偏见从何而来？通常的讨论集中在训练数据上——数据不平衡、标注有偏、采样偏差。但这篇论文指出了另一个被忽视的源头：模型架构本身。

"模型架构也可能包含并放大偏见"，原文写道。这意味着即使给你完美的平衡数据集，偏见仍可能从模型的数学结构中生长出来，并在真实世界部署时产生负面影响。

视觉语言模型（VLMs，即能够同时理解视频、图像、文本等多种数据模态的多模态模型）尤其脆弱。OpenAI的OpenCLIP就是这类模型的代表。它们将图像和文本映射到同一个嵌入空间，通过对比学习建立关联——但这种关联机制恰恰容易捕获并固化社会偏见。

投影去偏：一个越修越漏的补丁

现有的主流解决方案叫"投影去偏"（projection debiasing）。原理听起来很直接：找出嵌入空间中代表偏见的那部分子空间，然后把它"投影"出去——数学上就是切除这个维度，让偏见信息从表征中消失。

但Gerych发现了一个问题。

「当你这样做的时候，你会无意中把所有东西都挤压变形」，他说。这是2023年正式引入AI研究领域的经验观察：打地鼠困境。你敲掉"狗→柯基"的偏见，模型可能突然对"昂贵物品→黑白照片"产生更强的关联。偏见没有被消除，只是转移了阵地。

为什么会这样？投影去偏的本质是在高维向量空间里做几何手术。当你强制移除某个方向的维度时，原本分布在这个方向上的信息必须被压缩到剩余维度中。这种压缩不是无损的——它扭曲了整个表征空间的结构，让原本不相关的偏见维度产生耦合。

更麻烦的是，VLMs的嵌入空间极其复杂。图像和文本的交互不是简单的线性叠加，而是多层非线性变换的结果。在某个层级切除的偏见，可能在更深层以变形的方式复活。

研究团队用一张图展示了这个问题：在应用WRING之前，CLIP模型对"忠诚的狗"这个文本查询，会偏向返回柯基犬的图像；对"昂贵的物品"，则偏向返回黑白照片。这些偏见不是孤立的bug，而是嵌入空间几何结构的系统性特征。

WRING：旋转，而不是切除

WRING的全称是"Weighted Rotational DebiasING"（加权旋转去偏）。关键洞察在于：不要切除，要旋转。

投影去偏的问题在于它破坏了表征空间的度量结构。WRING的做法是保留所有维度，但通过旋转变换重新组织它们——让偏见维度与任务相关的维度正交化，同时保持向量间的相对距离关系。

这有点像整理一个混乱的仓库。投影去偏是直接扔掉某些货架，结果其他货架被挤塌了。WRING则是重新规划货架的朝向，让危险品区和日用品区互不干扰，但每个货架本身的容量和位置关系保持不变。

"加权"（Weighted）的部分体现在：不是所有偏见维度都被同等对待。WRING会根据偏见强度的估计，为不同维度分配不同的旋转权重。强偏见维度需要更大的角度调整，弱偏见维度则微调即可。

这种区别对待避免了过度矫正。一个常见的问题是，激进的去偏会损害模型的有用能力——比如如果你把"性别"相关的所有维度都抹除，模型可能连"他/她"的正确指代都搞不清。WRING的加权机制试图在"消除有害偏见"和"保留语义信息"之间找到平衡点。

具体实现上，WRING作用于模型的嵌入层（embeddings），这是一个后处理步骤，不需要重新训练整个模型。这对于已经部署的大型VLMs尤为重要——你可以在不触碰原始权重的情况下，为特定应用场景定制去偏版本。

五个关键设计选择

把WRING拆开来看，有几个值得注意的技术决策：

第一，旋转而非投影的几何直觉。

论文没有明说，但这个选择反映了对表征空间拓扑结构的深刻理解。投影是一种非保距变换（它改变向量长度），而旋转是保距的。在去偏的同时保持嵌入空间的度量性质，对下游任务的稳定性至关重要。

第二，显式的权重学习机制。

WRING不是手工设定旋转角度，而是通过一个轻量级的优化过程学习权重。这使得方法可以适应不同数据集和偏见类型的特性，而不需要为每个新场景重新设计算法。

第三，针对VLMs的多模态特性。

视觉语言模型的独特之处在于图像和文本共享同一个嵌入空间。WRING需要同时处理两种模态的偏见，并考虑它们之间的交互。这比单模态的去偏复杂得多——图像中的肤色偏见可能与文本中的职业偏见产生交叉影响。

第四，保持模型能力的约束条件。

优化目标中明确包含了对原始模型性能的保持项。这不是一个纯粹的"去偏最大化"问题，而是带约束的优化——在偏见减少和准确率维持之间走钢丝。

第五，可解释的中间表征。

旋转后的维度仍然具有语义意义，这与投影后的"黑洞"维度形成对比。研究者可以检查哪些维度被旋转了多少，从而审计去偏过程本身——这在医疗等监管严格的领域是刚需。

为什么是现在？为什么是这个团队？

WRING的出现不是孤立的技术进步，它踩中了几个交汇的趋势。

视觉语言模型正在从研究玩具变成生产工具。OpenCLIP、CLIP、BLIP等模型被集成到搜索引擎、内容审核系统、医疗辅助诊断平台中。当模型的输出直接影响用户看到什么、医生判断什么，偏见就不再是学术 curiosity，而是产品 liability。

同时，监管压力在上升。欧盟AI法案、美国的算法问责倡议，都在要求高风险AI系统的偏见审计和缓解措施。企业需要工具来证明他们的模型是"负责任的"——WRING这类后处理方法提供了一条比重新训练更经济的合规路径。

MIT Jameel Clinic（阿卜杜勒·拉蒂夫·贾米尔机器学习健康诊所）的参与也值得关注。这个机构专注于机器学习在医疗健康中的应用，他们的介入表明WRING的设计考虑了真实的临床部署场景——不是只在ImageNet上跑分漂亮，而是要能在医院的IT环境里稳定运行。

Google的合作则带来了工程规模的视角。WRING需要被证明可以处理亿级别的嵌入，可以在TPU集群上高效计算，可以集成到现有的模型服务管道中。学术论文和工业部署之间的距离，往往比方法本身的创新更难跨越。

还没解决的问题

WRING不是银弹。论文没有声称解决了所有偏见问题，有几个限制值得注意。

首先，WRING仍然需要预先定义"什么是偏见"。这通常通过一组敏感属性（如肤色、性别、年龄）和期望的中立目标来实现。但偏见的定义本身就是 contested 的——谁决定哪些关联是"有害的"？WRING把这个难题外包给了应用层面的设计者。

其次，旋转去偏的效果依赖于嵌入空间的线性结构假设。如果偏见是以高度非线性的方式编码的——比如通过多层注意力机制的复杂交互——那么单层旋转可能无法触及深层偏见。

第三，加权机制的学习需要额外的计算资源。虽然比重新训练便宜，但对于实时性要求极高的应用（如视频流分析），WRING的 overhead 可能仍然不可接受。

最后，也是最根本的：去偏方法的有效性评估本身就有偏见。我们用什么基准测试？谁标注了"无偏见"的黄金标准？WRING在打地鼠游戏中可能赢了这一轮，但游戏的规则本身可能有问题。

对从业者的实际意义

如果你正在构建或部署视觉语言模型，WRING提供了几个 actionable 的 takeaway：

不要只盯着训练数据。模型架构可以是偏见的独立来源，数据清洗解决不了几何结构的问题。

评估去偏方法时，检查它是否引入了新的扭曲。打地鼠困境是真实存在的，单一维度的偏见指标会误导你。

考虑后处理方案的经济性。在大多数商业场景中，重新训练一个大型VLM的成本远高于应用WRING这样的适配层。

为审计做好准备。WRING的可解释中间表征是一个 feature，不是 bug——在监管审查时你会需要它。

最后，保持对"偏见"定义的反思。技术工具只能执行你给定的目标，目标的合理性需要人文和社会科学的输入。

冷幽默

Gerych和他的同事们终于打败了打地鼠——方法是把游戏机整个倾斜45度，让地鼠们滑向一个它们互相抵消的方向。这很聪明，但游乐场老板可能会问：你们确定倾斜后的游戏机还能正常投币吗？以及，那些地鼠真的消失了，还是只是从视野里溜走了，正在某个看不见的维度里继续打洞？

一个MIT博士生把打地鼠玩明白了：AI偏见的新解法

热搜

热门跟贴

热搜

热门跟贴

相关推荐

当专业门槛敌不过“一键生成”，4年学费就算白交了

一篇哲学文章如何变成404现场

MIT新方法让两颗芯片共享唯一“指纹”，重写硬件安全规则

MIT团队给机器人装上透视眼，藏在纸箱里的东西也能看见

来自MIT的科学写作工作坊｜Storyteen2026暑假线上招募开启

《百变怪》：模型学会自我训练之后，他毕业了

美防长已下令从德国撤出5000名驻军

男子骑摩托车不小心掉进排水渠里，结果摩托头也不回地走了

平衡圈上趣味比拼，两个女孩势均力敌，完胜其他小伙伴

不用一个字，MIT团队让细胞自动机教会了大模型推理

为什么在宇宙的维度上，光速显的慢吞吞，是光速太慢还是宇宙太大

游客声称在上海街头"走路也罚款" 上海交管还原真相

张雪回应“820赛道熄火”：车子倾角设定是61度就会熄火，我们判断为摔车

兰州一餐馆悬挂钱学森和袁隆平照片，顾客直呼“这才是真正的明星”，老板回应：因为有他们我们才有饭吃

天柱山景区“摆渡车问题”被点名后，记者实探

31省份去年常住人口数据公布

NBA季后赛｜拒绝翻盘，詹姆斯带领湖人晋级约战雷霆

五一的莫氏鸡煲现场爆满：上午客人没吃完，下午客人又开始排队，还有人花80元买号

起底 GPT Image 2 团队后，我扒出了一张华人师徒网

MIT校长为何在华盛顿唱校歌