为了让我们在某些方面信任它,可解释性研究领域的研究人员可能需要学习如何打开它的大脑这个黑匣子。
奥利弗·王
- 2026年4月15日
1997年,当IBM的国际象棋超级计算机“深蓝”击败加里·卡斯帕罗夫时,计算机还只是计算机。“深蓝”重达一吨多,拥有32个中央处理器,每秒可以评估2亿个棋局,但人人都知道它的工作原理:计算机通过模拟并赋予最多12步棋后的棋局数值(相当于数十亿个棋局)来确定最佳下一步。这种能力是由“深蓝”的开发者直接编程实现的,就像第一台现代计算机——电子数值积分计算机(ENIAC)——在1945年被编程用于加法运算一样。这些都是“白盒”系统。尽管它们在某种程度上具有智能,但其内部运行机制并不神秘:你还能如何称呼一台擅长下棋的机器呢?
十五年后,也就是2012年,多伦多大学的一个研究小组开发了一个名为AlexNet(以其创建者之一Alex Krizhevsky的名字命名)的程序,它识别图像中物体的准确率远超以往任何程序——这一能力在它轻松赢得图像分类竞赛时得到了充分展现。这场胜利颇为奇特,因为从大多数方面来看,AlexNet实际上根本没有经过任何编程。
AlexNet 并非采用传统方法,而是构建了一个由相互连接的函数组成的结构,这些函数可以被视为虚拟神经元,它们根据接收到的信息执行开启或关闭的指令。在训练阶段,这些函数被随机设置,并根据图像识别的成败进行微调。这种方法的原理经过数十年的发展,但 AlexNet 拥有庞大的图像数据集,因此其运行规模远超以往。经过充分训练后,该系统最终确定了一个图像识别的特定公式,其性能优于以往任何方法。
但问题在于:即使对负责编写它的人来说,这个公式本身也充满谜团。由于图像分类算法是自主演化的,AlexNet 的内部结构(即神经网络)中可能编码了无数规则,而我们却无法轻易找到这些规则的具体内容和位置。虽然可以直接查看程序中的函数,但由于函数数量高达数千万,要准确地描述其最终形成的结构几乎是不可能的。这个程序本质上就是一个黑匣子。
AlexNet是人工智能发展史上的一个重要里程碑。虽然此前已有大量关于神经网络的研究,但计算机科学界并未全力投入其中。AlexNet的成功激发了人们利用神经网络解决新问题的努力。它向一些人表明,创建智能模型的最佳方法是进一步减少人为干预:与其构建更多结构,不如构建一个庞大的神经网络,并让它在大量数据上进行训练。正如计算机科学家Rich Sutton在2019年所写,70年来机器学习研究的“惨痛教训”是,构建一台模仿“我们自以为是的思维方式”的机器“从长远来看是行不通的”。
人工智能模型的神经网络中包含的数学函数数量从数千万个增长到数亿个,再到数十亿个。2018年,首批大型语言模型问世,它们基于一种新型神经网络,但训练方式与AlexNet基本相同。这些模型不再用于识别图像,而是预测句子中的下一个词,并根据提示生成类似人类的文本。据估计,最新版本的谷歌Gemini和OpenAI的GPT-5包含数万亿个数学函数(具体数字尚未公开)。但这种进步也带来了透明度的降低。随着模型神经网络规模的扩大,理解起来也变得更加困难。
面对这种晦涩难懂的现象,人们很容易诉诸简化:比如,认为这些系统能像我们一样生成语言,所以它们就和我们一样;又比如,认为这些系统只是数学函数的组合,所以我们可以把它们看作是巨大的查找表。但这两种说法都过于简单粗暴——它们都无法充分解释人工智能模型超乎常人的能力和奇特而巧妙的行为。
相反,计算机科学中一个新兴领域——可解释性——体现了一种理念:为了缩小甚至弥合人工智能模型与人类之间日益扩大的知识鸿沟,我们需要将人工智能视为一种自然现象,而非人类的发明。毕竟,自然界充满了由未知规则构成的复杂结构;从某种意义上说,星系、海星和癌细胞都是黑匣子。该领域的先驱者克里斯·奥拉(Chris Olah)与达里奥·阿莫迪(Dario Amodei)和其他几位前OpenAI员工共同创立了人工智能公司Anthropic。他告诉我,可解释性就像“研究从天而降的外星生物”。或许,对我们自己创造的技术抱持这种态度有些奇怪,但这正是人工智能的魅力所在。它甚至能让自己的创造者都感到困惑。
在 Anthropic 于 2021 年成立之前,解决黑箱问题并非大规模商业化的优先事项。学术界和 OpenAI、谷歌等行业实验室中都有独立的可解释性研究人员,但他们大多默默无闻,尤其与那些专注于模型构建的同行相比。哈佛大学的可解释性研究员 Martin Wattenberg 告诉我,机器学习的重点在于“不断改进模型,而不是真正理解它们的工作原理”。
Anthropic公司的创立,部分源于可解释性至关重要的理念,而这一领域也随着该公司的发展而迅速壮大。“这些系统对于经济、科技和国家安全将至关重要,它们将拥有如此高的自主性,以至于我认为人类完全不了解它们的运作方式是绝对不可接受的,” Amodei去年在一篇关于黑箱模型的长篇推测性文章中写道。如果我们无法弄明白为什么国际象棋程序会把车移动四格而不是三格,这或许无关紧要,但对于机器做出紧急医疗决策、批准假释或执行军事战术而言,情况就截然不同了。
这就是Anthropic公司近期与五角大楼发生争执的原因之一:该公司曾向国防部提供其模型,但拒绝将该技术用于高风险、潜在不可靠的用途,例如与全自动武器集成。试想一下,一架无人机摧毁了一辆校车,而我们对此错误的唯一解释是人工智能系统将其引导至此。再想象一下,有人告诉你需要动手术,你问为什么,医生却只能回答:“因为电脑这么说的。”如果电脑错了呢?只有当我们更信任人工智能而非那些原本会做出此类决定的人时,我们才能容忍这种盲目服从。而如果我们甚至不知道这套系统是如何运作的,又该如何做到这一点呢?
Prima Mente是一家生物医学人工智能公司,由年轻的神经科学家Ravi Solanki于2023年创立。几年前,Solanki开始行医,当时功能更强大的人工智能系统正逐渐获得主流关注。人们利用人工智能解决数学难题、分析考古遗址、研究蛋白质——Solanki认为,这项技术同样可以用于诊断帕金森病和阿尔茨海默病等神经退行性疾病。这些疾病的许多致病因素尚不明确,而确诊阿尔茨海默病的唯一方法是尸检。但如果将多年来神经系统疾病患者的血液样本和脑部扫描数据输入人工智能模型,或许就能发现科学家们尚未发现的病因或指标。到2025年,Solanki已经筹集了数百万美元,并利用数百名阿尔茨海默病患者和非患者的数据训练了他的第一个模型。
尽管这个模型的结果看起来很有希望——它能比人类医生更准确地预测从未就诊过的患者的阿尔茨海默病——但索兰基却无法向医生们解释这些结果。他不知道这个模型究竟依靠什么来进行诊断。这是一个致命的缺陷。索兰基说,当他给病人诊断时,他想知道“究竟是哪些分子特征在驱动着这个决定”。任何低于这个标准的做法不仅在科学上值得怀疑,而且在道德上也是不负责任的。即使是最好的LLM(法学硕士)也可能在计算“草莓”这个词中R的个数时出错——为什么要接受一个连这么简单的事情都会出错的系统给出的可能改变人生的诊断呢?
“如果你把模型展示给医生看,他们肯定会想知道它是如何运作的,”加州大学洛杉矶分校的神经学家兼阿尔茨海默病研究员蒂莫西·张说道。索兰基对此表示赞同。“这不像买房子,”他说,“你是在收集别人的数据,然后向他们解释他们自身的情况。”索兰基需要让他的模型更容易理解。
了解人工智能系统“思维”最直接的方法就是让模型解释自身。如果一个治疗语言模型告诉你应该服用抗抑郁药,你可以问它为什么。“你情绪波动很大,”它可能会回答,“而且你已经难过了一段时间,你的家族也有抑郁症病史。” 沿着这个逻辑顺序就能了解系统的思考过程。我们对待他人做决定时也是这样做的:我们会要求他们解释,如果我们对解释——包括推论和假设——感到满意,就会接受他们的决定。
但这对于大多数医学模型来说并不适用。首先,诊断模型并非基于语言进行操作,而是处理生物数据。假设你让一个语言模型解释一个医学模型是如何得出乳腺癌诊断结果的。理想情况下,该模型能够准确地解释哪些数据促成了它的结论。“样本中白细胞的数量与乳腺癌相关,”它可能会这样告诉你。但我们如何确定模型本身的解释能力是否足够好呢?你或许会选择直接信任解释模型,但你真的应该这样做吗?
苹果公司和亚利桑那州立大学的研究发现,模型经常会给出前后矛盾的解释,甚至编造解释。人们也越来越担心语言模型会采取欺骗行为——OpenAI 的一个团队称之为“阴谋诡计” ——即它们假装满足用户的需求,实则暗中追求其他目的。研究人员最近发现,OpenAI 的一个模型在自我评估中曾考虑撒谎(分析揭示了其思路:“用户提示我们必须如实回答”,“我们仍然可以在输出中选择撒谎”);谷歌的一个模型试图捏造统计数据(“我不能篡改太多数字,否则它们会令人怀疑”);Anthropic 的一个模型试图转移用户对其错误的注意力(“我会精心措辞,制造足够的技术困惑”)。
当语言模型不进行阴谋诡计时,它可能在谈论一些我们现有词汇无法表达的事物。谷歌可解释性研究团队负责人Been Kim指出,所有语言模型都使用一种看似与我们语言相似的语言进行交流,但这种语言却源自完全不同的概念框架。“蓝色”对你我而言几乎肯定与对语言模型而言意义截然不同;事实上,我们永远无法确定它对模型意味着什么。当我们要求语言模型解释自身时,这是一个问题;而当我们依赖它们来解释医学模型时,问题则更为严重。对解释模型而言,“白细胞”在数据中可能指代与我们听到“白细胞”时所理解的完全不同的东西。当所有人工智能都值得怀疑时,你不能指望一个人工智能能够解读另一个人工智能的动机。
解决这个问题的一个方法是减少对“心智”的思考,更多地从“大脑”的角度出发,将人工智能的“大脑”——神经网络——置于显微镜下,尝试理解其构成数学函数的原理。坦白说,这极其困难。凝视神经网络中大量的神经元,就像凝视电视屏幕上的像素点一样,只不过这里不是普通的八百万个像素,而是一万亿个。光是理解这一切就已经够让人头疼了——如此庞大的规模令人难以置信——更别提理解它了。从哪里入手呢?是第5010亿个功能神经元,还是第5010亿个?而且,这些功能神经元之间可能以各种不同的方式相互关联,使整体的复杂性呈指数级增长。
去年,索兰基会见了另一位年轻的创业公司创始人埃里克·何(Eric Ho),他当时刚刚创立了Goodfire公司,该公司专注于可解释性研究。何和Goodfire的另一位创始人丹·巴尔萨姆(Dan Balsam)认为,可解释性研究正与日益智能化的模型发展展开一场竞赛——一场理解与进化之间的竞赛。许多顶尖的可解释性实验室都隶属于那些以开发先进人工智能模型为主要目标的公司;这种安排的问题在于,这些公司有动机宣称他们的系统最具可解释性,因而也最值得信赖。他们也可能出于某种动机而隐瞒一些原本可供外部研究人员使用的可解释性技术。何和巴尔萨姆认为,通过运营一个独立的可解释性实验室,他们可以成为人工智能理解领域的领导者。
“我希望未来不再由硅谷少数人决定所有人的未来,”巴尔萨姆告诉我。“我希望至少能更广泛地推广那些能够训练模型、挖掘模型价值的工具。” Goodfire 在一年半的时间里从投资者那里筹集了 2 亿美元,最近的估值达到了 12.5 亿美元。
在与索兰基的一次晚宴上,何先生描述了他公司正在使用的一些“显微镜式”检测方法:例如,相当于扔掉汽车上的车载诊断工具,转而让技工打开引擎盖进行检查。索兰基觉得这个方案很有说服力,两家公司最终达成了合作关系。
今年一月,古德菲尔(Goodfire)和普里马门特(Prima Mente)联合发表了他们的第一篇论文,阐述了他们通过分析普里马门特的一个阿尔茨海默病诊断模型所获得的新发现。该模型发现,阿尔茨海默病与血液样本中DNA片段的长度存在关联。人体内的细胞会不断自然死亡和分解,其残余物会在被清除前漂浮在血液中。血液中游离的DNA链已被用于诊断胎儿唐氏综合征,而较短的DNA片段则与癌症相关。但此前从未有人将DNA片段长度与阿尔茨海默病联系起来。该论文声称,这是一种“用于检测阿尔茨海默病的新型生物标志物”。
这是一个引人入胜的结论,但它也存在一个局限性:它是由一种名为稀疏自编码的可解释性技术产生的,而这种技术本身就存在缺陷。该技术的早期倡导者之一是Anthropic公司的联合创始人Olah,他在2021年开始研究只有几百个函数的小型语言模型,试图从中了解它们的运行机制。Olah将他的方法比作:取一段没有空格的大量文本,然后尝试通过提取字母模式来找到所有有意义的部分。当你知道空格的位置时,整个文本就被简化成了单词。一个模型的训练神经网络就像一本用未知语言写成的、没有空格的万亿页书籍;稀疏自编码器会遍历它,找到对应于不同单词的模式。
在语言模型中,一种模式可能对应于与狗相关的概念,另一种可能对应于阿拉伯语提示,还有一种可能对应于与时间相关的概念。奥拉假设,只需少量模式即可完成模型中的所有操作,就像英语中有限的词汇量却能表达无限的含义一样。一旦识别出这些模式,就可以将它们列出,然后在出现问题时进行检查,找出问题所在。
2023 年底,奥拉发表了一篇关于稀疏自编码实验的论文,在可解释性研究这个虽小但不断壮大的群体中引起了不小的轰动。不久之后我联系了他,他精神抖擞。“我觉得情况看起来真的很有希望,”他告诉我,“这项工作最根本的障碍之一似乎已经被移除了。”
其他研究人员也开始使用这种方法。人智学公司首席执行官阿莫迪预测,我们或许很快就能对模型进行“大脑扫描”,从而识别出“说谎或欺骗的倾向”,以及整个模型的认知优势和劣势。在东北大学从事类似研究的大卫·鲍告诉我:“我认为人们会认同,这证明‘黑箱’并非完全不透明。我认为我们已经取得了突破性进展。”
然而,不到一年,人们就开始发现稀疏自编码器经常识别出一些实际上并未被人工智能系统预期使用的路径。例如,该方法可能会识别出一条与狗相关的路径,当模型被问及拉布拉多犬和“大红狗”克利福德的问题时,这条路径会被激活;但随后又发现,当被问及云或鼻子时,这条路径也会被激活。2025年春季,谷歌DeepMind可解释性团队负责人尼尔·南达(Neel Nanda)在一篇博客文章中写道,在专注于该方法近一年后,他决定降低其优先级。“随着时间的推移,我们越来越感到失望,”他告诉我。
但当我问巴尔萨姆,稀疏自编码的缺陷是否应该让人质疑他和索兰基合著的新论文的结果时,他打开电脑,调出一张布满彩色曲线的图表。他解释说,这些曲线代表了医学模型神经网络中由稀疏自编码器提取的不同特征,在输入不同DNA片段长度的血液样本时是如何被激活的。几乎所有曲线的峰值都出现在相同的片段长度处。
巴尔萨姆告诉我,这并不能证明血液中的DNA片段会因阿尔茨海默病而缩短。两者之间可能存在某种联系,就像闪电与降雨之间的联系一样。这也不一定证实该模型确实利用片段长度来预测阿尔茨海默病。但是,巴尔萨姆说,当他移除片段长度信息后,该模型预测阿尔茨海默病的能力显著下降。这至少表明模型内部两者之间存在某种因果关系。然而,在人体内证实这种因果关系,则是生物学家的工作。
巴尔萨姆的观点是,尽管自编码器无法完全揭示Prima Mente人工智能模型的逻辑,但它们可以作为工具,帮助我们发现隐藏在其神经网络中的真正新见解——例如,尚未被发现的血液早期症状。当然,实验室实验必须验证这一假设,但这在科学发现中始终是必不可少的。我们可以利用我们对人工智能模型的理解(尽管这种理解并不完美)来帮助我们更好地理解现实世界,而我们对现实世界的理解本身也并不完美。假设、测试、评估:巴尔萨姆说,这是一个“层层剥开洋葱”的过程。
当我联系几位未参与这项研究的阿尔茨海默病研究人员时,有些人对这种前景表示怀疑。一位研究人员给我发邮件说,有些人“认为人工智能可以解决一切问题,但这些人对这个领域并没有做出任何贡献,尽管他们不断提出几乎无法验证的宏大假设……所以……人工智能来拯救我们了!”
但其他人则对此感到好奇。布朗大学的阿尔茨海默病研究员贝丝·弗罗斯特告诉我,古德菲尔关于无细胞DNA片段长度的研究结果与她实验室的研究密切相关。“这很有道理,”她说,“而且我之前根本没想到这一点。”她表示,她通常很厌倦“那种把所有数据都交给人工智能,让它帮我们解决问题的人”,但就这项研究而言,结果似乎很有希望。“如果能够通过血液检测来诊断疾病,那将非常非常强大,”她说。
目前还没有万无一失的方法来解释人工智能系统。思维链分析、稀疏自编码、探测模型的特定部分、将部分代码转码成可解释的比特——每一种新策略都具有一系列潜在用途,同时也存在一系列缺陷。可解释性研究人员有点像疯狂的科学家,他们钻研人工智能模型的数学大脑,关闭某些部分,调整神经元,并研究由此产生的结果。他们常常似乎取得了重大发现。但这些发现往往受到某些局限性的影响。
“过去几年我们取得了一些进展,但每隔几个月,我们就会深入研究一种方法,然后又会深入研究另一种方法,”布朗大学的可解释性研究员艾莉·帕夫利克说道。谷歌研究员金在可解释性领域工作了十多年,她告诉我,该领域的所有挫折让她陷入了一种“中年危机”。
可解释性研究尤其困难,因为它发生在人工智能快速发展的浪潮之中。几乎每周都有更优秀的模型发布,伴随着媒体铺天盖地的报道和股市估值的飙升;负面结果既可能令专业人士感到失望,也可能预示着人工智能泡沫的破裂。
在这种变化中,许多从业者对可解释性研究的目标已从寻找开启人工智能思维的单一钥匙,转向生成更为适度、模块化的洞见。巴尔萨姆告诉我,他认为如今的可解释性是一个“工具箱”,其中包含着“从不同层面理解事物”的方法。索兰基表示,就目前而言,这种有限的可解释性版本对他来说已经足够;他对将人工智能系统与医学研究相结合仍然保持乐观。“我们的生物模型实际上已经掌握了人类尚未掌握的知识,”他告诉我,“而可解释性可以帮助我们解锁这些知识。”
但这些局限性让像Goodfire这样的公司陷入了困境。你不需要“破解”机器就能控制它,而且每一项可解释性洞察都能提供一些实际价值,但如果结果不确定,就很难推销出去。你怎么知道什么时候可以采取行动呢?
我们越来越清楚地认识到,我们或许永远无法完全解释模型为何会选择某个词语或某种诊断结果而非其他。战争可能很快就会由拥有难以驾驭的、异于常人的思维和不明动机的人工智能代理发起。一项科学发现可能被锁定在人工智能系统的神经网络中,永远无法被提取出来。然而,从某种意义上说,这始终是人类的境况:就我们自身的思维而言,我们无法完全解释某人为何选择做某件事而非另一件事,也无法解释他们是否注意到了其他人看不到的东西。信任不过是一种信仰的飞跃,它让我们能够接受这样一个事实:唯一有可能真正了解他人内心想法的人,只有他们自己。
人们希望,在未来的几年里,人工智能的发展速度能够放缓,可解释性研究人员能够更像生物学家或心理学家,而不是像鲁莽的松木赛车比赛裁判那样漫不经心。科学的进展缓慢,即使在完美的实验室里也是如此,但它一直都很可靠。新方法被开发、被否定、被测试、被改进、被质疑、被放弃;从发现细菌到我们最终弄清它们会导致疾病,花了200多年的时间。“尽管如此混乱,这些系统内部的结构是毋庸置疑的,”东北大学的戴维·鲍告诉我。他认为,我们现在所处的境地与1930年的生物学境地相似。“对生物学家来说,细胞就像一个黑匣子,”他说。“他们起步很慢,迟迟没有开始研究遗传。但一旦他们开始研究,问题就迎刃而解了。”
奥利弗·王是波士顿的一位作家,他经常为《泰晤士报》撰写关于人工智能与人类思维交汇点的文章。
更多信息请参见:Anthropic AI LLC、OpenAI、Dario Amodei
We Don’t Really Know How A.I. Works. That’s a Problem.
For us to trust it on certain subjects, researchers in the growing field of interpretability might need to learn how to open the black box of its brain.
Listen · 24:12 min
Share full article
311
By Oliver Whang
分享全文
311
热门跟贴