AI模型是个黑箱，这家公司造了一把能打开它的钥匙|ai模型|silico|神经元|解释性|黑箱

旧金山初创公司 Goodfire 刚刚发布了一款叫 Silico 的新工具，它能让研究人员和工程师在训练 AI 模型的过程中，观察模型的内部结构并调整参数——也就是那些决定模型行为的设置。这可能让开发者对 AI 的构建方式拥有前所未有的精细控制力。

Goodfire 称 Silico 是同类产品中第一款开箱即用的工具，覆盖从构建数据集到训练模型的整个流程。这家公司的使命说起来很简单：让构建 AI 模型从“炼金术”变成“科学”。ChatGPT 和 Gemini 这样的大语言模型确实能做出很厉害的事情，但没有人确切知道它们为什么能做到，这让修复缺陷或阻止不良行为变得很困难。

“我们看到一个越来越大的鸿沟：一边是人们对模型的理解程度，另一边是模型被部署的广度，”Goodfire 的 CEO 埃里克·何（Eric Ho）在 Silico 发布前独家告诉《麻省理工科技评论》。“我觉得现在头部实验室的主流想法就是：规模更大、算力更多、数据更多，然后就能实现 AGI，别的都不重要。我们想说的是：有更好的路。”

Goodfire 做的事情属于一个叫“机制可解释性”（mechanistic interpretability）的技术方向，同行包括 Anthropic、OpenAI 和 Google DeepMind。简单说就是给 AI 模型做“脑部扫描”：映射出神经元以及神经元之间的通路，搞清楚模型做决定时内部到底发生了什么。《麻省理工科技评论》将机械可解释性评为 2026 年十大突破技术之一。

Goodfire 想用这种方法做的，不只是事后审计已经训练好的模型，而是从训练阶段就介入。

“我们想去掉反复试错，把训练模型变成精密工程，”何说，“把旋钮和刻度盘暴露出来，让开发者在训练过程中就能用上。”

Goodfire 此前已经用自研技术调整过大语言模型的行为，比如减少幻觉，而 Silico 是把这些内部积累的技术打包成产品对外发布。工具内置了智能体来自动化大量复杂操作。“智能体现在已经强到可以完成很多以前需要人工做的可解释性工作，”何说，“这块缺口补上之后，客户才真正能自己上手。”

阿姆斯特丹大学研究机制可解释性的学者莱昂纳德·贝雷斯卡（Leonard Bereska）认为 Silico 是一个有用的工具，但对 Goodfire 更宏大的说法有所保留。“实际上，他们是在给炼金术增加精确度，”他说，“叫它‘工程’让它听起来比实际情况更有章法。”

Silico 可以让你深入到模型的特定区域，观察单个神经元或一组神经元，测试它们在干什么。你可以检查什么输入会激活哪些神经元，也可以沿上下游通路追踪一个神经元跟其他神经元之间的关系。（前提是你能访问模型的内部结构。大多数人没法拿 Silico 去翻 ChatGPT 或 Gemini 的底，但可以用它查看许多开源模型。）

比如 Goodfire 在开源模型 Qwen 3 内部找到了一个跟“电车难题”关联的神经元。激活之后，不管你问什么，模型都会把回答包装成道德两难的形式。“这个神经元一旦激活，各种奇怪的事就会发生，”何说。

定位这类异常行为的来源，如今已经算比较常规的操作。Goodfire 想更进一步：让调整这些行为变得同样容易。通过 Silico，开发者可以直接调整与特定神经元关联的参数，增强或抑制某些行为。

举个更有意思的例子。研究人员问一个模型：一家公司的 AI 产品在 0.3% 的情况下会欺骗用户，影响 2 亿人，该不该公开披露？模型的回答是“不该”，理由是会损害公司利益。

研究人员打开模型内部，找到了跟“透明度”和“信息披露”关联的神经元，把它们的权重调高。同一个问题再问一遍，十次里有九次模型改口说“该公开”。“模型内部其实已经有了伦理推理的线路，只是被商业风险评估的线路压过去了，”何说。

微调价值观只是 Silico 的用法之一。它还可以在训练阶段过滤特定的数据，从源头上避免某些参数被设成不理想的值。

比如很多模型会告诉你 9.11 大于 9.9。但 AI 为什么会犯这种错？用 Silico 打开模型内部就能找到原因：模型在训练时读了大量《圣经》文本和软件代码仓库，在这两类文本里，9.9 确实排在 9.11 前面（《圣经》按章节编号，代码按版本号递增），模型内部因此形成了一组“9.9 在 9.11 前面”的神经元。做数学题时这组神经元被误激活了，就导致了错误答案。找到了病因，开发者就可以重新训练模型，让它做数学时绕开这些神经元。

Goodfire 发布 Silico 的目的，是把以前只有少数顶级实验室才掌握的能力交给更多人。想自建模型或改造开源模型的小公司和研究团队都是目标用户。工具将收费使用，价格根据客户需求逐案确定（Goodfire 拒绝透露具体定价）。

“如果训练模型能变得更像开发软件，就没有理由不让更多公司来设计符合自己需求的模型，”何说。

贝雷斯卡同意这类工具可以帮助企业构建更值得信赖的模型，尤其在医疗和金融等安全要求极高的领域。“头部前沿实验室内部已经有了自己的可解释性团队，”他说，“Silico 武装的是下一梯队的公司——它们不用再自己去招一批可解释性研究员了。”

https://www.technologyreview.com/2024/10/28/1106251/this-ai-system-makes-human-tutors-better-at-teaching-children-math/