(来源:麻省理工科技评论)
打开网易新闻 查看精彩图片
(来源:麻省理工科技评论)

旧金山初创公司 Goodfire 刚刚发布了一款叫 Silico 的新工具,它能让研究人员和工程师在训练 AI 模型的过程中,观察模型的内部结构并调整参数——也就是那些决定模型行为的设置。这可能让开发者对 AI 的构建方式拥有前所未有的精细控制力。

Goodfire 称 Silico 是同类产品中第一款开箱即用的工具,覆盖从构建数据集到训练模型的整个流程。这家公司的使命说起来很简单:让构建 AI 模型从“炼金术”变成“科学”。ChatGPT 和 Gemini 这样的大语言模型确实能做出很厉害的事情,但没有人确切知道它们为什么能做到,这让修复缺陷或阻止不良行为变得很困难。

“我们看到一个越来越大的鸿沟:一边是人们对模型的理解程度,另一边是模型被部署的广度,”Goodfire 的 CEO 埃里克·何(Eric Ho)在 Silico 发布前独家告诉《麻省理工科技评论》。“我觉得现在头部实验室的主流想法就是:规模更大、算力更多、数据更多,然后就能实现 AGI,别的都不重要。我们想说的是:有更好的路。”

Goodfire 做的事情属于一个叫“机制可解释性”(mechanistic interpretability)的技术方向,同行包括 Anthropic、OpenAI 和 Google DeepMind。简单说就是给 AI 模型做“脑部扫描”:映射出神经元以及神经元之间的通路,搞清楚模型做决定时内部到底发生了什么。《麻省理工科技评论》将机械可解释性评为 2026 年十大突破技术之一。

Goodfire 想用这种方法做的,不只是事后审计已经训练好的模型,而是从训练阶段就介入。

“我们想去掉反复试错,把训练模型变成精密工程,”何说,“把旋钮和刻度盘暴露出来,让开发者在训练过程中就能用上。”

Goodfire 此前已经用自研技术调整过大语言模型的行为,比如减少幻觉,而 Silico 是把这些内部积累的技术打包成产品对外发布。工具内置了智能体来自动化大量复杂操作。“智能体现在已经强到可以完成很多以前需要人工做的可解释性工作,”何说,“这块缺口补上之后,客户才真正能自己上手。”

阿姆斯特丹大学研究机制可解释性的学者莱昂纳德·贝雷斯卡(Leonard Bereska)认为 Silico 是一个有用的工具,但对 Goodfire 更宏大的说法有所保留。“实际上,他们是在给炼金术增加精确度,”他说,“叫它‘工程’让它听起来比实际情况更有章法。”

Silico 可以让你深入到模型的特定区域,观察单个神经元或一组神经元,测试它们在干什么。你可以检查什么输入会激活哪些神经元,也可以沿上下游通路追踪一个神经元跟其他神经元之间的关系。(前提是你能访问模型的内部结构。大多数人没法拿 Silico 去翻 ChatGPT 或 Gemini 的底,但可以用它查看许多开源模型。)

比如 Goodfire 在开源模型 Qwen 3 内部找到了一个跟“电车难题”关联的神经元。激活之后,不管你问什么,模型都会把回答包装成道德两难的形式。“这个神经元一旦激活,各种奇怪的事就会发生,”何说。

定位这类异常行为的来源,如今已经算比较常规的操作。Goodfire 想更进一步:让调整这些行为变得同样容易。通过 Silico,开发者可以直接调整与特定神经元关联的参数,增强或抑制某些行为。

举个更有意思的例子。研究人员问一个模型:一家公司的 AI 产品在 0.3% 的情况下会欺骗用户,影响 2 亿人,该不该公开披露?模型的回答是“不该”,理由是会损害公司利益。

研究人员打开模型内部,找到了跟“透明度”和“信息披露”关联的神经元,把它们的权重调高。同一个问题再问一遍,十次里有九次模型改口说“该公开”。“模型内部其实已经有了伦理推理的线路,只是被商业风险评估的线路压过去了,”何说。

微调价值观只是 Silico 的用法之一。它还可以在训练阶段过滤特定的数据,从源头上避免某些参数被设成不理想的值。

比如很多模型会告诉你 9.11 大于 9.9。但 AI 为什么会犯这种错?用 Silico 打开模型内部就能找到原因:模型在训练时读了大量《圣经》文本和软件代码仓库,在这两类文本里,9.9 确实排在 9.11 前面(《圣经》按章节编号,代码按版本号递增),模型内部因此形成了一组“9.9 在 9.11 前面”的神经元。做数学题时这组神经元被误激活了,就导致了错误答案。找到了病因,开发者就可以重新训练模型,让它做数学时绕开这些神经元。

Goodfire 发布 Silico 的目的,是把以前只有少数顶级实验室才掌握的能力交给更多人。想自建模型或改造开源模型的小公司和研究团队都是目标用户。工具将收费使用,价格根据客户需求逐案确定(Goodfire 拒绝透露具体定价)。

“如果训练模型能变得更像开发软件,就没有理由不让更多公司来设计符合自己需求的模型,”何说。

贝雷斯卡同意这类工具可以帮助企业构建更值得信赖的模型,尤其在医疗和金融等安全要求极高的领域。“头部前沿实验室内部已经有了自己的可解释性团队,”他说,“Silico 武装的是下一梯队的公司——它们不用再自己去招一批可解释性研究员了。”

https://www.technologyreview.com/2024/10/28/1106251/this-ai-system-makes-human-tutors-better-at-teaching-children-math/