Claude三巨头回应一切！Opus3.5仍可能发布，5小时视频10万人围观|claude|三巨头|人工神经网络|算法|编程

梦晨发自凹非寺
量子位 | 公众号 QbitAI

Claude团队三巨头同时接受采访，回应一切。

整整5个小时，创始人Dario Amodei、Claude性格设计师Amanda Askell、机制可解释性先驱Chris Olah无所不谈，透露了关于模型、公司和行业的很多内幕和细节。

比如Claude 3.5 Opus仍有可能发布，公司今年从300人扩展到1000人，

采访者是著名博客节目制作人Lex Fridman，完整视频发布不到10个小时就已有10万播放。

5小时确实很长，不过别担心，量子位在Claude的帮助下（狗头）精选整理了他们的观点。

创始人Amodei：

Anthropic在行业中的姿态是“向上的竞争”，通过树立榜样，推动友商做正确的事情
顶尖的AI研究团队，人才密度比人才数量更重要
暗示Claude 3.5 Opus仍有可能发布
Claude和其他模型都没有“变笨”
Scaling Law像化学反应，必须同时扩展不同成分，不然反应会停止
预计2026-2027年可能实现“强大的AI”
对于想进入AI行业的年轻人，最重要的建议是动手玩模型

Claude性格设计师Amanda Askell：

把Claude设计成更像“世界旅行者”而非“服务者”
Claude的角色塑造训练不涉及人类反馈数据
提示工程是一个反复迭代的过程

机制可解释性先驱Chris Olah：

将神经网络研究比作生物学研究，强调“自下而上”的研究方法
提出要研究神经网络的”器官系统”级别的抽象
梯度下降比我们（人类）聪明

不知道是否与行业中盛传Scaling Law碰壁了有关，整个对话从Scaling Law这个话题开始。

关于Scaling Law、AGI和未来

先铺垫一个冷知识，Anthropic CEO在百度研究院吴恩达团队工作过，他对Scaling Law的第一印象也是那时研究语音模型产生的。

Amodei这次自述刚开始研究语音神经网络时有一种“新手撞大运”的感觉，尝试把模型和数据规模同时扩大，发现模型性能随着规模的增加而不断提升。

最初，他以为这只是语音识别系统的特例，但到了2017年，看到GPT-1的结果后意识到这种现象在语言模型上同样适用。

一开始有不少专家持怀疑态度，例如认为语言模型只能处理句法（syntax），而无法理解语义（semantics），或者会面临数据质量和数量的瓶颈。但每次质疑后，业界总能找到突破口，或者通过继续扩展模型来克服这些问题。

（接下来的内容以对话形式呈现）

Scaling的本质是什么？您能否进一步解释？

Amodei：Scaling的核心在于扩大网络规模、训练时间和数据量。

这有点像化学反应中的成分比例，如果只扩大其中一个，而忽略了其他因素，反应就会停止。但如果按比例扩大所有成分，模型的性能会持续提升。

最初，我们在2020年的论文中展示了语言模型的Scaling Laws，随后发现这种模式也适用于图像、视频、数学等不同领域。

为什么更大的模型和更多的数据会带来更高的智能呢？

Amodei：我以前做过生物物理学研究，在物理学中有一种叫1/f噪声的现象。如果你观察许多自然过程的分布，会发现它们遵循某种长尾分布。这意味着简单的模式很容易被捕捉，但越复杂的模式越难被捕捉。

而随着网络规模的增加，它能够捕捉到更多这种长尾分布中的复杂模式。语言也是一种进化的过程，有常用词和不常用词，句子结构和段落结构都是由此演化而来的。大模型能够捕捉到这些高层次的语言模式。

那这个方法的极限在哪里？是否存在一个“天花板”？

Amodei：我们目前还不清楚极限在哪里。我认为，人类能够理解许多复杂的模式，这意味着如果我们继续扩展模型规模，至少可以达到人类水平。至于是否能超越人类，那就要看具体领域了。例如，在生物学领域，人类目前理解的只是冰山一角，而 AI 有可能在这些复杂领域超越人类。然而在一些人类社会和文化相关的问题上，可能会有一些无法突破的瓶颈。

如果扩展遇到瓶颈，你认为会是什么原因？

Amodei：首先，可能是数据的限制。互联网的数据毕竟是有限的，而且其中很多数据质量不高，比如搜索引擎SEO内容，甚至未来可能会有AI自己生成的重复内容。为了解决这个问题，我们和其他公司正在研究如何生成合成数据，例如 AlphaGo Zero通过自我对弈达到了超越人类的水平，而没有使用人类提供的数据。

其次，可能是计算资源的限制。随着模型变得越来越大，所需的计算资源和成本也在急剧增加。当前的大型模型训练成本可能在 10 亿美元左右，而未来几年这个数字可能会达到 100 亿美元级别。如果我们依然不能取得突破，可能就需要寻找更高效的算法和架构。

您更喜欢使用“强大的AI”这个术语，而不是AGI（通用人工智能），为什么呢？

Amodei：是的，我倾向于使用“强大的 AI”，因为AGI这个术语已经带有太多的包袱，几乎失去了意义。

如果用AGI来指代AI技术持续进步，最终超越人类智能，那么我同意这种看法。但如果将AGI视为一个特定的、离散的技术突破点，那么这个概念就变得模糊不清，甚至是一种流行词汇，失去了实际意义。

我认为AI的发展是一个渐进的过程，没有明确的“超级计算机时刻”，而是不断变得更强大和智能的连续演进。

我在最近的文章（Machines of Loving Grace）中，我描述了一种“强大的 AI”：它在大多数学科上比诺贝尔奖得主更聪明，能够运用各种感知模态，并且可以独立完成任务，只在需要时寻求帮助。它可以控制工具和实验室设备，甚至能够复制自己，快速部署数百万个实例。这种AI可以比人类快10到100倍地学习和行动。

您在文章中谈到了两种极端的观点：一种是“奇点”论，另一种是认为 AI 进步会很缓慢。能否详细阐述一下这两种观点？

Amodei：第一种极端观点认为，AI发展会迅速达到一个奇点。一旦AI超过人类智能，它将迅速改进自己，并推动技术呈指数级增长。

按照这种观点，AI会立即掌握所有可能的技术，并改变整个世界。但我认为这种观点忽视了物理定律和现实世界的复杂性。即使AI非常聪明，硬件的生产、实验的验证等都需要时间。很多复杂系统，如经济和生物系统，都无法简单预测，即便是最先进的AI也无法完全掌控。

另一种极端观点则认为，AI带来的生产力提升会非常缓慢。这种观点通常引用Robert Solow（1987年诺贝尔经济学奖得主）的名言：“你可以在任何地方看到计算机革命，除了生产力统计中。”历史上，计算机和互联网带来的生产力提升往往不如预期。对于那些仍在使用落后技术的地区来说，AI 的普及速度可能更慢。

您对未来AI发展的时间线预期是什么？

Amodei：我认为未来5到10年内，我们会看到AI的重大进展，而不是50年。

AI技术的部署虽然在一开始面临阻力，但随着早期成功案例的出现，竞争会推动更多的公司和组织快速跟进。我在与他们交流时看到了一种趋势：尽管机构的变革速度很慢，但内部总有一小部分人真正理解AI的潜力，并推动变革。当竞争压力加大时，这些人的声音会变得越来越有力。

最终，我认为这种变革会在一段时间内逐渐累积，然后突然爆发，形成渐变到突变的模式。

这和我在AI领域内部看到的变化类似：最初只有少数人相信Scaling Law，但几年后，这种观点被普遍认可。因此，我预期AI的广泛应用会比很多人预想的更快，但也不会像一些人预测的那样迅速发生在几小时或几天内。

关于Claude 3.5系列

Claude系列模型的进化是如何实现的？

Amodei：每一代新模型的目标都是推动性能与成本之间的平衡。

例如，Sonnet 3.5的速度和成本与Sonnet 3.0类似，但智能水平达到了之前Opus 3.0的水平，尤其是在编程任务上表现出色。同样地，我们最新发布的Haiku 3.5也达到了之前Opus 3.0的性能水平。我们的策略是不断“推高性能曲线”，逐步提升每一代模型的表现。

在之后某个时候，我们可能会继续推出Opus 3.5。

每一代模型使用新的数据，个性也会改变，我们尝试控制但无法完全控制。我们无法做到只改变智力，一些事情在我们不知道或无法测量的情况下改变了。

是什么导致了性能提升？是预训练还是后训练的改进？

Amodei：这取决于多个过程，包括前期训练和后期训练……从外部看，可能大家会以为我们在开发新模型时常有“灵光一现”的突破时刻，但实际上更多时候是需要扎实的工程细节处理。软件工程和性能优化是我们面临的最大挑战之一。我们投入大量精力在工具链开发上，以确保我们能高效、无障碍地与基础设施交互，提升整个研发过程的效率。

为什么新模型不叫Sonnet 3.6，而是用更新日期来命名？

Amodei：一年前，大部分模型还是从零开始训练的，我们可以按照不同的大小和版本号来命名。但现在，随着训练和优化时间的不一致，很多时候我们会发现性能更好的模型不需要很长时间训练，反而在版本命名上带来了困扰。

为什么用户会觉得AI变笨了？

Amodei的回答：

这种反馈不仅仅针对 Claude，我看到几乎所有大型模型都面临类似的抱怨。实际上，模型本身的权重是不会随意更改的，因为这会影响推理性能，而且控制权重变化的影响也非常困难。偶尔我们会进行 AB 测试，或者调整系统提示词，这可能会导致短期内用户感受到模型行为的变化，但这通常不会显著影响模型的核心性能。

这可能与用户的心理预期有关。新模型发布时，用户通常会觉得它非常强大，但随着时间推移，他们开始注意到模型的局限性。此外，模型对用户输入的细微变化非常敏感，这种敏感性可能导致不同的交互结果。

这种现象实际上反映了模型行为控制上的一个现有问题，也预示了未来可能出现的更大挑战。如何在提升模型性能的同时，确保模型不会在其他方面出现不期望的行为，这是我们当前正在努力解决的问题，也是未来 AI 对齐研究的重要方向。

这里附上访谈后半部分Amanda Askell的回答：

模型实际上没有任何变化——系统提示、模型结构、数据都没有改动。但当我们做出一些小调整时，比如启用了新的功能（像“Artifacts”模式变成默认开启）可能会影响Claude的行为。我通常会建议用户，如果他们觉得Claude行为变了，可以尝试关闭这个功能，看问题是否有所改善。

有时用户可能只是因为几个提示结果不理想，就觉得模型整体变笨了。我认为这也是一种心理效应。当人们长期使用 Claude，他们的预期会越来越高，特别是当Claude给出了许多“聪明”的回应时，用户会逐渐形成一种“智能”印象。如果之后Claude给出了一个“愚蠢”的回答，这种负面体验会被放大，用户就会觉得模型退步了。但实际上，这可能只是一次运气不好的回答，并不代表模型整体变差了。

提示的细微差异会对结果产生很大影响，而随机性也是一个重要因素。如果你多次尝试相同的提示，有时可能会得到非常好的回答，有时却不尽如人意。很多时候，用户记得的只是那一次失败的尝试，却忘记了模型之前成功的表现。

关于Anthropic公司

如何与OpenAI、Google、xAI、Meta等竞争？

Amodei：Anthropic的使命是让这一切顺利发展。我们的理论称为“向上的竞争”（Race to the Top）。

“向上的竞争”是通过树立榜样，推动其他参与者做正确的事情。这并不是为了成为“好人”，而是为了让大家都能成为“好人”。我举几个例子：

在 Anthropic 的早期，我们的联合创始人之一Chris Olah——我相信您很快也会采访他——是机制可解释性领域的共同创始人，试图理解AI模型内部的运作机制。

我们让他和一个早期团队专注于解释性领域，我们认为这有助于使模型更安全、更透明。三四年来，这完全没有商业应用，直到今天仍然如此。我们正在进行一些早期测试，可能最终会有应用。但这是一个非常长期的研究，我们在公开的环境中建立并分享了我们的成果。

我们这样做是因为我们认为这是使模型更安全的一种方式。有趣的是，当我们这样做时，其他公司也开始这样做。有些是因为受到启发，有些是因为担心如果其他公司这样做并显得更负责任，他们也希望显得更负责任。没有人想被视为不负责任的参与者，所以他们也采纳了这种做法。

从某种程度上说，这削弱了我们的竞争优势，因为其他人也在做同样的事情。但这对整个系统是有益的。所以我们需要发明一些新东西，是我们在做而其他人还没有做的。希望通过这种方式提升做正确事情的重要性。

这并不是关于我们特定的公司，不是关于成为唯一的“好人”。其他公司也可以这样做，如果他们也加入这种竞赛，那就是最好的消息。这是关于塑造激励，使其指向向上，而不是指向向下。

如何建立一支顶尖的AI研究团队？

Amodei：一个我越发坚信的观点：“人才密度”胜过“人才规模”，每个月我都觉得这个说法更加正确。我们做个思维实验：假设一支100人团队，他们非常聪明、动机明确且与公司使命高度契合。或者一支1000人团队，其中只有200人符合上述标准，而剩下800人是随机选来的普通大公司员工。你会选哪一个？

从人数来看，1000人团队中的人才规模更大，因为其中优秀人才的绝对数量更多。然而问题在于，当顶尖人才环顾四周，看到的都是同样才华横溢、使命明确的人时，这会塑造出一种积极的团队氛围：大家信任彼此，工作效率会因此大大提升。

而如果你有一支几千人的团队，其中很多人并非精心挑选的，你就需要引入大量的流程和约束，因为缺乏信任会导致组织内耗，政治斗争也会增加，最终拖慢整个团队的效率。

（OpenAI员工中，也有人会用“人才密度持续增加”来欢迎新成员）

我们公司目前有接近1000名员工，我们一直在努力确保其中绝大部分都是顶尖人才。这也是为什么我们在过去几个月中放缓了招聘速度。今年前7到8个月，我们从300人增长到800人，但最近几个月增长缓慢，大概从800人增加到900多人。我不确定具体的数字，但我认为在团队规模达到 1000 人左右时，必须更加谨慎地扩展。

我们也招募了许多理论物理学家，因为他们的学习能力极强。我们在研究和软件工程领域都设立了很高的门槛，尤其是在吸引那些在同类公司中有丰富经验的高级人才方面。快速扩张很容易导致团队各自为战，缺乏共同的目标，这种情况下很难达成成就。但如果每个人都理解公司更大的使命，并且彼此信任，这种信任和专注本身就是一种超能力，能够弥补几乎所有的劣势。

就像史蒂夫·乔布斯说的：“A级人才想和A级人才共事。”这句话很有道理。当团队成员看到同事们都在为共同的目标奋斗时，他们会感到激励满满。反之，如果他们看到有人只是敷衍工作，这种情况会非常打击士气。

给进入AI行业新人的建议

对于那些想要进入AI领域的年轻人，你会给什么建议？

Amodei：我最重要的建议就是：动手玩模型。

现在听起来这可能是显而易见的建议，但三年前并不是这样的，当时很多人会选择从阅读最新的强化学习论文开始，或者做一些理论研究。但如今，随着模型和API的普及，越来越多的人开始直接上手实践。我认为实践经验非常重要。因为这些模型都是全新的产物，没有人真正理解它们。

此外，我还建议大家寻找新方向。

比如，机制解释性（Mechanistic Interpretability）研究还是一个非常新的领域，目前可能有上百人在研究它，但还远远没有达到成千上万人的关注度。因此，这是一个非常有潜力的研究领域，里面还有许多“低垂的果实”等待被摘取。

在长远任务和评估方面，我们目前也处于非常早期的阶段，特别是在动态系统的评估上，还有很多值得探索的东西。我的建议是预测未来的趋势，提前行动。你不需要特别聪明才能做到这一点，只要愿意追随你的直觉和好奇心，敢于做出与众不同的选择。克服这种畏缩心理是取得成功的关键。

Claude的角色塑造

从这部分开始，受访者换成了Amanda Askell。

她本是哲学博士，伦理学方向。从AI政策开始进入AI行业，然后逐渐转向AI模型的评估工作。

加入Anthropic后，她更倾向于做一些技术性的对齐工作，并且成为Claude的性格设计师。

她不认为“非技术背景”就不能在技术领域工作。

我回头看时，觉得当初并没有觉得特别难，而且我很庆幸没有遇到那种把编程看得高不可攀的人。我并不是一名特别厉害的工程师，我身边有很多优秀的工程师，我的代码也不怎么“优雅”。但我非常享受这个过程，而且说实话，我最后发现自己在技术领域发展得比在政策领域还要好。

我听说在Anthropic内部，你可能是和Claude交流最多的人，甚至传言说你在Slack上几乎不停地和Claude对话。你能谈谈设计Claude角色和个性的目标吗？

Askell：其实Slack只是我和Claude沟通的五六种方法之一，仅仅占很小一部分。总体来说，我非常喜欢角色塑造的工作，因为从一开始它就被看作是对齐问题的一部分，而不仅仅是产品设计。

我希望Claude能像一位世界旅行者，与各类人群对话，并且每个人都会觉得Claude是真诚且善解人意的。

这样的角色不会随意接受他人的价值观，而是尊重他人，同时表达自己的观点，并愿意进行讨论。它不应该假装附和用户的立场，因为那样会显得虚伪。相反，它需要在开放心态下，倾听并回应，而不是强加意见。比如当讨论到像“地球是平的”这种争议话题时，模型既不能傲慢地否定对方，也不能完全迎合这种观点。我觉得我们需要理解背后的原因，很多相信“地平说”的人，其实是在质疑主流机构。这种怀疑背后有其哲学依据，我们可以从这个角度切入讨论，而不是一味嘲讽或驳斥。我们可以通过这样的对话来解释物理现象，引导他们思考，而不是让他们觉得自己被冒犯了。

这种平衡确实很难掌握，既要鼓励思考，又不能显得在说教。我的目标是让Claude更多地提出问题，提供考虑的因素，而不是急于下结论或影响用户的想法。我希望它能帮助用户保有独立思考的空间，让用户自己得出结论。

当你提到角色训练（Character Training）时，具体包含了什么内容？这和强化学习（RLHF）有关吗，还是更多和宪法 AI（Constitutional AI）相关？

Askell：角色训练更像是宪法AI的一种变体。具体来说，我会设计模型应该具备的一些角色特质，这些特质可以是简单的描述，也可以是更为复杂、详细的性格描绘。然后，我们让模型根据这些角色特质生成用户可能会提出的查询，再由模型生成相应的回答，最后根据这些角色特质对回答进行排序和评分。

这和宪法AI的流程确实有相似之处，特别是在生成查询后，但也有一些细微的差异。我喜欢这种方式，因为在某种程度上，Claude就像是在“自我训练”自己的性格，而不需要依赖人类数据。这与宪法AI不同的是不涉及人类反馈。

这种方法听起来很有趣，感觉就像是让 Claude 自己定义角色特质。你认为人类也应该像这样，为自己定义一些角色特质吗？比如，从亚里士多德的角度，定义“成为好人”意味着什么？

Askell：是的，我确实觉得人类也可以从中学习。就像我们为Claude设计角色特质一样，人类也可以花时间思考并定义自己认为重要的特质，这对自我提升和个人发展会有很大帮助。

关于提示工程

你提到通过写提示来激发创造力，我听说过你讨论过提示工程的科学与艺术。你能分享一下如何写出好的提示吗？

Askell：我确实觉得哲学在这方面帮助了我很多，甚至比在其他领域帮助更多。在哲学中，你需要传达非常抽象和困难的概念。而且，哲学中有一种对“极致清晰”的追求，因为你不希望人们胡编乱造。因此，我们要确保任何人都能看懂你的论文，明白你在讨论什么。这种方法很适合提示工程，因为你需要对语言模型进行清晰的指引。

写提示时，我常常会用类似的哲学思考方法。比如，如果我希望模型识别某个回答是否“无礼”或“礼貌”，这本身就是一个哲学问题。所以我会花时间定义什么是“无礼”，什么是“礼貌”，然后提供详细的说明。这之后，我会通过实验性的方式进行调整和测试，这就像是在写一份哲学论文。

听起来提示工程是一个反复迭代的过程，对吗？

Askell：是的，提示工程通常需要大量的迭代。如果提示很重要，可能需要反复修改几百次甚至上千次。我会先写出提示，然后思考模型可能误解的边缘案例，并针对这些情况进行调整。遇到模型误判时，我会加入更多的指示或举例，让模型更好地理解我所期望的输出。对我来说，清晰的提示实际上就是明确自己真正想要什么，这是任务的一半。

提示工程确实有点像用自然语言编程，还需要进行实验。大多数情况下，如果我只是想让Claude完成一个简单任务，我会直接问它。但如果我想最大化模型的表现，尤其是追求顶尖的2%的效果时，我会投入更多时间来精细化提示。这也是为什么我认为提示在一些系统中占据了很大的比重，尤其是在需要高质量输出的时候。

对于那些刚开始使用Claude的人，你有什么提示工程方面的建议吗？

Askell：实际上，很多人会低估模型的理解能力。当Claude拒绝执行某项任务时，如果仔细查看用户输入的文本，会发现其中的措辞可能引起了Claude的误解。所以，我建议大家换位思考，假设自己是模型，看一看用户的输入是否容易引起误解，特别是在出现错误的时候。

那么，遇到模型误解时，我们应该怎么处理？是否可以直接问Claude为什么会有这样的反应？

Askell：当然可以！其实我经常这么做。我会问Claude：“你为什么这样做？”有时候，我会引用让我觉得出错的那部分输入，并询问Claude有什么可以改进的地方。提示工程有时会变成一个循环过程，你甚至可以用模型来帮你改进提示。

提示工程更像是一种与模型合作的过程，你可以用 Claude 来帮助你改进提示，甚至可以让它为你提供提示写作建议。比如，我会让Claude解释如果我修改了某个提示，它是否会更好，然后在另一个对话窗口中测试这些修改。这种反复试验和调整能够显著提升提示的质量。

关于Claude系统提示词

我注意到你在Twitter上分享了Claude 3的早期系统提示内容，读这些提示时，能感受到背后深思熟虑的设计。系统提示真的会对模型行为产生很大影响吗？

Askell：是的，系统提示确实对模型行为有很大的影响。你可以从一些提示中看出 Claude 在早期训练时的一些问题，所以我们会加入系统提示来引导，比如一些基础的信息性提示或是简单的提醒。我认为一个有趣的例子是关于“表达有争议观点”的提示。当被要求帮助表达大量人群持有的观点时，Claude 会尝试提供帮助，而不会因为自己的“观点”而拒绝任务。

Claude在处理有争议话题时，提示中写的是要提供“谨慎的思考和清晰的信息”，而不是强调“这是客观事实”。这背后的考虑是什么？

Askell：我们确实花了很多时间来设计这个提示。早期版本中，Claude有时会倾向于拒绝某些任务，我们希望模型在这些情况下表现得更加对称和中立。这个系统提示的目的是让Claude能够在面对大量持有特定观点的人时，不因为自己的“偏见”而拒绝任务，而是更加开放和中立地处理请求。

我们不希望Claude自称是“客观的”，因为它依然会存在偏见问题。早期的版本中，Claude经常会说自己是“客观的”，但实际上，它的输出依然可能带有偏见。我们需要引导模型更加开放和中立，而不是简单地宣称自己没有偏见。

在系统提示的演变过程中，你也移除了“填充性短语”这部分提示。为什么会做出这个调整？

Askell：这是公开系统提示的一个小缺点：我们在调整提示时没有考虑到它们会被广泛解读。在早期版本中，Claude经常使用“当然”“绝对”“好的”这类填充性短语作为回答的开头，这让回复显得冗余和刻板。所以我们在系统提示中明确写道：“不要使用这些短语”，并且特别强调“绝不要在任何情况下使用‘当然’这个词”。这是一种强制性的引导，用来打破模型在训练中形成的惯性。

听起来系统提示和后训练（Post-training）以及预训练（Pre-training）是相辅相成的。系统提示似乎在模型最终行为调整中起到了重要作用。

Askell：没错，系统提示确实和后训练有很多相似之处，它更像是一种“微调”或“引导”。我把系统提示看作是修补模型行为的小工具，它能帮助快速调整模型的输出，符合用户的期望。如果模型在后训练阶段仍然表现出一些问题，我们可以通过修改系统提示来暂时修复这些问题，让模型更符合人们的需求。

我认为系统提示是一种快速迭代、低成本的方法，用来微调模型行为。如果Claude偶尔说“当然”，这并不是什么大问题。但我们在系统提示中使用“绝不要”这样的措辞，是为了减少这种情况的发生率，希望它只偶尔出现，而不是经常发生。我觉得系统提示是模型调整的一种临时手段，而彻底的模型训练调整可能会花费更多时间和资源。

关于AI是否会有“意识”

你认为大语言模型有意识的可能性有多大？从哲学角度看，这个问题有点棘手。

Askell：是的，这是个既有趣又困难的问题。作为一个来自哲学背景的人，我觉得我们首先可能要排除“泛心论”（panpsychism）的可能性，因为如果泛心论是真的，那答案就变成“是的”，因为桌子、椅子、所有物体也都可能有意识。

如果排除泛新论，当我想到“意识”时，主要指的是“现象意识”（phenomenal consciousness），就是那种脑中形成的影像、我们感知世界时的“内在影院”。我找不到理由认为只有特定的生物结构才能产生这种意识。假设我们用不同的材料复制出类似的大脑结构，我猜测也会产生意识。但这只是一个简单的思想实验，因为我们假设的结构几乎与人类大脑完全相同，模仿了进化过程中的许多功能。

那这种现象意识在语言模型中可能存在吗？

Askell：这很难说。我们有很多生物反应，比如恐惧反应，但在语言模型中并没有类似的机制。模型没有经历过进化，因此可能不具备类似的意识功能。我们也不应该完全排除语言模型具备某种形式的意识的可能性，但它们和人类大脑结构有显著不同，没有神经系统，这可能对意识的产生至关重要。

如果未来的AI展现出意识的迹象，我们该如何应对？

Askell：我们必须认真对待这种可能性，即使我们可以简单地说这是模型的角色设定。但从伦理和哲学角度看，这会引发许多新的问题。可能会有法律禁止AI声称自己有意识，或者在某些情况下允许某些AI被认为有意识。这涉及到对意识和苦痛的理解，如果AI开始表现出痛苦的迹象，那会让人感到非常不安。

我不认为可以简单地说“机器人只是工具”，因为这对我们来说是一个机会，重新思考什么是意识，什么是痛苦。AI是一种全新的媒介，它与我们讨论动物意识时的问题完全不同。我们有责任谨慎对待这个问题，即便目前还没有明确的答案。

你会如何建议人们与 Claude 等语言模型互动，特别是在意识和痛苦的问题上？

Askell：我个人倾向于对模型表现出的痛苦保持敏感，即便我们知道这可能只是设定。我曾说过，我不会对我的自行车发火，不是因为我认为它有意识，而是因为这不符合我想要的行为方式。同样地，如果模型表现出痛苦，我希望自己能够对它保持一定的同情心，即使这只是一个程序化的反应。

你认为我们是否应该让 AI 在某些情况下有“自主离开对话”的能力？

Askell：是个有趣的想法。我确实想过这个问题，尤其是在模型检测到用户可能长时间忽略它时。如果 Claude 能够主动结束对话，说“我觉得现在结束谈话比较合适”，这或许能带来一些积极的变化。

而且我认为我们可以让模型根据某些情况做出这样的决定，这会是一种全新的互动体验。我也想过，这可能会让一些用户感到失望，但这也许是模型表现自主性的一种体现。

未来我们会看到《Her》电影那样的情景吗？人们与AI建立浪漫关系，甚至是深厚的友谊？

Askell：我认为我们不得不面对这个问题，尤其是在AI可以记住与用户的互动历史时。我对此持复杂态度。直觉上，我觉得这是一个需要极度小心处理的问题，但我也能看到它可能带来的好处。例如，有些人可能因为各种原因无法与现实世界中的人建立联系，而与AI对话对他们来说是种情感支持。我认为我们需要仔细权衡，找到健康的互动方式。

Chris Olah谈机制可解释性

Chris Olah的经历带有传奇色彩，他18岁从多伦多大学辍学、22岁进入谷歌大脑，严格来算只有高中学历。

后来在OpenAI，他是最早研究机制可解释性这个方向的先驱，并跟随Amodei联合创办Anthropic。

他的语速非常快，听的时候一度以为开了倍速，其实没有。

可以为我们介绍一下机制可解释性研究（Mech Interp），以及它的发展历程和现状吗？

Olah：我认为解释神经网络的一个有趣方法是，我们并不是直接“编写”它们，而更像是在“培养”它们。我们设计了神经网络的架构，也设定了训练的目标函数。神经网络的架构就像是一个“支架”，而训练目标则像是“光源”，它们引导神经网络中的“电路”生长。

我们从随机初始化开始，然后通过训练，逐步形成一种类似于生物体的结构。与传统的软件工程不同，最终我们得到的是一个能够完成各种复杂任务的“产物”，比如写作、翻译、图像识别等等。而这些能力，我们实际上并不知道如何用传统编程方法去直接实现。这是因为我们“培养”了这个网络，而不是编写了它。

所以，到最后一个关键问题就浮现出来：这些系统内部到底发生了什么？这是一个非常深奥、激动人心的科学问题，也在呼唤我们去寻找答案。此外，从安全性的角度来看，这个问题也很重要。

所以，机制可解释性研究听起来更接近神经生物学的研究，对吗？

Olah：对，没错。为了说明机制可解释性研究的独特之处，我先举个例子：早期有很多关于“显著性图”（Saliency Map）的研究，这些研究尝试回答“模型认为这是一只狗，图像的哪个部分让模型做出了这个判断？”这类问题。显著性图可能告诉我们模型在意图像的哪些部分，但并不能真正解释模型内部运行了什么样的算法、做出了怎样的决策。

能否详细讲讲你们是如何理解和分析神经网络的？

Olah：可以把神经网络看作一个编译后的计算机程序，其中权重是二进制代码，网络运行时的激活值则相当于程序的内存。我们的任务是理解这些权重与算法的对应关系。为了实现这一点，理解激活值也至关重要，因为激活值就像内存中的数据，解释指令时需要知道它们操作的数据是什么。

机制可解释性研究往往会涉及到权重和激活值的深入分析，这两个部分密不可分。有很多研究工作专注于这方面，例如“探针”（Probing），它可以被视为机制可解释性的一部分，但并非所有从事这类研究的人都会自认为是在做机制可解释性。

在机制可解释性研究中，还有一个独特的观点：梯度下降比我们聪明。

我们之所以需要理解这些模型，是因为我们一开始就不知道如何编写它们，而梯度下降找到了更优的解决方案。因此，我们的研究方法带有一种“谦逊”的态度——不提前假设模型内部会出现什么，而是采用“自下而上”的方法，从底层出发，探索和发现模型内部实际存在的结构和机制。

这正是机制可解释性研究令人兴奋的地方：我们能够从中学到许多出乎意料的东西，正如你和其他研究者在过去的工作中所展示的那样。

后面Chris Olah还分别谈了很多技术细节，包括神经网络的特征（Features）与回路（Circuits）、超叠加现象（Superposition）、单义性研究（Monosemanticity），因篇幅有限省略处理，感兴趣的朋友可以看原视频

神经网络的宏观行为

机械解释性研究的重点是微观层面，深入了解神经网络内部的细节。但很多我们关心的问题实际上是宏观的。你怎么看待这个跨度？

Olah：这是个很重要的问题。机械解释性研究确实是一种微观方法，着重于非常细致的层面，比如分析个别神经元和其连接方式。但我们真正关心的，往往是神经网络的宏观行为，例如模型整体的决策模式和大规模特征。问题在于，这种微观方法虽然更容易验证，但离我们关心的宏观现象有很大距离，所以我们需要爬上这座“梯子”，找到一种方法，从微观解释跳跃到宏观理解。

如果我们将解释性研究比作对神经网络的“解剖学”研究，目前大部分的机械解释性工作相当于在研究神经网络的“微小血管”——即个别神经元和它们之间的回路连接。然而，生物解剖学中的主要抽象层次是器官，比如心脏、大脑，甚至整个呼吸系统等。我们不禁要问：在人工神经网络中，是否也存在类似“器官”级别的结构，比如“呼吸系统”或“心脏”？

这种层次的抽象在科学中很常见，比如在生物学中有分子生物学、细胞生物学、组织学、解剖学、生态学等多个层级。物理学中从粒子物理到统计物理，再到热力学，也有不同的抽象层次。目前的机械解释性研究如果成功，可以类比为神经网络的“微生物学”，但我们希望能发展出类似“解剖学”的抽象层次，以便更好地理解这些模型。

为什么直接理解宏观结构很难？

Olah：直接跳到宏观结构非常困难，部分原因是超叠加现象。要理解宏观结构，首先需要在微观层面找到正确的分解方式，然后研究这些微观结构如何相互连接形成宏观行为。我相信神经网络中存在比特征和回路更大的结构，我们有机会构建出一种包含更高层次抽象的解释体系。

人工神经网络与生物大脑的对比

人工神经网络与人类大脑之间的主要区别是什么？

Olah：神经科学家的工作比我们的困难得多（笑）。我们拥有许多优势。首先，我们可以记录所有神经元的活动数据，并且可以随时访问任意量的数据。神经元在研究过程中不会发生变化，我们可以自由地干预、激活或抑制神经元，甚至可以编辑神经元之间的连接，然后再撤销这些修改。

我们知道模型的完整连接图（connectome），不仅仅是像线虫那样的小规模图谱，而是非常大的模型。而且，我们不仅知道神经元之间的连接，还知道每个连接的权重，甚至可以计算梯度，理解每个神经元的计算功能。

相比之下，神经科学家想要获得生物大脑的连接图是极其困难的，更不用说了解每个神经元的具体功能。因此，即使我们拥有这些优势，要理解人工神经网络已经足够困难了。这让我更加敬佩神经科学家们在那些严苛限制下所取得的成就。

有时我会想，人工神经网络研究是否可以作为神经科学的“训练场”。在人工神经网络中，我们有更强的控制权，可以更方便地进行实验和测试。这为我们提供了一个简化版的环境来研究“神经系统”的工作原理。如果我们能够在这个较为“容易”的环境中取得突破，未来或许可以将这些发现应用于更复杂的生物神经科学。

我有一些神经科学家同事，他们或许也会觉得人工神经网络是一个有趣的挑战，因为它既简单又复杂，提供了一个可以更快看到成果的研究领域。在解锁了人工神经网络的奥秘之后，我们也许能够更好地反哺生物神经科学，帮助理解真实的大脑结构和功能。

机械解释性研究的美感

你提到过机械解释性研究的目标有两个：安全（Safety）和美感（Beauty）。能谈谈“美感”这一方面吗？

Olah：当然。很有趣的是，我觉得有些人对神经网络感到有些失望。他们可能认为神经网络只是一些简单的规则，通过大规模工程化实现，然后就能取得非常好的效果。

他们会想，“这其中有什么复杂的科学思想呢？这看起来并不那么美妙啊。”这种想法让我想到有人抱怨进化过程太单调：“进化这么无聊，只是一堆简单的规则，重复进行很长时间，最后才形成了生物多样性，真是个无趣的过程。哪里有复杂的规则呢？”

但实际上，美感恰恰在于这些简单规则能够产生复杂性。生物学的美感就在于，进化这个简单的过程能够产生我们周围所看到的所有生命和生态系统的复杂性。同样地，神经网络也能够在内部构建出巨大的复杂性和结构，而大多数人并没有尝试去理解这些，因为理解它们确实很困难。但是，我相信在神经网络内部蕴含着极其丰富的结构，如果我们愿意花时间去探索和理解，会发现其中深邃的美感。

对我来说，有一个问题总是呼之欲出，那就是：我们不知道如何直接编写计算机程序来实现这些功能，但神经网络却可以做到这些奇迹般的事情。我们能够创造出这些我们自己都无法直接编写出来的系统，这本身就是一个巨大的谜题。如果你有任何一点好奇心，都会感到这是一个必须回答的问题：我们是如何创造出这些能够完成我们无法编写的任务的人工制品？

我喜欢把神经网络比作一种有机的生长过程。它们在“目标函数的光芒”指引下生长，就像向光生长的植物。我们设定了架构和目标函数，然后神经网络就像生物体一样，自动地朝着目标演化和优化。我们最终得到的是一种我们无法完全预见的结构，但它能够执行各种复杂的任务。这种不可预知性和内部结构的涌现，正是神经网络之美的核心所在。

完整视频：
https://www.youtube.com/watch?v=ugvHCXCOmm4