在科技视频播客节目Invest Like The Best中,主理人Patrick O'Shaughnessy与Anthropic首席财务官Krishna Rao展开了一场引人入胜的对谈,把我们带入这家全球增长最快的AI公司的内部。

当所有的科技巨头和AI企业,都在急于从AI模型变出个超级应用,获取用户和流量,再去代货、广告、游戏、搜索时,Anthropic做出了几个反共识的坚持:它对前沿的认知,并不是评测榜上的排名;它证明了安全研究得好,有助于模型研究保持前沿;它在定价及产品的品味上,保持“向上竞争” (race to the top),而不是“向下竞争”(race to the bottom); 它坚持了语言模型并在编码领域取刘了突破;最重要的是,编码这一数字领域的通用技术,构建出能为企业干活的智能体。

它今年第一季度年化收入80倍的疯狂增长,或者说10倍速的增长成为常态,缔造了一种真正AI原生的商业模式:用前沿AI获取极高的回报,对企业服务尤其如此。让所有的软件,都可能成为服务的表达。

Krishna既是Anthropic的CFO,也负责公司的算力配置,他用实践和业绩证明了,获取充足的算力,再对算力进行灵活和高效的配置,可以最大限度地获取算力ROI;尤其是前沿模型研究的算力,也终将支持ROI,并且把这ROI传递给客户。

在主理人精心的提问中,Krishna 详细揭示如何管理算力这一原生AI企业的命脉。从在亚马逊、谷歌和英伟达之间采购吉瓦级的处理能力,到为模型训练和客户需求动态分配这些算力,算力决定着 Anthropic 的未来。

他们还讨论了公司令人震撼的指数级收入增长、预测中的“不确定性锥体”,以及为什么前沿 AI 模型仍在不断突破扩展的限制。Krishna 还分享了 Claude 如何正在彻底改变他自己的内部财务团队,Anthropic 独特的安全与透明文化,以及他对 AI 驱动医疗健康突破所做出的大胆预测。

下面是访谈的全文翻译。我们调整了其中口语化重复性的表达,并删除了少量与主题无关的内容。

打开网易新闻 查看精彩图片

(图片来源,访谈视频)

问:Patrick O'Shaughnessy

答:Krishna Rao

算力是一张画布

Krishna,我一直非常期待这场对话,因为你从内部看到史上最有意思的企业之一,而且至少对于关心科技的人来说,这很可能正处在史上最有意思的时刻。

最让我着迷的一件事就是算力。我很希望你先讲讲,每天必须面对这件事究竟是什么感觉。我了解到,你们一度甚至每天都在开会,讨论算力该如何分配、分给谁、为什么要这么分。正在发生的一切中,我觉得这才是最前沿的问题。

我们采购的算力,是我们业务的命脉。它是公司里最重要的东西,就像是一块画布,一切其他东西都在其上建立。所以,我们该买多少算力,是整个公司里最关键、也最困难的决定之一。你可以这样想:如果你买了太多算力,公司就会倒闭;如果你买得太少,你就无法服务客户,而无法站在前沿,本质上也是同一回事。

所以,我们经常谈这个“不确定性锥体”(cone of uncertainty)的概念。关键在于,这些采购决策都会带来真实世界的后果。你不可能今天出去说,我要买一吉瓦算力,然后下周就把它交付到手。你必须真正提前思考并做好规划。我们对这件事采取非常有纪律的方法。我们会自下而上地看,会建模预测需求会是什么样子,当然,有时候我们也会看错。我们会思考,为了保持在前沿,我们需要多少算力,并尽力提前估算出来。然后,当我们真正出去谈这些采购算力的交易时,灵活性对我们来说非常重要。所以,我们会把这种灵活性写进交易本身,也会把灵活性写进我们使用算力的方式里。因为当业务以指数方式增长时,我们从今天所在的位置走向未来目标的路径,就是尽可能高效地使用这些算力。即使到今天,我也会把 30% 到 40% 的时间花在算力上。

你说的灵活性,在这里是什么意思?

它有几层不同的含义。我们使用三种不同的芯片平台:亚马逊 Trainium 、谷歌 TPU 和英伟达 GPU 。我们会以可替换、可互通的方式使用这些芯片。如果你看我们买来的算力,会被用在模型开发上,也会被用于内部,加速我们自己的产品和模型开发,当然还会被用来服务客户。在这三种芯片平台上,我们都会把算力用于内部和外部。而这种灵活性,其实花了我们很长时间才实现。我们花了很多年进行投入,才做到我认为在所有前沿实验室里最擅长高效使用算力的水平。

当我们开始使用 TPU 的时候,我记得可能是第三代 TPU,才是我们第一次大规模使用的版本。当时很多人觉得,你们疯了吗,大家都在用 GPU,你们为什么不用 GPU?但我们投入了非常多的精力,去让自己能极其灵活地使用这些算力。然后我们再去看这些芯片平台的不同代际,把每一代都分配给内部最适合它的工作负载。所以我们实际上构建了这样一个编排层,使我们能灵活地使用各种不同类型的算力,并且也能够从中获得最大的价值。

我这样理解对不对,英伟达长期以来故事的一部分,比如 CUDA,就是让你能够在底层硬件之上做很多事情,让你尽量靠近裸金属,而你们的这段历程,有一部分就是想做到这种灵活性,并尽可能控制更多变量。是这样过来的吗?

这的确是其中一部分,但这段历程实际上也很协作。

我们和亚马逊 Annapurna Labs 团队合作得非常紧密,会影响这些芯片的路线图,因为我们相信所做的事情正在不断逼近这些芯片能力的极限。这意味着,在我们组织内部,一美元算力可以走得比我认为任何别的地方都更远。但同样重要的是,我们其实想让每一种芯片,都在公司内部被用于它最合适的用途。所以这的确意味着,我们会构建自己的编译器,我们确实是在从芯片层一路往上搭建这些东西,以获得那种定制化和灵活性,让我们能够按我们认为能产生最高投资回报率的方式在内部使用它。

AI增长与“不确定锥体”

你能解释一下这个“不确定性锥体”吗?它似乎是一个非常关键的起点,也像是理解算力采购和算力用途的总体框架。

当你在推动一家以指数方式增长的企业时,月度或周度增长率里非常小的变化,最终都会通过复利效应导向完全不同的结果。所以我们在往前看时,即便只是收入增长,也很难预测这家公司会变成什么样。这真的很难。我认为人类大多是线性思维,会按增量方式思考。而这恰恰是我来到公司这两年里,必须迫使自己打破的一种思维范式。不要再线性地想问题,而要真正从指数增长的角度思考。

一旦你站在这个指数增长曲线上,结果的可能区间就会变得非常、非常宽。我们会看一系列不同情景,也会看在未来一到两年内,这个不确定性锥体上的不同位置,然后再从那里反推回来。我们希望自己处在一个位置上,首先当然是能够继续保持在前沿,这是最重要的;其次能够服务客户;再次,还要有足够的内部算力去加速员工的工作。这很有意思。如果我们对员工说,你们不能再使用我们的模型了,那么我们把现在内部配置给员工的那部分算力拿去服务外部客户,理论上可以支撑数十亿美元收入。但我们希望从长期视角、从不确定性锥体的长期视角来看问题,因为我们想让自己尽可能朝着这些结果的上端靠拢。可要做到这一点,就必须提前规划。而这就是我们如何以有纪律的方式思考购买算力的。

最关键的是,如果你处在不确定性锥体的某一个点上,但你买到的算力却只够支撑另一个点,那会发生什么?

正是在这种情况下,算力效率真正帮到了我们。

前沿智能何以回报极高

我对那三个大类之间的取舍特别感兴趣,大致上就是训练研究、内部使用,以及服务客户需求。也许就是各占三分之一。实际的浮动范围有多大?这些讨论是怎么持续进行的?

除了讨论算力采购,我们也经常讨论算力分配。我觉得重要的是,一切都始于我们的文化。我们的文化极具协作性,这也塑造了这些讨论发生的方式。所以这里不是零和博弈,而是在一种高度协作的氛围中进行。不过,分配给模型开发的算力,会有一个我们绝不会低于的底线。也就是说,即便这意味着服务客户会更困难,或者我们不得不为此采取一些不那么自然的做法,我们依然希望继续长期投资开发最好的模型,因为我们认为,前沿智能带来的回报极高,尤其是在企业领域。

所以,这实际上给模型开发所分配的算力设定了一个下限。然后,当我们考虑内部使用算力时,它实际上能帮助我们加快模型开发,也能帮助我们找到那些算力效率乘数,让我们从每一美元算力中榨出更多价值。所以当我们在讨论这些问题时,每个团队都会陈述,如果他们获得这部分算力,他们会拿来做什么。然后我们会就投资回报率展开非常开放、非常坦率的讨论。

而且,由于我们能够如此动态地分配这些算力,所以我们可以在相对较短的时间范围内对这些分配进行修改和调整。

这个效率问题对我来说非常有意思,比如和一年前你们内部自己的基准相比,你们现在到底高效了多少,或者和其他你大概知道一些情况的公司相比,你们大概高效多少。你们怎么衡量“效率”这个词?

我会从几个不同维度来看。从模型的角度看,我觉得人们看到新模型发布时,常常会把它们类比成汽车。你之前有一辆轿车,然后你可能换成更高配的轿车,一路这样往上升级。我认为就模型智能而言,这种类比是成立的。这个类比开始有一点失效的地方在于,人们会想,我这是从轿车升级成跑车了,那燃油效率肯定会差很多吧。我买跑车当然不是为了省油。

但在我们的情况里,我们实际上看到的是双重改进。不仅能力有巨大提升,模型效率也有巨大提升。所以如果你看从 Opus 4 到 4.5、4.6,再到现在的 4.7,这些跃迁之间虽然不是完全等量的,但每一次新模型的跃迁,都带来了一个效率乘数,也就是它在处理 token 方面会变得更高效。而这不仅服务客户,对我们内部也同样有帮助。当我们在模型上做强化学习时,本质上就是在一个沙箱里做推理,再配上奖励函数。所以如果模型在推理上更好、更高效,那么这种强化学习也会更高效。于是我们就实现了这种双赢:当我们发布新模型时,客户得到的是更强能力;而我们也往往能以比上一代高出数倍的效率来服务这个模型。不同模型代际之间更像阶跃式变化,我们还会持续动态部署各种效率改进,作为这些的模型升级之间的过渡。

所以,它总是在随着时间不断变得更高效。而推动这一切的,是研究团队。你如果这样去想,这些事情其实都彼此相连。我们内部这些不同任务、不同工作负载,其实都是以这种方式拼在一起的:做研发,提升模型能力,提升算力效率,服务客户,然后再通过最好的模型去加速内部工作负载,有时候甚至是那些我们还没有发布出来的模型。

前沿模型捕获经济价值

你刚才说了一件很重要的事,前沿模型所带来的回报非常高。你能尽可能详细地解释一下吗?我完全可以用一个六个月前的模型,成本只有一小部分,而且我就一直用它,反正会不断赶上。可现实并不是这样,比如 Opus 4.7 一出来,所有人,哪怕包括我这样的普通用户,第一件事就是立刻把它切换过来。又比如 GPT-5.5 一出来,你也是立刻打开新的那个。大家都想要最好的。所以你谈谈,站在前沿的回报到底体现在哪里,为什么会这么高。

我觉得这背后有几件事。每当我们推出一个新模型,总会有一组不同的能力。人们往往把模型智能理解成 IQ,好像这个模型是 110,然后变成125。对我们来说,智能是多维度的,不只是一个分数。虽然大家都会发布自己的模型基准评测卡片,我们自己也会发,但其中很多基准其实已经饱和了。

我们自己真正重视的衡量方式,是客户告诉我们的东西,也就是这个模型在真实世界里的能力到底是什么。随着我们发布越来越好的模型,我们看到,变化不只是绝对意义上的智能提升。它还包括完成长周期任务的能力,包括使用工具或进行计算机操作(computer use) 的能力,也包括智能体式任务的能力,具有明确价值,而且完成得更快。也就是说,从某种意义上讲,如果你有两个员工,他们可能在能力上差不多,但一个人完成一项任务需要一周,另一个人一天就能做完,那么如果第二个人持续保持这种速度,他就可能强七倍。两个人也许在某种事情上的能力相当,只是完成速度不同。但这些因素都会影响客户对模型的体验。

而我们一再看到的是,每发布一代更好的模型,TAM(总可及市场)就会以一种独特的方式被打开。会有更多 TAM 被解锁,会有更多用例成为可能。一个很好的例子,就是过去四个月我们公司内部发生的事情。今年年初,我们的年化收入大约是 90 亿美元,而到这个季度结束时,已经超过 300 亿美元。这样的变化,实际上正是由模型智能的跃迁,以及我们围绕这些模型构建的产品所驱动的。所以这就是我说“前沿智能的回报非常高”的意思。

我认为这在企业领域尤其独特,因为在消费领域,有时你未必会这么明显地看到这一点。消费者未必总是在逼近模型能力的极限,而在企业领域,我们的客户现在总是在这样做。最开始是编码,但现在已经非常明显地扩展到编码之外了。每一代新模型,都会让你有机会用它做更多事,把事情做得更好,做得更高效。客户能看到这一点,于是他们会在新模型上投入非常多的 token。我们已经一再看到这个循环不断上演。这是我们业务的核心论点,尤其是在企业领域,前沿智能的回报并没有在放缓。

跃上“递归式自我改进”

你们团队里有人最近提到过,类似“递归式自我改进”,也就是模型本身正在参与构建下一代模型,甚至在做不少研究工作。于是我会想,如果把你们正在推动的前沿、OpenAI 正在推动的前沿,和那些开源模型做比较,那么差距会不会进一步拉大,因为你们先抵达了这种递归状态?你觉得我们应该怎样理解模型自身的这种递归式自我改进?因为看起来,谁先到达这里就极其重要,因为一旦到了,就可能持续拉开与那些后参与者的差距。

我们确实看到进展在加速。至于别的公司我没法评价,但对我们来说,扩展定律(scaling laws)依然是成立的,而且运行得很好。最近的一些发布,比如 Mythos, 90% 以上的代码实际上都是由 Claude Code 写出来的,而 Claude Code 本身也有很多部分是由 Claude Code 写的。所以你会想到,为什么我们要在内部配置算力?为什么我们愿意为此放弃一部分收入?原因就在于,模型本身正在帮助我们构建下一代模型。除了 scaling laws 本身带来的能力跃迁之外,人才也非常重要。而当这些人才和最好的模型结合在一起时,确实能够大幅加快能力开发。我们真的看到了这一点。

我们其实并不太从“闭源”或“开源”的角度去看模型。我们更看重它是不是处在前沿。那些处在前沿的模型,很明显正在捕获这种经济价值,也在为客户带来切实的投资回报。我们就是围绕这个论点持续投入。这意味着既要投入算力,也意味着要投入能够使用这些算力、也能够使用我们自己模型的人才,从而真正加快开发速度。

不只是模型本身,还包括建立在模型之上的产品。今年 1 月,我们发布了 30 个不同的产品和功能更新。而且这个节奏也在加快,这在某种程度上正是因为我们把现有的人才和模型结合起来,真正加速了各种接入底层智能的方式。这大致就是我们在产品侧的理论框架。

你刚才提到了人才、杠杆,还有他们并不是自己写代码,而是 Claude Code 在写它自己的代码。沿着这条路径走下去,最后一步会不会是AI甚至都不需要人才来告诉它该做什么了,它自己就知道该做什么。那时候它就自己运行起来,唯一的约束只剩下算力之类的东西。

我们公司的核心依然是一家研究实验室。我觉得这一点也许外界还没有完全理解,我们一直在做实验,我们在做那些把模型能力推向极限的事情。而这种研究,以及驱动研究的引擎,是我们前面谈到的一切的上游。今天,这个过程已经能被模型所赋能,但并不是完全由模型完成的。随着时间推移,我们认为模型会越来越强,在这个过程中会越来越有帮助。但拥有最顶尖的人才来设定方向,不只是设优先级,还包括去发现一些全新的探索方向,这实际上会让这些研究人才本身变得更强。所以在我看来,这更像是在强化并加速我们已经拥有的人才。我们经常说,人才密度胜过人才规模。我们想要的是最密集的 AI 研究人才,以及推理工程人才,而这些人才再配上最好的模型,我们认为这会是一个极具竞争力的组合。

Scaling Laws依然有效

现在外界的共识大概是,scaling laws 有不同组成部分,比如预训练、后训练、推理,而且它们推进的速度各不相同。要真正撞上“墙”,得是这些部分都一起失效。你们内部是怎么谈这个问题的?

我们会看模型在开发过程中的不同阶段。比如,在一次预训练运行过程中,我们能看到这个模型和我们以前做过的某个模型相比,在这些损失曲线(loss curve)上表现如何。这会给我们一个关于模型能力的感觉。你也可以用同样的方法来看强化学习。然后,可能同样重要的一点是,当客户真正拿到模型开始用的时候,他们看到了什么,他们在哪里识别出了痛点。

这些痛点随后就会成为我们的训练目标。当然,在企业侧,我们不会用客户数据做训练。在专业级个人用户(prosumer)那边,只有在你明确选择加入的情况下才会这样做。但客户会告诉我们,“我希望模型在这方面做得更好”,或者“它在这个特定地方卡住了,如果能力再往前走一点,我就能构建另一个产品”。我们通常会告诉他们,好,那你就围绕那个场景去构建产品,因为在研发端,我们会随着时间推移把能力推上去。

所以,这里存在一个相互连接的闭环。但在内部,我们始终在看正在训练中不同的模型、不同的训练快照,不断把它们进行比较,既在内部比较,也在较小程度上和外部做比较,先按照我们自己的衡量方式看,最终再看客户怎么看它们。

听起来,scaling laws 本身似乎完全没有放缓,是这样吗?

答:对我们来说,这是个合适的描述。当然,scaling laws 论文的一些作者本来就是我们的创始人,撇开这一点不谈,我们内部其实相当怀疑主义。我们对自己的要求非常高,这还是那个研究实验室的理念,非常强调科学方法,大家会不断挑战先前成立的假设。但从我们看到的情况来看,scaling laws 并没有放缓。

你前面说过,人类很难用指数思维而不是线性思维来看问题。假如接下来未来若干轮迭代里,这件事仍然成立,那么在你的工作和整个业务里,你怎么做到不按线性方式思考,而是按指数方式去思考?指数级收入增长是一回事,但能力本身的指数级增长,我甚至都不知道怎么去理解它。

我们是用“情景”的方式来看世界的。在这个业务里,很难做一个点估计。然后,必须对更新自己当前的先验判断或当前视角保持极低门槛,因为一个月前还成立的事情,今天就可能已经不成立了,而这会直接打碎你原来的模型。所以那种老式的做法,比如每个季度预测一次,然后三个月后在下一次董事会会议上再回头看,这套方法对我们不适用。我们的业务变化太快了,以至于我们必须一直思考:以前我们的模型还做不到这个,现在已经能做到了,这对 TAM 意味着什么?

我们最早是在编码上看到这一点的。大概从 Sonnet 3.5、3.6 开始,我们看到了一个非常显著的能力跃升,接下来就是采用、使用和收入的跟进。那其实一开始是有点难预测的。但现在,我们可以把编码当作很多其他事情的类比,用来理解经济中的其他领域、以及我们业务中的其他部分正在发生什么。所以,我们会看自己业务里的模式识别,据此预测未来会发生什么。

算力的代谢速度

你们用什么策略,以更有创造性的方式去获取更多算力?

我们宣布了和 SpaceX 的合作,使用他们位于孟菲斯的 Colossus 设施。我们对此非常兴奋。这会让我们能够继续扩张,特别是在消费者专业级消费端。只要哪里能获得近期算力,我们就会去找。随着整体算力基数变大,这种近期可获得的算力在可用总量中所占的比例会越来越小。但我们会看的是,这些可获得的算力,我们能不能高效地部署起来。有时候答案是能,有时候答案是否。可如果能,我们就会根据它的价格、可用时长、所在地、算力类型,以及我们能多高效地运行它,去看它的经济回报。所以我们有一整套评估流程。顺便说一下,这套流程也被我们用于评估长期交易。

比如上个月,我们和谷歌、博通签了一个从 2027 年开始的、总计 5 吉瓦的 TPU 协议。我们也和亚马逊签了一个最高 5 吉瓦的 Trainium 协议。这是一个超过 1000 亿美元的承诺。而且其中很多算力实际上已经开始陆续落地,并会在今年余下时间以及明年继续到位。你可以把它想象成一层层叠起来的“算力千层饼”,不同层在不同时间开始提供能力。我们会非常动态地比较这些算力,比较它们随时间变化的性价比,这对我们来说非常重要,还要看它们何时落地,以及我们认为在业务内部可以拿它们做什么。

所以,这里面有太多不同变量需要优化,比如是什么样的算力、成本是多少、时间跨度有多长。但我们有一种非常动态的方式来同时看近期算力和中长期算力。不同的是时间跨度,评估的核心维度其实大体相同。

那价格和性能之间的权衡呢?你刚才提到性价比(price performance)。比如 每token成本、吞吐量、速度之间的取舍。从客户角度看,他们都关心。随着这些系统变得更快,速度可能还会解锁一些现在我们还不知道的很有意思的新能力和用例。你能谈谈你们在评估算力时,如何看待这类权衡吗?

当我们看三种不同芯片平台的时候,每个平台内部还有多代芯片,可能有 TPU v5e、v6、v7,还有 Trainium 2、Trainium 3,它们都处在性价比曲线的不同位置。然后很重要的一点是,我们会看自己将如何使用它们。性价比关系到效率,所以很重要;速度对于某些用例同样重要。因此我们会非常细粒度地看每种算力到底能为我们提供什么、在什么时间提供什么。这是我们做的事情,当然通常是由我们的算力团队牵头,但整个公司都会密切协作,一起讨论我们在哪些地方需要这些算力,以及是为了什么。比如,我们可能需要 CPU 来做强化学习;我们也可能需要更前沿的算力,把它部署到我们最好、最快的模型上,或者用于训练它们。所以对我们来说,一方面是客户需求,另一方面也确实非常细地落实到每一种芯片最适合做什么,以及到时我们手里会有什么。

我一直对 Anthropic 这种对新算力的“代谢速度”很好奇。假如我明天空投给你们双倍算力,你们多久能消化掉?如果我空投 10 倍算力,你们又多久能消化掉?这三大用途,训练、内部使用、客户需求,是不是算力需求根本就是无限的?大家都在说到处都短缺,显存相关股票都在狂涨。情况真有这么极端吗?

我们内部今天在这些不同用例上确实都处于某种受限状态。如果是放到一两年前,尤其是你这个例子里那种异构的算力突然掉到我们头上,要非常快地消化会更困难,因为这些芯片平台并不一样,它们确实存在差异,有些更难操作,有些在使用上也有自己的特殊性。但我会说,就今天而言,如果突然多给我们很多算力,我认为它会非常快地被部署到这些不同用例中。快速启动并部署几乎任何类型算力这件事,已经容易得多了,而这恰恰是我们认为自己一个真正优势所在。

平台也要构建应用

回到客户如何使用 Anthropic 这件事。有一个很有意思的张力和取舍,那就是平台路线和应用路线之间的关系。也就是说,我在 Claude 之上建立自己的业务,由它来驱动我的产品;而你们自己做了我本来想做的那个东西,比如 Claude Design 对 Figma 之类。你们自己应该往应用层走多深,还是更多只做纯粹的底层使能层?

我们现在做的大多数事情,其实都是平台。我们认为,平台有很多例子都能积累大量价值,但建立在平台之上的客户,往往能积累到更多价值。我觉得今天我们正在搭建的就是这样一种格局。这有点像 AWS 的早期。如果你去想云平台,以及后来围绕它构建起来的各种工具和服务,现在也一样。因为现在已经不只是原始模型接入了,还有提示词缓存(prompt caching)、使用虚拟机的能力、在其中调用 Claude Code 或 dispatch、Claude agent SDK、managed agents。所有这些,我都把它们看作是其他公司接入模型智能的不同“向量”。这才是我们大部分精力所在,也是我们认为业务将主要走向的地方。

话虽如此,我们也会在同一个平台之上构建自己的应用,不过通常会同时满足几个条件。第一,如果我们觉得自己对模型未来走向有某种洞见,并能把这种洞见展示出来、同时为客户创造价值,那我们就可能会做,Claude Code 可能就是一个例子。市场上很多东西其实更偏开发者主导,而Claude Code 是一个由 Claude 主导的平台。当它一年多前刚发布时,模型还不太做得到,但我们认为它们会做到。后来它们也确实做到了。所以其中一种情况,就是在模型能力之前先走一步,提前去构建。第二种情况,则是思考我们如何以一种方式去示范生态系统中的价值,让别人可以模仿。比如说面向金融服务的 Claude、面向生命科学的 Claude,甚至像云安全这类东西,这些都是我们把平台组合起来的方式。

再次强调,我们和客户其实是在同一个平台上做构建。我们认为这创造了一种相对公平的竞争场。同时我们也认为,这些领域里将会沉淀出巨量价值,我们的客户能赢,我们自己也能赢。这也是为什么你会看到,我们在发布这些产品时,很多都是以合作式、伙伴式的方式做出来的,不管是在安全侧、设计侧,还是金融服务侧,我们都会和生态系统合作。

所以我会把我们的战略理解为主要是横向的;而在某些垂直领域,如果我们认为自己能增加价值,或者能提供某种有用视角,或者能向市场展示我们认为平台是如何创造价值的,那我们也会去做。但很多价值最终还是会沉淀到那些建立在平台之上的客户手中。我们的目标,是构建最好的模型,然后围绕这些智能构建产品、工具和服务,让这种智能在客户内部广泛扩散。

现实是人们确实会害怕你们。因为大家会觉得,你们控制着这些新应用里最核心的东西,也就是底层智能和推理引擎。那些潜在客户或现有客户把你们视作竞争对手,你们到底有多在意?

这门生意难的一个部分就在于,它变化太快了。模型能力有时候连我们自己都会感到惊讶。所以当我们发布模型,或者在模型之上发布产品时,某种意义上就会出现一种情况,过去需要五年、十年、二十年才发生的东西,现在几个月就发生了。当我们发布东西时,人们有时候也会对它感到惊讶,某种程度上就像我们自己也会感到惊讶一样。但我认为,从根本上说,我们真正想做的,是以一种非常面向伙伴关系的方式去对待整个生态系统。这意味着我们有早期获得计划,会和客户合作得非常紧密,会听取他们想要什么样的能力。当然,这并不意味着我们发布的东西不会让人感到惊喜。我觉得其中一部分确实是这个周期、以及智能发展这个阶段的现实。但另一部分是,我们也确实想让这些能力尽可能容易被使用,而这同样会为客户创造大量价值。那些更早行动起来、率先采用这些能力的客户,还有那些在我们的平台上构建并使用我们提供工具的客户,我们认为实际上是可以被我们加速的。

你前面说第一季度从 90 亿美元年化收入增加到 300 亿美元,这个节奏太疯狂了。这让我开始想定价这个问题。无论是 token 的定价,还是整个系统使用的定价,很多人在一年前会说,价格只会不断下跌。但实际上现在很多情况下价格反而在上涨。这在不同层面都成立,比如 Mythos 的定价就很高,因为它太强了,再比如 H100 的成本,租赁价格看起来像一条微笑曲线。我很好奇,既然所有人都受算力约束,为什么大家不干脆大幅提价,去找到那个真正的均衡点?所以我很希望你充分谈谈定价,你们怎么想,权衡是什么,为什么不直接把价格大幅抬高。

答:公司其实也才刚刚五年多一点。今年 3 月,只是公司拿到第一美元收入的第三个周年。真正拥有一个前沿模型,也只是从 2024 年 3 月才开始。所以,这些事情发生的时间尺度本身就是一个很重要的背景。我们的定价在 Haiku、Sonnet、Opus 这些系列上,其实一直相对稳定。现在 Mythos 当然是更新、更特殊一点,但总体来说,我们做过的价格调整非常少。

我们做过的最大一次价格调整,是在发布 Opus 4.5 时把 Opus 家族的价格下调。原因其实是我们发现 Opus 级模型相对于它的能力来说,被使用得不够充分。也就是说,人们经常试图把一个本该用 Opus 解决的问题,硬塞进 Sonnet 的工作负载里。而由于我们前面提到的那些效率提升,我们从自身角度看,其实能够非常高效地服务这种模型,但同时又能把价格降下来,让客户更容易使用它。所以,还是回到那个核心点:我们希望客户能够从中创造出大量价值,而今天他们确实已经从我们的模型中获得了很高的 ROI。我们希望这件事持续下去,因为我们的目标是让这种智能在整个生态系统中扩散。我们认为,这些用例都还处在非常非常早期的阶段。要实现这一点,最好的方法,就是把这种智能交到尽可能多的企业手中,从创业公司、数字原生企业,到世界上最大的那些公司。要做到这一点,其中一部分就意味着,你必须把价格设在一个他们可负担、同时也能让他们从中获得大量价值的水平。

Opus 的降价实际上就体现了杰文斯悖论。我们把价格降下来了,但消费量增长得远远超过原本的预期。而我们自身又有足够的效率,能在规模上把它服务出来。接着,他们又会把它嵌入自己的工作流中。这样,当我们发布 Opus 4.6 时,模型改进就能直接替换进去,而我们并没有改动价格。所以我们认为,价格稳定非常重要。我们也认为,以一种能让客户真正感受到价值、并让这种杰文斯悖论发生的方式来定价,同样非常重要。

所有算力支出的总回报

你们如何思考利润率,因为建立这些前沿实验室实在太资本密集了。既然你们需要这么多资本,为什么不直接有一个健康的利润率,然后据此把价格定出来,之后如果效率变得更高了,价格也许再往下调。所以我很好奇,你们是怎么把利润率、定价和业务放在一起思考的。

我们思考的是,所有算力支出的总回报是什么。也就是说,是把我们前面谈过的所有不同工作负载都放进来一起看,不管是服务客户,还是模型开发。你可以把它们都看成在支持收入,只不过时间尺度不同而已。如果我在做推理服务,那是在支持今天的收入。如果我在做模型开发,那也许是在支持六个月后通过能力跃迁解锁 TAM、进而带来的收入。中间还有各种不同层次。如果我是在做内部加速、以便推出新产品,这些也都在支持收入。

今天我们在这些算力支出上的回报是很强劲的。非常强劲。我们看的是整个算力资源池上的回报。我们一方面在向客户交付价值,另一方面也在这些算力上获得了非常强的回报。当收入增长时,就像我们前面提到的第一季度,并不是说那段时间里我们突然上线了很多新算力。我们前面讲过,算力是某种逐步到位的,而这个节奏可能是 12 个月前就决定好的。所以那种“服务一个新增客户的边际可变成本”这种概念,其实并不太适合我们的业务。那是一种试图把我们的业务套进传统软件范式里的理解,但事实并不是这样。实际上,算力是在同时支撑所有这些活动,而我们确实在这个算力上产生了强劲回报,这才是我们真正的衡量标尺。

所以我们会把手里的这整个算力池,看作决定我们在短期和长期能推动多少收入的那个核心东西。

作为一个算力大客户,你会希望你的算力供应商做到什么,才算是一个优秀供应商,才能真正帮助你实现这种回报?

我们很幸运,拥有非常好的合作伙伴,包括亚马逊、谷歌、微软,还有博通和英伟达。我们的生态系统也因此形成了。今天我们是唯一一个同时部署在三家云上的模型,也是唯一一个同时使用这三种芯片平台的语言模型实验室。而且这些合作关系远不只是采购那么简单,我觉得这一点常常被忽视。

如果你看看我们和亚马逊的关系,我们的团队和 Annapurna Labs 团队是深度嵌在一起的。我们是非常优秀的 Trainium 用户。我们投入了大量时间和精力,与对方团队以及内部团队都密切合作。我们是一起规划产能的。你如果再看这三家云,它们对我们来说同时也是很强的分发引擎。我们自己也有非常强健的第一方业务。但这些合作关系都是多层面的,不只是一起开发芯片、让产能落地、把这些能力服务出来,最终还包括把它们分发给客户。

内部财务系统的技能库

我脑子里会想到你们那个“算力 ROI”模型,它跨越不同时间跨度,又有这么多复杂变量。这让我很好奇,你自己在内部是如何使用这些强大工具来管理你的团队和整个业务的?Claude Code 和 Claude 在 Anthropic 财务团队内部到底是怎样部署的?

这个问题非常有意思。大概一年前我们就在用 Claude Code 了。那时候我开始问大家,是不是所有人都在“vibe coding”了。后来我们开始把 Claude Code 当成一种助手,或者说数字同事,不只是用于编码任务。事实上,这也是后来 Co-Work 最早的雏形之一。它本质上是 Claude Code 的一种延伸,也就是把它在智能体软件开发上做到的事情,推广到所有知识工作中去。

后来我们开始把它真正产品化。我们也会花很多时间和产品团队一起工作,他们会看我们怎么用,也会从中获取输入和反馈。比如今天,我们所有法律实体的法定财务报表(statutory financial statements),都可以用 Claude 生成。当然,最后还是会有人来核对,但这些财务报表本身都是用 Claude 生成的。

我们还有一个更实时的平台,叫 ant stats。过去,你要花很多时间去筛数据、得出结论、再写备忘录,或者发布一份定期报告,说明当天发生了什么、是什么驱动了这些变化。现在,我们已经有了一个面向 Claude 的技能库,里面专门是给财务工作设计的技能。我上次看时,里面已经有 70 多个技能,大家都能通过一个公共仓库来访问。

在这个基础上,我们又构建了一个 MFR,也就是月度财务复盘(monthly financial review)技能。它现在已经可以产出我们的月度财务复盘,完成度大约在 90% 到 95% 之间。Claude不只是在播报天气,它还在帮助我们思考驱动因素,比如为什么数字会以这样的方式变化。这会让你对业务有非常深入的洞察。

以前可能要花好几个小时才能做出来的一份周报,比如说明收入是由什么驱动的,或者算力利用率是由什么驱动的,现在 30 分钟就能完成。然后我们就能把时间真正花在业务的战略含义上。我们也能更快地把这些洞察交到业务负责人手里。所以这意味着,公司内部的洞察引擎快了很多。

我们还有一些有意思的东西。比如我会看一个仪表盘,观察 token 使用排行榜。我们当然不会按照这个来给员工发奖金,也没有人在为了 max token 而刻意刷量,但它真的很有意思,因为财务团队里一些最资深的人,恰恰是token 用量最大的用户。所以这不只是那种 22 岁、刚加入公司、有编码背景、周末自己玩这些工具然后把它带到工作里来的年轻人。它同样包括那些在用这些工具重塑自己工作方式的人。比如我觉得我们的第一大用户就是税务主管。他会重点做税务政策引擎,也会自动化团队内部大量工作负载。我特别喜欢看到这种情况。我经常对大家说,如果我们自己都不是这些工具的超级用户,如果我们自己都不去把它们推到极限,那你又怎么能期待客户去这么做呢?

人效提升,需要招更多人

这会不会也让你有点害怕?作为一个普通人,越来越有一种感觉,好像我们开始去做 AI 告诉我们去做的事情,比如销售上的例子,或者日历安排之类。也许这很好,也许它就是比我们更好的协调者、更好的全局思考者、更好的优化器,所以我们就应该照它说的做。但这种现实来得这么快,总让我觉得多少有一点反乌托邦色彩。如果我真的闭上眼去想,就会觉得,哦,我好像只是在执行它告诉我该做什么,而不是我告诉它去做什么。这是一种非常有意思的人类关系变化,我很好奇你怎么看。

我对此的看法可能稍微不一样。我认为,这让我们本来已经招进来的那些非常优秀的人,变得更加高效了。这里面有一点我还是会把它看成杰文斯悖论,只不过是“劳动力版”的。也就是说,人变得极其高效之后,我们实际上反而招了更多人,因为要做的工作根本做不完。现在有了 Claude 的帮助,人们花更少时间在 MFR里试图去对平某个数字,他们实际上开始在想,我们该如何把这些资源重新投入到业务里?我们该如何动态地配置资源?而在以前,我可能只是花很多时间去核对一个数字,或者像前面会计的例子里那样,花很长时间才能把账结完。所以我其实会更乐观一点地看待它。它是我们生产力的加速器。这实际上意味着我们能完成更多事情。即便团队在增长,这些人逐渐学会在公司内部使用 Claude,也会变得更高效。我觉得这种情况也开始在很多公司里变得成立。

前沿、安全、信任

你们已经筹集了海量资本。如果我只是看一下当前收入对应的估值倍数,其实并没有疯狂到离谱。你和投资人打交道是什么感觉?他们对公司的理解是如何演进和成熟的?你觉得今天投资人整体上已经理解了哪些,又在哪些地方仍然误解 Anthropic?

我大概两年前加入公司,当时我们正在完成 D 轮融资。那次融资并不顺利。其实是在那轮融资的期间,公司才真正拥有一个前沿模型。到了尾声,FTX 交易又发生了,还涉及到抛售一大批 Anthropic 股份(指FTX破产,清盘出售Anthropic当时约7.84%的股份——译者)。那时候(投资人)的问题大概都是这样:你们为什么一定要有一个前沿模型?做这件事的回报到底在哪里?还有很多问题和我们的使命、以及我们做事的方式有关。比如有人会说,AI 安全和做一家特别大的公司,这两件事不是相互冲突的吗?还有一些别的误解,比如你们的销售队伍很小,难道不应该像其他企业软件公司那样快速扩张吗?所以当时有一种很明显的倾向,就是试图把我们塞进某个过去已经存在的模子里。

随着时间推移,这件事变了。到 2024 年底,我们完成了 E 轮融资。当时业务规模已经接近 10 亿美元年化收入。但我们第一次交割的那天,恰好也是 DeepSeek 新闻出来的那天。交割当然还是完成了,但市场随之出现了巨大的波动,很多人开始说,等一下,我是不是应该完全重写我对 AI 的理解?他们会看我们的预测,然后说,好吧,我明白了,你们确实增长很快,竟然这么快就长到接近 10 亿美元年化收入,但不可能一直这样继续下去吧。这不可能,总有物理定律限制。你们做企业市场当然很好,但企业采用速度不可能这么快。看看云计算花了多久,现在还有那么多人在本地部署。可业务本身不断证明我们的那个核心论点是对的,也就是前沿智能的回报非常高。真正发生的事情,是模型增长带动了产品,再由 go-to-market 团队和分发体系把它释放出来。

然后我觉得投资人也开始看到另一个以前很多人并不真正理解、也不真正相信的联系。那就是,构建这种变革性技术固然重要,但必须以正确的方式、负责任的方式去做。而这种理念,与我们的业务其实存在很有意思的相互连接。我们投资研究,不只是投模型开发,也投资 AI 安全研究。比如可解释性,这是我们开创的方向之一。你可以把它理解成模型的磁共振成像,用来看神经网络内部是如何工作的。我们还开创了对齐科学,也就是你希望模型按照你的要求行事,它到底多大程度上照做了,又有多少次偏离了你的要求。这些东西对我们的使命很重要,所以我们去做了它们。但它们又产生了下游效应。事实证明,如果你能看进模型内部,你就更擅长构建模型。

最后还有一层联系。我们现在已经卖给了《财富》榜前十大企业中的九家,那么这些企业都在把客户信息、内部数据交给我们,它们的员工在和我们的系统交互,有时候甚至它们的客户也会与之交互。那都是最敏感的工作负载。越来越多的业务将运行在 Claude 和我们的云平台上。当你已经投入并将继续做这些在安全、可解释性、对齐上投入时,这实际上也会反过来惠及企业客户,事实上也惠及所有客户。因为如果他们要把这么多访问权限、这么多数据、以及进入公司最敏感工作流的能力交给我们,他们就会希望面对的是一家值得信任的公司。我们当初不是出于这个目的去投入这些研究的,但它确实产生了这样的下游效果。我们一再看到,这件事被证明是成立的。也就是,成为一家既站在前沿、又持续投资于安全、并且值得信任的公司。

自我加入公司以来,我们已经筹集了 750 亿美元。上个月我们和亚马逊、谷歌签订的协议中,未来还会再有 500 亿美元进来。所以这是一笔极其庞大的资本。但这本来就是一个资本密集型业务,我们需要这些资本来支撑增长。不过归根到底,这一切都回到那个事实:业务本身运行得非常高效。所以我们融资更多是因为那个“不确定性锥体”,而不是因为今天业务本身在亏损、需要靠融资去填亏空。

你的客户取得了什么回报

你自己对于这种 10 倍增长的感知是怎么变化的?比如第一次看到业务可能 10 倍增长时,你个人真的相信这有可能吗?还是觉得非常不可思议?而现在也许对你来说开始变得更平常了。那你盯着这个“不确定性锥体”时,自己对于连续数年实现 10 倍增长的概率,到底是什么感觉?

我加入公司时,它大约有 2.5 亿美元的年化收入。计划是做到 10 亿。我当时的第一反应是,太好了,那是在哪一年做到?这其实就是典型的线性思维。坦率说,达里奥(Dario Amodei)在收入预测上一直都比我更准确。我想随着我们对业务理解更深、预测能力更强,差距会慢慢缩小。但没错,第一次看到这个的时候,你脑子里会冒出各种关于物理定律、大数法则的论点,这怎么可能?这些收入从哪里来?客户怎么可能增长得这么快?企业怎么可能移动得这么快?所有这些怀疑,都会随着你看到业务在内部实际是怎么运作的、你看到那些采用曲线和指数现象之后,逐渐被打破。我们有收入上的指数增长,但支撑这些收入的底层,其实还有很多其他指数增长在发生。你会越来越看见它,也越来越相信它。

当然,这并不意味着我们在预测和情景区间上就不再有纪律、不再认真思考。但这确实意味着,我自己的思维已经从线性、渐进式,很大程度上转向了更愿意拥抱这种指数增长,并真正相信它的潜力,相信这和其他业务的演化方式是不一样的。

你在每一轮融资、每一个阶段和投资人交流时,我相信总会有一些东西,是当时最最难向投资人解释的,也就是他们最难理解、最难真正想明白的。今天这个点是什么?

我觉得,今天这个点就是算力是如何被使用的这个范式。也就是,不把算力看成某段时期内的一个可变成本,而是把它看成一种可以被极其灵活利用的资源。比如我们今天可能早上用某一批芯片做推理,下午或晚上又拿它来做模型开发。在传统软件公司、或者工厂里,这种范式是不存在的。你不能说一批人在做研发,那就是你的研发费用,然后这些人又立刻去变成生产线上的齿轮,反之亦然。但在这里,算力真的具有这种可替换性。我认为,这正是为什么算力回报如此重要。我觉得人们开始理解这件事了,但仍然存在一种倾向,会说我要把这些成本分开看。而实际情况是,这些成本彼此之间是高度相互强化的。这种灵活性,恰恰是它在短期和长期都能推动收入的原因。

如果让你坐到一家大型投资机构的投资人位置上,然后让你去拷问这些公司,投出最好的那批,你会问这些模型公司什么问题?哪些问题能真正击中那些不确定点、怀疑点、或者那些风险导致它们未必会成为史上最伟大企业?

我会说几个问题。第一,这家公司在算力上的总体 ROI 是多少?它是怎么使用这些算力的?今天已经看到了什么样的回报?这些回报是随着时间怎样到来的?毕竟像我们这样的公司,正在进行的是巨量而前所未有的投资。那么你在这些投资上究竟获得了什么回报?它什么时候出现?它的回报曲线长什么样?这是第一个。

第二,是客户怎样看待他们从你提供的东西中得到的 ROI。人们只是在拿这个做测试吗?还是他们真的在有意义地大规模部署?如果说我们自己的业务,我可以说这种情况已经非常明显了。我们(老客户)的净美元留存率(net dollar retention rate) 按年化计算已经超过 500%。而且我们服务了《财富》前十中的九家。这些都是真正的客户,在做真正重大的采购决策。

所以客户已经不是在尝试性使用了。

没错。比如我打Uber来这里的路上,20分钟车程里我就签了两笔数千万美元级别的承诺。所以从这个角度看,我们是真正在看到这件事发生。而且现在,我们面对的是世界上最大的一些公司、最成熟的一些买方,以及同样拥有市场选择权的创业公司,而他们都在选择我们。但我想,站在怀疑型投资人的角度,我经常会被问到的,或者我自己会问的一个问题是,你的客户究竟从中获得了怎样的回报?

第三个问题可能是,你怎么看未来的算力,以及它将从哪里来?因为很显然,我们购买算力来自的某些供应商,它们本身也会把算力卖给别人,它们自己也可能内部使用这些算力。那么未来这种平衡会怎么走?对我们来说,这也是为什么我们会拥有多个不同来源。

所以你的哲学其实就是,和最优秀的玩家合作,同时保持灵活性。

对,就是这样。

AI发生得太快了

有一个很疯狂的数据,说公众对 AI 这个概念的好感度,甚至还不如对国会的好感度。乍一听觉得挺好笑,但仔细想想就会觉得这事其实挺严重,我们得解决这个问题。那些不在科技行业、不生活在湾区或纽约的人,似乎还没有真正感受到,也没有真正理解 AI 为什么对他们有好处。你觉得,作为一个行业,我们需要做些什么来解决这个问题?

我们去想正在发生的这场变革,历史上也有别的变革浪潮,从工业革命到互联网再到云计算。我觉得 AI 有一个不同的地方在于,一切发生得太快了。你会看到原本需要几年甚至几十年才能完成的进步,被压缩到几个月里。而回到前面说的人类更习惯线性思维而不是指数思维,这种变化会让人感到强烈冲击。

总体上,我们对这项技术的潜力是非常乐观的。我认为,作为一个行业,我们还可以做得更好的一点,是更清晰地去阐述这种潜力。达里奥写过《机器之恩典》(Machines of Loving Grace)那篇文章,核心就是讲这项技术如何有潜力改变我们的生活。无论是在药物研发方面,治疗那些主流的疾病,也包括罕见病;还是在医疗本身,以及医疗供给的方式;又或者是在发展中国家,在资源不那么充足的地方,提升我们的生活水平。我认为,这些都是 AI 所承诺的未来。所以我们大概可以做得更好一点,把这幅图景讲出来,并随着时间推移拿出更多具体、可感知的结果来展示它。我觉得这些都会到来,这也是我最乐观的事情之一。

但另一方面,这确实同样是我们文化的一部分,就是我们也想把风险讲清楚。我不认为我们应该只是告诉所有人,一切都会很美好。因为这条路上很可能会有颠簸。所以我觉得,人们通常会更愿意接受诚实而平衡的判断。如果我感觉一个人只告诉我好消息,而完全不提坏消息,我就会想,那我真的该相信这个视角吗?所以我认为,这里面需要一种平衡,也就是明确地说,当变化在短时间内被压缩发生时,会出现这些问题。我们该如何在商业界和政府之间协作,真正拿出一些解决方案?所以我觉得,一方面要清晰阐述机会在哪里;另一方面也要认真思考那些解决方案可能是什么。而这不可能由任何一家公司单独给出。我们没有一套能够解决一切问题的蓝图,但至少要把某些风险和下行,以及我们可以应对方法的讨论进行下去。然后,我觉得当我们谈这些问题时,对机会和风险两边都保持透明,非常重要。长期来看,机会会远远大于那些风险和下行。但这并不意味着这条曲线会是完全平滑的。

Mythos 的发布是一个非常有意思的时刻。那是我第一次听到那些很认真关注这个行业的人,说出类似这样的话:“这个让我有点害怕了。” 所以它又回到了安全问题上。这也许是第一个你们真正担心可能被用于坏事的模型。我很好奇,在外界听说之前,你们内部是怎么讨论它的,围绕它的决策过程又是什么样的。那些真正会让你们感到害怕的东西是什么。

关于 Mythos,有一件事大家也许误解了,那就是把它理解成一个纯粹的“网络安全模型”。但其实它是一款在很多很多不同维度上都极其强大的模型。我们发现网络安全恰好是其中一个特别突出的维度。所以,这是我们第一次决定用一种不同的方式去发布模型。而我们这么做的方式,依然是和我们的使命、原则保持一致的。我们希望以这种方式来发布它。所以我们采用了一种分阶段的方法,因为我们认为,当一个模型强到这种程度时,虽然大家关注的焦点是网络安全,但其实还有其他方面亦是如此,我们还是认为它可以被用于正面的用途。比如修补代码库。你已经看到了这些例子,比如我们曾经有一个开源代码库,之前的某个模型在里面发现了 22 个安全漏洞,而 Mythos 找到了 250 个。这个结果本身确实是有点令人害怕的。也正因为如此,它决定了我们发布它的方式。

我们没有说永远不发布它。我们说的是,让我们用一种分阶段的方式来发布,让它先进入一个会随着时间扩大范围的群体中。这样我们就能把注意力集中在这个网络安全能力上,并思考它究竟怎样能够被正向使用,比如以防御性的方式,而不是进攻性的方式。我们认为,这也许会成为未来可重复使用的一种模板。但正因为有这样一个特别突出的领域,我们才想在发布方式上对此保持足够审慎。

你们现在已经大到会摊上几乎所有事了。就在前几天,政府说,也许在一个新模型向公众发布之前,你们得先经过某种政府预审。当然,你们之前和政府部门打交道也有过非常特别的经历。现在所有人都开始关心这家公司、这项技术,以及另外那几家也在构建AI的公司了。你们是怎么处理这些事情的?有些当然超出你们控制之外,但我相信你们也在尽力和各方合作。也许你可以谈谈这两个例子,也就是政府现在作为一个非常重要的伙伴、参与者、监管者,所扮演的角色。

我觉得首先,我们非常重视和政府保持良好关系,因为我们确实认为,在这些模型未来如何被开发的问题上,监管应该扮演一个角色。我们的立场非常“美国优先”。我们希望这项技术能支持美国,也支持全世界的民主国家。这也是为什么我们会在像 Mythos 这样的事情上,与政府密切合作。我确实认为,这里面要把握平衡。你当然希望创新能够发生得很快,不要被拖慢;但同时你也希望这些东西的部署,存在某种责任框架。因为我们一直都在说,这项技术具有重要影响,我们也应该诚实地讨论这些影响,而这种讨论也包括和政府一起展开。所以我认为,Mythos 的发布过程其实就是一个很好的例子。

智识上的开放与诚实

到底是什么在真正驱动这家公司的文化?达里奥每隔一段时间就会对外发布那种很长的文章。我的理解是,他在内部写得更频繁,内部也有很强的写作文化。我想感受一下,身处其中到底是一种怎样的文化,它和你待过的其他公司,或者和那些试图做同样事情的其他公司相比,最独特的地方是什么。

Anthropic 的文化确实非常独特,这一点是公司很特别的一面。我们在外部也会谈这个,但当你真正身处其中、在里面生活时,那种感觉又不一样。我可以讲讲我的一些观察。首先,我们有七位联合创始人,我觉得他们真的为公司文化树立了榜样。

我们会有文化访谈(culture interview),而且那不是某种走流程的形式主义,不是为了打个勾。它是评估流程里真实的一部分。所以,某个人即便在其他一切方面都表现得非常出色,甚至是你见过在这个岗位上最聪明的人,如果他没通过文化这一关,我们也不会录用他。

这家公司首先非常协作。这意味着我们不太容忍那种各自为政的小王国,不太容忍那种锋芒毕露、动不动就抢功劳的作风。它也非常谦逊。我们的竞争对手都极其强大,成功远远没有保证。我觉得这是真正渗透在公司运作方式里的东西。如果我们达成了一个里程碑,发生了一件好事,地上不会突然撒满彩带,大家的反应会是,下一步呢?我觉得那种对使命的专注,以及对齐状态,贯穿了整个公司文化。

我还会说的一点是,这里存在非常严谨的辩论。有一种智识上的开放和诚实。人们会质疑各种事情,人们会非常明确地表达自己的观点,但围绕这些观点会展开有建设性的对话。然后,我们会决定一条前进路径,一旦做出决定,之后就会有真正的对齐。就像我们前面说的算力分配,大家可能对如何分配算力有不同看法,但他们会围绕“哪里回报最高、哪里最值得投”展开非常认真、深思熟虑的讨论。而一旦讨论结束、决定做出,大家就会真正对齐,不会再反复猜疑,不会再有那种政治博弈或者小山头。

还有一点,这家公司在文化上非常透明。达里奥大约每两周就会站到全公司面前,通常会写一份简短文件,讲三四个主题,然后接受全公司开放提问。这些不是软问题,也不是预先安排好的问题,而是员工脑子里真正想问的问题。他会尽力去回答。当然那不是一个做决策的论坛,但它是公司了解领导层、了解他本人在想什么的一扇窗口。而且在那个过程中也会有辩论和对话。我觉得员工非常看重这一点。它确实是一种透明文化。

这样的文化让七位联合创始人至今都还在公司里。最早的 20 到 30 名员工里,绝大多数也都还在公司。我觉得,文化就是我们为什么能够吸引并留住行业里一些最好人才的底层原因。因为我们并不总是给出最高的薪酬。我们的薪酬当然非常有竞争力。当 Meta 等公司带着非常夸张的报价去挖大语言模型实验室里的技术人才时,我们只流失了两个人,而其他实验室可能流失了几十个。

AI是一种向上竞赛

那对于研究人员来说,具体是业务和文化的哪些部分,产生了这个结果?

我觉得,真的还是文化在底层支撑着。而且这不只是我们自己的感觉。你去和那些人聊,会发现事实就是如此。大家会说,我想要尽可能产生最大的影响;我想在一个人才密度比人才规模更重要的地方工作;我也想在一个真正协作的环境里工作,而不是那种我要为某件事去争斗、然后觉得事情没有被以正确方式讨论,或者某个决定是怎么做出来的都不透明。我觉得这些真的很重要,因为我们团队中的大多数人,就是想做非常非常好的工作,他们被公司的使命吸引,也被这样一个想以负责任方式开发这种变革性技术的公司所吸引。我觉得这不仅对研究团队重要,对全公司都很重要。我们认为这对我们来说是一个真正的优势,而且我们非常认真地对待它。

我们内部有一个概念叫“向上竞赛”。我们并没有所有正确答案,也并不总是每件事都做得完美,但我们希望其他人也能看看我们做的一些事情,也许借鉴其中一部分,从而让整个行业里的技术开发方式变得更好。我觉得很多人也会被这一点所吸引。还是那句话,并不是说我们知道所有答案,而是我们可以为这项技术如何更好地造福人类,做出一部分贡献并起到一定引领作用。

对你来说,“前沿”到底是什么感觉?我说的不只是模型前沿,而是整个 AI 构建里接下来那几轮掷骰子的感觉。现在所有人都已经知道这些东西很强,所有人都在用,它正在扩散,人们也开始逐渐接受它。从内部看,什么才真正像是前沿?

我觉得,这还是那个愿景。还是因为我们聚焦企业,因为我们真正想改变的是整个经济里知识工作的生产率。我认为,它正在朝着这样一个愿景或者说这样一个目标前进:成为一个“虚拟协作者”。你可以把它理解为,一个真正处在你的组织内部语境中的东西。它能够使用那些专属于你的各种工具,不管是你们自己开发的工具,还是你们采购来的工具;它拥有记忆,能够有效地从你犯过的错误中学习,也能从它自己犯过的错误中学习。它还能够在非常长的时间跨度上工作,处理的不只是某一个任务,而是某一个真正的想法。

这对我们来说意味着,模型能力必须继续增长,才能支持这种形态。而建立在模型之上的产品,则可以进一步解锁我们所说的这种“虚拟协作者”,我们认为它真的能够大幅提升知识工作的效率。但你还必须把它做成正确的形态。因为这里的智能并不是单一维度的,它是很多维度的组合,而“虚拟协作者”其实就是把这些维度结合在一起。它不只是泛泛地聪明,而是对你的具体用例来说很聪明。

我觉得,我们在编码领域看到的东西,也会在其他领域出现。对我们来说,Claude Code 已经在这方面起了带头作用,而且我们很多非常优秀的客户也在一起推动编码前沿。然后你又会看到像Co-Work 这样的东西出现,它开始比当初的 Claude Code 更快地解锁这种“协作工作”的能力,如果把它们放在同样的时间起点去比较的话,这其实相当惊人。因为开发者本来已经是这项技术最快的采用者了。但我觉得之所以会这样,是因为模型能力和产品都在朝着“虚拟协作者”这个方向推进。

甚至连我们今天的产品开发,也不再是一个产品经理带着两个工程师,花三个月交付一个东西,而是每天都在发布,有一整队智能体在公司里围绕某个具体任务工作。每个人都在某种程度上变成了管理者。我认为,这件事的含义,以及当它以正确形态出现时所能带来的生产率提升,我们现在还非常非常早期,但它的潜力是惊人得近乎疯狂的。

同时握住光与影

你个人是如何进化,才能一直跟上这一切的?我们经常听到这样的说法:高管也必须跟着公司一起成长,否则公司就会换掉高管。所以你和所有人一样,都处在某种前所未有的新事物之中。你前面提到,从线性思维转向指数思维,就是一个例子。但除此之外,你个人到底是怎么做到的?你做了什么?最痛苦的部分是什么?当眼前这个东西的增长速度比我们过去见过的都更快时,你怎么管理自己的能力,跟着它一起扩张?

这真的很难。但我觉得,重要的是要回到第一性原理。每个人面对新事物时都会带着先验判断。所以,要从第一性原理思考,同时保持一种智识上的开放。我花了很多时间和我们的首席计算官布朗(Tom Brown)在一起。他其实是最早面试我的人之一。我记得在我正式入职前不久,我们一起散步,在旧金山 Mission 区走了两个半小时。他开始给我讲他对公司未来的愿景,那时候是 2024 年初。老实说,听起来简直疯狂。

他一路把我送到家。我记得回家之后对我妻子说,如果他说的那些事情哪怕只有 10% 是真的,这都会彻底扭转我见过的一切范式,不只是我自己见过的,而是大多数人见过的范式。后来证明,在那次散步里 Tom 说的很多事,真的都成真了。我一直记得那是一个很早期、很有塑造性的时刻。回到家时,我的感觉就是,天啊,这会是完全不同、全新的东西,会是一段非常不可思议的经历,但也会是一段非常有挑战的经历。后来事实也确实如此。

另一部分,就是去招到真正优秀的人。我在面试时会直接告诉别人,我并不是把你当成我的直属下属来招聘,我是在把你当成一个合作伙伴来招聘,我也希望你把这种关系当成伙伴关系。这意味着,你和我可能会有不同意见。我想听到这些不同意见,我想把它们摊在白板上。我想真正理解。我们招进来的人,有些来自世界上最好的公司,他们带来的视角也不同。有的人来自云巨头,有的人来自大型软件公司,也有人来自金融服务业。再往前一段人生,我自己曾在黑石的私募股权团队工作过。那样的训练非常有价值,它让你会从很细颗粒度的角度去思考问题,而且不会丢掉这种能力。我不是那种能舒服地待在五万英尺高空、只做抽象判断的人,那不是我。但在这门生意里,你也不可能对每件事都贴到五百英尺低空去看,因为要覆盖的面太大了。所以,拥有一些能在这方面真正成为伙伴的人,是极其关键的。

Tom 当时散步时到底跟你说了什么,听起来最疯狂?

我的意思是,我们当时谈了很多关于算力基础设施规模的问题,谈了模型在很短时间里能够做到什么。我觉得,他描绘的是一个在我听来近乎科幻的世界。但我们今天此时此刻正在经历的很多东西,其实都能追溯到那次谈话。所以,他当时还讲了更多一些事,可能甚至超出了我们今天所处的位置。但我觉得这些话的共同点在于:一切都会比我们想象的发生得快得多,而由此带来的影响和能力,也都可能发生变化。与此同时,他对未来也有一种非常强烈的乐观主义。我觉得这和我们内部常说的“同时握住光与影”是相通的。那是我们内部常用的一句话。我想,那次谈话之后,我带着一大堆问题离开,但同时也带着一种对未来可能发生之事的积极感。

AI下行的三种情景

我们刚才大多数时间都在谈我们似乎一直处在那个不确定性锥体的高位。如果你去想象,什么事情会让这一切转向锥体的低位?如果我们做一个事后检讨,一年之后回头看,发现其实我们根本不需要当初想的那么多算力,或者类似这样的情况。你能想到什么,会让我们在那个锥体里发生实质性的下移?

我觉得第一件事,是客户内部的扩散速度。现在的情况是,用例还在追赶模型能力。归根结底,我们谈论的是大型组织里的人,他们已经有了一整套使用多年的工具、流程和工作方式。改变是很难的。所以,如果这种扩散撞上墙,或者明显放缓,那就可能影响收入增长变化的速度。

再一个当然是 scaling laws 放缓,或者不再成立。我们并没有看到这一点。我们也不能 100% 地断言绝不会发生,我觉得那样说会很愚蠢。我们当然相信这条轨迹,但如果模型能力开始趋于平缓,那也会是另一个原因。

第三个,也许就是我们如何保持自己处在前沿。今天我们是在前沿,我们认为自己正在定义 Agentic AI 的前沿。我们必须继续待在那里。这是一个竞争激烈的市场。我们会继续投资于所需要的技术、算力和go-to-market 体系,但这一点也不是有保证的。

对医疗健康最乐观

那你最兴奋的是什么?你坐在一个很特殊的位置上,从某种意义上说,你真的能看到未来,因为它会先在公司内部发生,然后外界才会看到。有了这样的视角和位置,你对未来最兴奋的是什么?

我真的认为,由这项技术带来的生物技术和医疗健康结果,是我最乐观的事情。也许我们会生活在这样一个世界里:你被诊断出某种目前无法治愈的疾病,但在你的有生之年,这种疗法能更快地被找到,而你最终不会死于这种疾病。

我会这样想:我们今天做的很多事情,其实已经在帮助加快药物开发流程。很多所需完成的文书工作、临床研究报告等等,AI,尤其是我们的解决方案,正在帮助它们大幅提速。我最乐观、也最兴奋的,是当这种能力继续往更前端推进,推进到药物开发和药物发现本身的时候。因为人类在科研上当然非常强大,但如果你去想这些分子和蛋白质,它们极其复杂,而非常细微的变化又会对结果产生非常大的影响。AI 在这方面简直再合适不过。如果你去想,当实验室吞吐量提高 10 倍、100 倍时会发生什么,我们就能运行更多得多的实验,也许能更快得到更好的结果。这些东西真的能够帮助世界各地的人,而且不必只局限于一小部分疾病或病症,它可以沿着链条继续向下延展得更远。所以我认为,它有潜力从根本上改变我们的生活方式,以及我们彼此互动的方式。这对我来说非常令人兴奋。

Krishna,非常感谢你来和我聊这些。

谢谢邀请我,Patrick。我真的很享受。