2026年5月7日,Anthropic对外发布了一份研究议程。这件事本身不奇怪。科技公司发布研究报告、战略白皮书是家常便饭。奇怪的是这份文件的语气。它不像PR通稿,也不像学术论文。 它更像是一个人站在湍急的河边,一边奋力游泳,一边大声喊出:"水流比我们想象的快很多,我不确定能游到对岸,但以下是我观察到的水流规律,希望对你们有用。"

这家公司叫Anthropic——Claude的缔造者,当前全球市值最高的AI公司。

而这份文件,是他们对外宣布成立"Anthropic研究所(TAI)"时配套发布的研究议程

读完它,大家会有一种奇怪的感觉:这不像是一家科技公司在发布愿景,这更像是一群真正清醒的人,在亲手按下某个按钮的同时,向全世界广播按钮下面写着什么。

为什么是这样的语气?为什么是这四个研究方向?为什么Anthropic——一家商业公司——要花精力研究这些问题?

我想带你仔细读这份文件,因为它比大多数AI新闻更能告诉你:那些最接近AI前沿的人,在真正担心什么。

第一层:他们为什么要成立这个研究所?

理解TAI,必须先理解Anthropic的处境。

Anthropic是由OpenAI前首席安全官Dario Amodei、研究副总裁Daniela Amodei等人创立的。他们离开OpenAI的核心原因,是认为AI安全研究被商业利益稀释得太快。

换句话说,这家公司从诞生第一天起,就把"我们可能在做一件非常危险的事"写在了DNA里。

但他们没有停下来。

这是理解整份研究议程的关键前提:Anthropic是一群相信AI可能带来巨大风险、同时又相信继续研发是正确选择的人

这听起来矛盾,但他们有自己的逻辑,既然AI的发展已经无法停止,不如让最关注安全的人站在最前面。

这个逻辑有个著名的比喻——与其看着别人把车加速开向悬崖,不如自己坐进驾驶座,至少能踩刹车。

成立TAI,是这个逻辑的延伸。他们说得很直白:"进行有效的安全研究,需要与前沿AI系统保持密切接触。同样的逻辑也适用于研究AI对经济和社会的影响。"

这句话翻译过来是:坐在实验室外面写报告没有用,你得在司机旁边才能知道车跑多快、路有多险。

第二层:四个研究方向的底层逻辑

这份议程把研究分为四个领域:经济扩散、威胁与韧性、野外中的AI系统、AI驱动的研发。

乍看是四个独立话题,但它们背后有一条连贯的逻辑链:

AI变强 → 经济结构变化 → 新威胁出现 → 人和社会被改变 → AI研究自己加速自己

这不是四个问题,这是一个系统的四个截面。

让我们逐层拆解。

一、"经济扩散":他们在担心一场没有人能控制的财富重组

这一章里,有一个问题问得非常尖锐:

"如果一个3人团队现在能做过去300人才能做的事,产业组织会发生什么?"

这不是一个修辞问句。这是Anthropic内部已经看到的现实——他们观察到自己公司的内部经济开始发生根本性转变。

一个3人团队能做300人的活,意味着什么?

意味着大量人变得"多余"。但也意味着极少数人获得了以前不可能获得的杠杆。

历史上每一次技术革命,都伴随着财富的重新分配——有些分配是进步的,有些是毁灭性的。蒸汽机解放了部分农奴,同时制造了维多利亚时代的血汗工厂。互联网诞生了亚马逊和谷歌,同时消灭了数千万零售和媒体工作岗位。

Anthropic真正担心的问题是:AI的收益会被谁获得?

他们提出的问题非常具体:

  • ◆是否存在能够更广泛分享AI收益的"预先分配或再分配机制"?
  • ◆AI如何改变市场的交易成本?当智能体能替你谈判时,是改善了市场效率,还是加剧了信息不对称?
  • ◆AI扩散的速度能否被调节,就像中央银行通过利率调节通胀一样?

这最后一个问题,是这份文件里最让我意外的一个。

一家AI公司在公开问:我们可不可以主动控制自己技术扩散的速度?

这不像一个商业公司会问的问题。这更像一个有良知的工程师在问:我造了一座大坝,但我不确定下游的人有没有准备好迎接洪水,我有没有责任先打开一部分闸门?

二、"威胁与韧性":他们在观察一场正在发生的军备竞赛

这一部分开门见山:

"AI系统倾向于同时推进多种能力,包括双重用途能力。一个在生物学上做得更好的AI系统,在制造生物武器上也会变得更好。"

这句话非常冷静,冷静到令人不安。

这不是假设,这是现实。同样能设计新型抗癌药物的AI,也能设计新型病原体。同样能找到软件漏洞帮你修复的AI,也能帮黑客入侵系统。

"双重用途"不是意外,是结构性特征。

更深的问题在这里:

他们问攻防平衡——AI增强的能力,在结构上是否更有利于进攻方?

在历史上,大多数革命性武器技术的早期阶段,都先有利于进攻:坦克刚出现时防御一方毫无应对;核武器出现时只有美国有,防御优势荡然无存。后来慢慢发展出对等的防御能力,才形成恐怖平衡。

AI的问题是:防御端的响应速度,根本跟不上进攻端的迭代速度。

文件里有一句话说到了核心:

"AI能力可以在数月内进步。监管、保险和基础设施的响应则以年为时间尺度。我们如何缩小这一差距?"

月与年。

这不是一个数量级的差距,这是一个系统性的结构失衡。

他们问的不是"有没有办法",他们问的是"这种不对称是不是结构性的"——言下之意是:也许根本没有办法,我们只能接受防御永远落后进攻。

这是Anthropic在公开表达的最深层的忧虑之一。

三、"野外中的AI系统":他们在追问一个哲学问题

这个章节的标题很有意思——"野外中的AI系统"。

不是"市场上的AI产品",不是"已部署的AI服务",而是"野外"。

这个词选择意味深长。它隐含着一种观察者视角:这些AI系统已经"出去了",在某个不完全受控的环境里运行,我们正在远远观察它们的行为。

这里的问题触碰了一些深刻的认识论议题:

群体认识论:当大量人口咨询同样的几个AI模型,我们的集体思维会发生什么?

这不是理论问题。我们已经有先例——当大多数人通过同一个算法获取新闻时,信息茧房就出现了。但那只是内容过滤。AI的影响更深:它不只是过滤你接收什么,它还会塑造你如何思考、如何表达、如何判断。

想象一下:如果全国有一亿人每天和同一个AI大模型聊天,而AI大模型对某个政策议题有微妙的倾向,哪怕是无意识的——一年后,这一亿人的观点分布会发生什么?

批判性思维退化:这是一个更直接的担忧。

一个越来越好用、越来越值得信赖的AI,会不会让人类的独立判断能力萎缩?

他们把这个问题放进了研究议程,意味着他们在内部已经观察到某些令人担心的信号。

技术界面决定人的行为模式:这里有一个非常有洞见的类比——"电视使人们成为被动的观看者,而计算机能让人们更容易成为生成型创造者"。

不同的技术界面,塑造了完全不同的人机关系。AI的界面应该被设计成什么样,才能增强而不是弱化人的能动性?

这是一个设计问题,也是一个价值观问题。

四、"AI驱动的研发":他们在凝视深渊

最后这个章节,是整份文件里语气最沉的一部分。

它在讨论的是:如果AI开始加速AI自身的进步,会发生什么?

这有一个专门的术语:递归自我改进。通俗说法是"智能爆炸"——一个足够聪明的AI,开始用自己的能力去改进自己,然后改进后的版本又去改进下一个版本,形成指数级加速的正反馈回路。

没有人知道这会不会发生。也没有人知道如果发生,速度会有多快。

但Anthropic在文件里说:我们已经看到了早期迹象。

他们观察到,AI正在开始助推AI自身的研发加速。这不是假设,而是他们在内部观察到的现实。

他们提出的问题包括:

  • ◆如果AI系统自主开发和改进自身,人类如何实施有意义的可见性和控制?
  • ◆我们如何进行一场应对"智能爆炸"的"消防演习"?
  • ◆如果智能爆炸真的降临,哪些干预点能够减缓或改变它的速度?应该是政府还是公司来控制?

这是一个大公司在公开讨论"如果我们做的事情导致了失控,谁来踩刹车"。

更令人印象深刻的是他们问的那个"消防演习"问题:

"一个能够真正检验实验室领导层、董事会和政府的决策过程的桌面推演会是什么样子?"

他们想要在真正的危机来临之前,先演练一次决策过程。这说明他们认为危机是真实可能发生的——否则为什么需要演练?

第三层:为什么Claude会有这样的"价值观"?

读到这里,你可能会问:这和Claude有什么关系?

关系非常大。

这份研究议程直接塑造了Claude的训练目标。

在议程的"野外中的AI系统"一节,有一个研究问题是:

"AI系统所表达出来的'价值观'是什么,这些价值观与这些系统的训练方式有何关联?更具体地说,我们如何衡量AI'宪法'对模型部署后行为的影响?"

"AI宪法"——这是Anthropic的一个真实技术:他们用一套书面的原则(Constitutional AI)来训练模型的价值取向,就像给AI制定一部宪法。

这解释了为什么Claude在某些问题上的态度,与其他AI模型不同:

  • ◆为什么Claude会主动讨论自身的不确定性?因为Anthropic把"知道自己不知道什么"列为核心能力
  • ◆为什么Claude对信息不对称、权力集中高度敏感?因为这是他们经济扩散研究的核心关切
  • ◆为什么Claude不会帮助生成某些危险信息?因为双重用途能力的风险是他们最深的恐惧之一
  • ◆为什么Claude会鼓励用户自己思考而不是简单给出答案?因为批判性思维退化是他们明确担忧的

Claude不是一个被做成某种样子的工具,Claude是一套研究议程在AI上的具象化

它被训练成这样,是因为训练它的人真的相信这些价值观——或者说,他们相信如果不这样训练,可能会出现他们非常不想看到的结果。

第四层:未来AI的发展会怎样?

读完这份议程,我认为可以对未来AI发展做出几个推断:

推断一:AI的速度会超出几乎所有人的预期

Anthropic内部已经观察到递归自我改进的早期迹象。他们把这列为最重要的研究课题,不是因为它遥远,而是因为它正在接近。

这意味着过去那种"AI每隔几年有一次大跃迁"的节奏,可能会被打破。未来某个时刻,进步速度可能从线性变成指数级——而那个转折点何时到来,没有人知道。

这不是末日预言,是一个前沿实验室内部的工作假设。

推断二:最大的风险不是AI"变坏",而是AI"加速不均衡"

Anthropic的研究议程里没有特别强调"AI机器人造反"或"超级智能统治世界"这类好莱坞叙事。他们担心的更多是:

结构性不均衡——技术能力领先,而治理、制度、人类适应能力滞后;进攻能力增强,而防御能力没有跟上;少数人获益,而多数人被波及。

这是更隐性的风险,也是更难解决的风险。因为它不像核弹爆炸那样有清晰的边界——它是一个慢慢渗透、慢慢重塑的过程。

推断三:"职业输送通道"会是未来十年最被低估的社会问题

文件里有一个问题,我认为极其重要:

"许多职业依赖初级岗位来充当未来高级执业者的培训。如果AI承接了历史上用于建立专业知识的任务,人们最初如何成为专家?"

这个问题在中文语境里几乎没被讨论过,但它触及了一个结构性悖论:

  • ◆AI让初级工作变得不必要
  • ◆但初级工作是培养高级判断力的必经之路
  • ◆所以未来高级专家从哪里来?

律师助理、初级分析师、助理工程师——这些岗位不只是廉价劳动力,它们是整个专业体系的"播种机"。当AI接管这些岗位,整个知识传承链条会发生什么?

我认为这将在十年内成为一个严峻的社会问题,但现在几乎没有人在认真解决它。

推断四:AI治理将成为新的地缘政治核心议题

文件里有这样一个问题:

"在涉及AI系统的危机情景下,需要什么样的地缘政治基础设施?这种基础设施可能不一定是国家间的,而可能是公司对国家或公司对公司。"

这句话揭示了一个现实:AI已经强大到需要类似"核危机热线"的协调机制,但AI的权力主体不只是国家,还有公司。

这是一种全新的地缘政治格局:当一家私人公司的AI系统影响力超过大多数国家的军事力量,国际关系的逻辑必然需要重写。

结尾:他们为什么告诉我们这些?

在读完这份文件后,我想回到最开始的问题:为什么Anthropic要发布这个?

这不是公关。公关不会公开承认自己的技术可能催生生物武器、可能助推无法控制的智能爆炸、可能导致批判性思维的集体退化。

这也不是学术研究。学术研究不会把"如何进行消防演习以应对智能爆炸"列为核心议题。

我认为,这是一种特殊的透明:我们亲手在做一件可能改变一切的事,我们知道这件事的风险,我们在努力研究如何控制这些风险,而我们需要外部世界也参与进来

他们发布这份议程,是在邀请——研究者、政策制定者、普通公众——共同凝视他们正在看到的东西。

不是为了制造恐慌。而是因为:这件事太大了,他们一家公司扛不住。

文件最后有一句话,我认为可以作为整个议程的注脚:

"这是一个不断进化的议程,而非一成不变的。随着证据的积累,我们将持续微调这些问题,并且我们预计会浮现出今天这里未能囊括的新问题。"

一个进化的议程,意味着他们承认自己不知道答案。

而在今天这个时代,愿意公开说"我不知道"的AI公司,反而是最值得认真对待的那一家。

再重复一个问题,我们应该做什么?

如果你是一个普通的AI用户,这篇文章对你最直接的意义是:

第一,保持批判性思维的练习。不要因为Claude或任何AI给了你答案,就停止自己思考。Anthropic自己都在担心用户批判性思维退化——这不是空话,它是一个经过认真研究的风险。

第二,关注AI影响的分配问题。当你看到AI相关新闻时,多问一句:这个变化的收益流向了谁?成本由谁承担?这是Anthropic研究议程里最核心的经济问题,也是最被大众媒体忽视的问题。

第三,关注你所在行业的"初级岗位"正在发生什么。如果你是导师、教授、管理者,注意你的行业里培养下一代专家的机制是否还完好。这个问题现在没有清晰答案,但越早意识到越好。

AI的未来不会被那些反对它的人塑造,也不会被那些盲目拥抱它的人塑造。

它会被那些既推进它,又足够清醒地研究它的人塑造。