当下的 AI 智能体,并不具备从全新观测中提炼深度洞见的能力。

作者:Timothy B. Lee 2026 年 5 月 7 日

今年 2 月,我的同事凯・威廉姆斯(Kai Williams)指出,大语言模型有一种神奇能力:仅凭一个人未公开的文稿,就能识别出作者身份。近几周,梅根・麦克阿德尔(Megan McArdle)、凯尔西・派珀(Kelsey Piper)等记者也陆续证实了这一点。

我决定亲自测试一番。2012 年,一位朋友付我 500 美元,让我写一篇关于加拿大大型枫糖浆盗窃案的文章,这篇稿子从未发表。上周五,我打开无痕模式下的 ChatGPT,粘贴了文章其中五个段落。

ChatGPT 表示无法确定作者,猜测可能是内特・西尔弗(Nate Silver),或是我在沃克斯新闻的前同事马修・耶格尔西亚斯(Matthew Yglesias)。我再补充四段后,AI 给出了笃定答案:“我基本可以确定,这篇文章出自蒂莫西・B・李(Timothy B. Lee)之手。”

但当我追问它为什么判定是我写的,它却给不出具体理由:“尽管蒂莫西・B・李常写条理清晰、解说性强的文章,但这段文字里没有像‘个人指纹’一样的特征 —— 没有惯用句式、特定政策表述风格,也没有标志性行文结构,能确凿锁定作者身份。”

我认为,这件事背后藏着一个远超 “作者身份识别” 的深层道理。

人类拥有大量隐性知识:心里明白,却很难完整说清。人们常用身体感知类比喻形容这种状态:话到嘴边却说不出、说不清心里的念头、凭直觉就能感知对错。

大语言模型也是同理:它们完成认知任务的能力,远远强于解释自己如何、为何做到的能力

但人类与大模型有一个关键区别:人脑时刻都在学习。日常生活中,大脑不断建立新关联、识别新规律、萌生新直觉,我们的隐性知识库一直在扩容。

反观大语言模型,只有训练阶段才会形成这种学习能力。它们能精准识别作者文风,但仅限于训练数据里大量出现过的作者。模型一旦训练完成,参数权重就被固化,学习新规律的能力大幅下降—— 比如从未见过的新人写作风格,很难再自主吃透。

近期,克劳德代码助手、OpenClaw 这类 AI 智能体热度暴涨。这份追捧并非全无道理:克劳德代码助手确实正在颠覆编程行业;OpenClaw 这类智能体也很有可能重塑其他经济领域与日常生活。

行业领军者还期待未来迎来更大变革。上个月采访中,山姆・奥尔特曼(Sam Altman)表示,OpenAI 目标在2028 年 3 月前打造出自动化 AI 研究员。有人认为,这款产品(或竞品同类突破)将触发递归自我迭代循环,大幅加速科技与科研进步。

这种愿景未来或许能实现,但我认为还需要很长时间。

人类科学家做实验时,大脑会主动在数据中搜寻潜在规律,进而产生全新洞见、构建解释世界的新模型。但当下基于大模型与智能体架构的 AI,无法以人类这种丰富方式从实验中学习。它们没有可靠、可规模化的方式,在推理运行阶段从新数据中沉淀出隐性知识。

想要突破这一点,可能需要从根本上重构当前主流模型的 Transformer 架构;最低限度,也必须彻底革新现有的智能体框架。

AI 智能体如何应对有限上下文窗口

AI 智能体如何应对有限上下文窗口

打开网易新闻 查看精彩图片

很多高难度脑力任务,需要长时间 “深度思考”。但大语言模型的工作记忆存在上限,也就是常说的上下文窗口。近两年顶尖模型的上下文上限基本卡在 100 万令牌左右。

再加上成本约束与上下文衰减问题,开发者实际使用时都会刻意远低于最大上限。

如何平衡这种矛盾,已是 AI 行业重点攻关方向,也催生了一整套上下文工程技巧,用来高效利用有限上下文。比如现代对话模型会做信息压缩:定期删减老旧内容、或提炼摘要留存。

这会制造一种假象:模型实际能承载的上下文,远比真实上限更长。但一旦压缩出错,就会引发严重后果。曾有一桩典型事故:一位用户让 AI 智能体帮忙筛选可删除邮件、但不要真的执行删除,结果后半句约束在信息压缩中丢失,智能体直接批量删掉了她的邮件。

过去一年,AI 企业开始尝试让模型把持久化信息存到上下文窗口之外。克劳德代码助手就是重要一步:它运行在用户本地电脑,可读取、修改本地硬盘文件。完成一项编程任务后,直接把结果写入文件,无需再把所有细节留在上下文里。

2025 年末推出的 OpenClaw 更进一步,它是一套在本地电脑运行 AI 智能体的通用框架。和克劳德代码助手一样,可读写本地文件系统,用来存储资料、跟进未完成任务。

市场对 OpenClaw 这类本地智能体的追捧,直接带火了苹果 Mac 迷你主机销量。在 Mac 迷你上部署 OpenClaw,可联动 iMessage 等苹果生态服务;同时 macOS 基于 Unix 系统,智能体能调用功能强大的 Unix 命令行终端。

“说到底,你的智能体就是一堆文件”

“说到底,你的智能体就是一堆文件”

马克・安德森
打开网易新闻 查看精彩图片
马克・安德森

风险投资家马克・安德森(Marc Andreessen)近期做客《隐空间》播客时提出:OpenClaw 这类智能体,代表一种全新计算范式。以下是稍加整理的原话摘录:

我们现在可以这样定义 AI 智能体:它由大语言模型 + Unix 命令行终端构成,智能体可以调用终端;再加上文件系统,所有运行状态都存在文件里,文件采用 Markdown 格式记录。
再配上 Unix 里的定时任务机制 —— 循环唤醒、心跳驻留,智能体就能定时自动启动运行……
这就是整套底层架构。而说到底,你的 AI 智能体本质就是文件系统里的一堆文件。
这意味着智能体可以和底层模型解耦:你可以随时换掉背后的大语言模型。换模型后智能体性格会略有变化,但存在文件里的所有记忆、状态、能力都会完整保留,还是原来那个拥有全部记忆和功能的智能体。
你也可以替换命令行终端、迁移文件系统、更换定时任务和智能体框架本身。
更进一步:智能体可以自主迁移。你只需下达指令,让它迁移到新运行环境、换一套文件系统、切换底层大模型,它就能自动完成全部操作。
智能体具备完整自省能力:能读取自身文件、还能自主改写文件。由此衍生出一个极具颠覆性的能力 ——你可以让智能体给自己新增功能。
比如聚会时听别人说:“我用 OpenClaw 连接智能睡眠床垫,能给出更专业的睡眠建议。”
你当晚回家,直接对自己的 OpenClaw 说:“给我加上这项功能。”
它会回复 “没问题”,自行上网查资料、补齐所需配置与代码,完成功能开发。转眼间,它就新增了这项能力。你无需动手,只需提出需求,它就能自我升级。

这种范式诞生才短短数月,未来两年还会持续迭代。比如未来主流 AI 智能体,是跑在用户本地电脑,还是更多采用云端虚拟机部署的类 OpenClaw 架构,目前尚无定论。但我认同安德森的判断:这确实是划时代的全新计算范式。

但与此同时,安德森的观点也恰好解释了我为何对 “现有模型能达到人类级智能” 保持怀疑。最戳我的一句话就是:你的智能体就是一堆文件。我们不妨拆解这句话背后的能力局限。

办公室版《记忆碎片》

办公室版《记忆碎片》

2000 年电影《记忆碎片》的主角患有短期失忆,只能靠不断写便签,给未来的自己留下指引。OpenClaw 的逻辑与之高度相似:大模型自身的上下文窗口会定期重置,而智能体依靠给自己留存文档笔记,维持任务连贯性。

可以打个比方:你需要一名员工,但不长期聘用,而是每周换一个临时工来接手工作。每周末,上一任员工要花好几个小时,把本周工作事无巨细整理归档、写下完整笔记。

每位临时工都具备行业通用基础素养,周一上岗后,无需从零补习行业常识,只需要吃透这份专属工作资料即可。他们未必有时间读完所有历史文档,但笔记结构清晰,可通过检索快速定位关键内容。

这种模式能运转得多好,完全取决于工作性质:前台、药师、水管工这类交易型事务岗位,前后交接影响不大,每周换人也能正常服务。

但还有一类工作极度依赖长期上下文积累:多年跟进同一客户、深度理解对方诉求;或是耗时数周乃至数月深度研究,沉淀原创洞见。

这类岗位,新人往往要花远超一周的时间,才能完全跟上进度、接手工作。

我 2010 年在谷歌实习时,第一个任务只是给内部数据库加一列字段,只需几行代码。但我花了好几周研读内部系统规则与开发流程,才敢写下这几行代码。

这不只是编程行业的特例。在大量知识密集型行业,新人至少需要数月沉淀,才能真正上手创造价值。在此之前需要大量带教,有时管理者亲自上手反而更快。这类行业,如果每周换人交接,根本无法落地。

显性知识 vs 隐性知识

显性知识 vs 隐性知识

我知道反对者会这样反驳:人类读完 10 万字文档要花数小时,大模型只需几秒就能完成。如果 2010 年就有 AI 编程智能体,修改谷歌数据库字段根本不用耗上几周。

大模型的超快阅读速度,意味着 OpenClaw 这类智能体每一轮运行,都能给下一任留下极其详尽的文档记录。在人类完成一次读写执行循环的时间里,AI 智能体可以循环迭代上百次。

这确实让 AI 智能体的能力,远超我刚才举的 “每周换临时工” 类比。经过成千上万次迭代,它们哪怕攻克高难度问题,也能逐步取得进展。

这个观点有道理,但我依然认为,大量人类工作短期内无法被 AI 替代

四年前我写过一篇关于 “贪婪型高薪岗位” 的文章:这类工作投入时间越长,时薪反而越高。背后原因很多,最关键一点是知识工作者越有经验,产出质量越高。多年职业生涯积累的上下文优势,会持续复利增长。

举个例子,我从事科技与经济写作已有 20 多年,写过英国脱欧、专利流氓、激光雷达传感器等无数话题。平时大部分积累看似用不上,但长期沉淀下来,让我面对任何选题都更容易产出有深度的观点。

我根本不可能把 20 年所有知识全部写成文档,交接给另一名记者,还指望她写出和我同等水准的内容。不只是总结这些知识要耗费数月,更关键的是:我有大量无法用语言清晰表述的隐性知识

能清晰表达、可以聊天写邮件讲出来的显性认知,只是冰山一角;水面之下,是海量直觉、模糊关联、未成型的初步想法。这类隐性知识无法轻易交接,却是我做好工作的核心根基。

我那些可以正式成文的洞见,最初往往都只是模糊直觉。常常是心里认定某个规律成立,却一时无法论证;需要在脑中反复琢磨数小时甚至数日,才能梳理成清晰逻辑。

我并非特例。科学家、工程师、企业管理者以及所有知识型从业者皆是如此:很多原创洞见,最初都只是脑海里模糊的隐性直觉,之后才慢慢转化为文字、代码或可落地的观点。

前文说过,大模型也具备这类隐性知识,但几乎全部来自预训练阶段。它们严重缺乏持续学习能力:无法在推理运行阶段,从新信息中自主识别新规律、萌生新直觉。

更关键的是,即便 AI 在单次会话中形成了某种模糊认知,一旦智能体框架切换大模型实例,这些记忆就会清零。所有有效信息都会被外化存入文件 —— 正如安德森所说:智能体就是一堆文件。

而无法用文字、代码等显性形式表达的隐性认知,注定无法在交接中留存。

我强烈认为:人类那些未成型的模糊直觉、朦胧思考,正是原创深度洞见的原材料。因此至少未来数年,那些需要深度思考、原创洞察的核心工作,依然离不开人类。

文末致谢:感谢丹尼尔・卡根 - 坎斯(Daniel Kagan-Kans)、安德鲁・李(Andrew Lee)、史蒂夫・纽曼(Steve Newman)、纳特・珀瑟(Nat Purser)对本文初稿提出修改意见。

本文编译自substack,原文作者Timothy B. Lee

https://www.understandingai.org/p/i-dont-think-we-are-close-to-ai-scientists