我们距离“AI科学家”还很远|ai科学家|上下文|智能体|编程|自然语言|调用

当下的 AI 智能体，并不具备从全新观测中提炼深度洞见的能力。

作者：Timothy B. Lee 2026 年 5 月 7 日

今年 2 月，我的同事凯・威廉姆斯（Kai Williams）指出，大语言模型有一种神奇能力：仅凭一个人未公开的文稿，就能识别出作者身份。近几周，梅根・麦克阿德尔（Megan McArdle）、凯尔西・派珀（Kelsey Piper）等记者也陆续证实了这一点。

我决定亲自测试一番。2012 年，一位朋友付我 500 美元，让我写一篇关于加拿大大型枫糖浆盗窃案的文章，这篇稿子从未发表。上周五，我打开无痕模式下的 ChatGPT，粘贴了文章其中五个段落。

ChatGPT 表示无法确定作者，猜测可能是内特・西尔弗（Nate Silver），或是我在沃克斯新闻的前同事马修・耶格尔西亚斯（Matthew Yglesias）。我再补充四段后，AI 给出了笃定答案：“我基本可以确定，这篇文章出自蒂莫西・B・李（Timothy B. Lee）之手。”

但当我追问它为什么判定是我写的，它却给不出具体理由：“尽管蒂莫西・B・李常写条理清晰、解说性强的文章，但这段文字里没有像‘个人指纹’一样的特征 —— 没有惯用句式、特定政策表述风格，也没有标志性行文结构，能确凿锁定作者身份。”

我认为，这件事背后藏着一个远超 “作者身份识别” 的深层道理。

人类拥有大量隐性知识：心里明白，却很难完整说清。人们常用身体感知类比喻形容这种状态：话到嘴边却说不出、说不清心里的念头、凭直觉就能感知对错。

大语言模型也是同理：它们完成认知任务的能力，远远强于解释自己如何、为何做到的能力。

但人类与大模型有一个关键区别：人脑时刻都在学习。日常生活中，大脑不断建立新关联、识别新规律、萌生新直觉，我们的隐性知识库一直在扩容。

反观大语言模型，只有训练阶段才会形成这种学习能力。它们能精准识别作者文风，但仅限于训练数据里大量出现过的作者。模型一旦训练完成，参数权重就被固化，学习新规律的能力大幅下降—— 比如从未见过的新人写作风格，很难再自主吃透。

近期，克劳德代码助手、OpenClaw 这类 AI 智能体热度暴涨。这份追捧并非全无道理：克劳德代码助手确实正在颠覆编程行业；OpenClaw 这类智能体也很有可能重塑其他经济领域与日常生活。

行业领军者还期待未来迎来更大变革。上个月采访中，山姆・奥尔特曼（Sam Altman）表示，OpenAI 目标在2028 年 3 月前打造出自动化 AI 研究员。有人认为，这款产品（或竞品同类突破）将触发递归自我迭代循环，大幅加速科技与科研进步。

这种愿景未来或许能实现，但我认为还需要很长时间。

人类科学家做实验时，大脑会主动在数据中搜寻潜在规律，进而产生全新洞见、构建解释世界的新模型。但当下基于大模型与智能体架构的 AI，无法以人类这种丰富方式从实验中学习。它们没有可靠、可规模化的方式，在推理运行阶段从新数据中沉淀出隐性知识。

想要突破这一点，可能需要从根本上重构当前主流模型的 Transformer 架构；最低限度，也必须彻底革新现有的智能体框架。

AI 智能体如何应对有限上下文窗口

很多高难度脑力任务，需要长时间 “深度思考”。但大语言模型的工作记忆存在上限，也就是常说的上下文窗口。近两年顶尖模型的上下文上限基本卡在 100 万令牌左右。

再加上成本约束与上下文衰减问题，开发者实际使用时都会刻意远低于最大上限。

如何平衡这种矛盾，已是 AI 行业重点攻关方向，也催生了一整套上下文工程技巧，用来高效利用有限上下文。比如现代对话模型会做信息压缩：定期删减老旧内容、或提炼摘要留存。

这会制造一种假象：模型实际能承载的上下文，远比真实上限更长。但一旦压缩出错，就会引发严重后果。曾有一桩典型事故：一位用户让 AI 智能体帮忙筛选可删除邮件、但不要真的执行删除，结果后半句约束在信息压缩中丢失，智能体直接批量删掉了她的邮件。

过去一年，AI 企业开始尝试让模型把持久化信息存到上下文窗口之外。克劳德代码助手就是重要一步：它运行在用户本地电脑，可读取、修改本地硬盘文件。完成一项编程任务后，直接把结果写入文件，无需再把所有细节留在上下文里。

2025 年末推出的 OpenClaw 更进一步，它是一套在本地电脑运行 AI 智能体的通用框架。和克劳德代码助手一样，可读写本地文件系统，用来存储资料、跟进未完成任务。

市场对 OpenClaw 这类本地智能体的追捧，直接带火了苹果 Mac 迷你主机销量。在 Mac 迷你上部署 OpenClaw，可联动 iMessage 等苹果生态服务；同时 macOS 基于 Unix 系统，智能体能调用功能强大的 Unix 命令行终端。

“说到底，你的智能体就是一堆文件”

风险投资家马克・安德森（Marc Andreessen）近期做客《隐空间》播客时提出：OpenClaw 这类智能体，代表一种全新计算范式。以下是稍加整理的原话摘录：

我们现在可以这样定义 AI 智能体：它由大语言模型 + Unix 命令行终端构成，智能体可以调用终端；再加上文件系统，所有运行状态都存在文件里，文件采用 Markdown 格式记录。
再配上 Unix 里的定时任务机制 —— 循环唤醒、心跳驻留，智能体就能定时自动启动运行……
这就是整套底层架构。而说到底，你的 AI 智能体本质就是文件系统里的一堆文件。
这意味着智能体可以和底层模型解耦：你可以随时换掉背后的大语言模型。换模型后智能体性格会略有变化，但存在文件里的所有记忆、状态、能力都会完整保留，还是原来那个拥有全部记忆和功能的智能体。
你也可以替换命令行终端、迁移文件系统、更换定时任务和智能体框架本身。
更进一步：智能体可以自主迁移。你只需下达指令，让它迁移到新运行环境、换一套文件系统、切换底层大模型，它就能自动完成全部操作。
智能体具备完整自省能力：能读取自身文件、还能自主改写文件。由此衍生出一个极具颠覆性的能力 ——你可以让智能体给自己新增功能。
比如聚会时听别人说：“我用 OpenClaw 连接智能睡眠床垫，能给出更专业的睡眠建议。”
你当晚回家，直接对自己的 OpenClaw 说：“给我加上这项功能。”
它会回复 “没问题”，自行上网查资料、补齐所需配置与代码，完成功能开发。转眼间，它就新增了这项能力。你无需动手，只需提出需求，它就能自我升级。

这种范式诞生才短短数月，未来两年还会持续迭代。比如未来主流 AI 智能体，是跑在用户本地电脑，还是更多采用云端虚拟机部署的类 OpenClaw 架构，目前尚无定论。但我认同安德森的判断：这确实是划时代的全新计算范式。

但与此同时，安德森的观点也恰好解释了我为何对 “现有模型能达到人类级智能” 保持怀疑。最戳我的一句话就是：你的智能体就是一堆文件。我们不妨拆解这句话背后的能力局限。

办公室版《记忆碎片》

2000 年电影《记忆碎片》的主角患有短期失忆，只能靠不断写便签，给未来的自己留下指引。OpenClaw 的逻辑与之高度相似：大模型自身的上下文窗口会定期重置，而智能体依靠给自己留存文档笔记，维持任务连贯性。

可以打个比方：你需要一名员工，但不长期聘用，而是每周换一个临时工来接手工作。每周末，上一任员工要花好几个小时，把本周工作事无巨细整理归档、写下完整笔记。

每位临时工都具备行业通用基础素养，周一上岗后，无需从零补习行业常识，只需要吃透这份专属工作资料即可。他们未必有时间读完所有历史文档，但笔记结构清晰，可通过检索快速定位关键内容。

这种模式能运转得多好，完全取决于工作性质：前台、药师、水管工这类交易型事务岗位，前后交接影响不大，每周换人也能正常服务。

但还有一类工作极度依赖长期上下文积累：多年跟进同一客户、深度理解对方诉求；或是耗时数周乃至数月深度研究，沉淀原创洞见。

这类岗位，新人往往要花远超一周的时间，才能完全跟上进度、接手工作。

我 2010 年在谷歌实习时，第一个任务只是给内部数据库加一列字段，只需几行代码。但我花了好几周研读内部系统规则与开发流程，才敢写下这几行代码。

这不只是编程行业的特例。在大量知识密集型行业，新人至少需要数月沉淀，才能真正上手创造价值。在此之前需要大量带教，有时管理者亲自上手反而更快。这类行业，如果每周换人交接，根本无法落地。

显性知识 vs 隐性知识

我知道反对者会这样反驳：人类读完 10 万字文档要花数小时，大模型只需几秒就能完成。如果 2010 年就有 AI 编程智能体，修改谷歌数据库字段根本不用耗上几周。

大模型的超快阅读速度，意味着 OpenClaw 这类智能体每一轮运行，都能给下一任留下极其详尽的文档记录。在人类完成一次读写执行循环的时间里，AI 智能体可以循环迭代上百次。

这确实让 AI 智能体的能力，远超我刚才举的 “每周换临时工” 类比。经过成千上万次迭代，它们哪怕攻克高难度问题，也能逐步取得进展。

这个观点有道理，但我依然认为，大量人类工作短期内无法被 AI 替代。

四年前我写过一篇关于 “贪婪型高薪岗位” 的文章：这类工作投入时间越长，时薪反而越高。背后原因很多，最关键一点是知识工作者越有经验，产出质量越高。多年职业生涯积累的上下文优势，会持续复利增长。

举个例子，我从事科技与经济写作已有 20 多年，写过英国脱欧、专利流氓、激光雷达传感器等无数话题。平时大部分积累看似用不上，但长期沉淀下来，让我面对任何选题都更容易产出有深度的观点。

我根本不可能把 20 年所有知识全部写成文档，交接给另一名记者，还指望她写出和我同等水准的内容。不只是总结这些知识要耗费数月，更关键的是：我有大量无法用语言清晰表述的隐性知识。

能清晰表达、可以聊天写邮件讲出来的显性认知，只是冰山一角；水面之下，是海量直觉、模糊关联、未成型的初步想法。这类隐性知识无法轻易交接，却是我做好工作的核心根基。

我那些可以正式成文的洞见，最初往往都只是模糊直觉。常常是心里认定某个规律成立，却一时无法论证；需要在脑中反复琢磨数小时甚至数日，才能梳理成清晰逻辑。

我并非特例。科学家、工程师、企业管理者以及所有知识型从业者皆是如此：很多原创洞见，最初都只是脑海里模糊的隐性直觉，之后才慢慢转化为文字、代码或可落地的观点。

前文说过，大模型也具备这类隐性知识，但几乎全部来自预训练阶段。它们严重缺乏持续学习能力：无法在推理运行阶段，从新信息中自主识别新规律、萌生新直觉。

更关键的是，即便 AI 在单次会话中形成了某种模糊认知，一旦智能体框架切换大模型实例，这些记忆就会清零。所有有效信息都会被外化存入文件 —— 正如安德森所说：智能体就是一堆文件。

而无法用文字、代码等显性形式表达的隐性认知，注定无法在交接中留存。

我强烈认为：人类那些未成型的模糊直觉、朦胧思考，正是原创深度洞见的原材料。因此至少未来数年，那些需要深度思考、原创洞察的核心工作，依然离不开人类。

文末致谢：感谢丹尼尔・卡根 - 坎斯（Daniel Kagan-Kans）、安德鲁・李（Andrew Lee）、史蒂夫・纽曼（Steve Newman）、纳特・珀瑟（Nat Purser）对本文初稿提出修改意见。

本文编译自substack，原文作者Timothy B. Lee

https://www.understandingai.org/p/i-dont-think-we-are-close-to-ai-scientists