今年开年以来,不管是硅谷、还是国内的 AI 投资圈子,都不太敢投 AI 应用了。

基础模型每个月都在变强,所有建在模型之上的应用公司都变成了一层迟早会被吞掉的「薄壳」。

似乎,除了算力和前沿模型外,什么都不值得投了。硅谷管这种现象叫「AI 绝望论」,投资人不如把钱全砸进 Anthropic 和 Nvidia,然后回家躺平。

硅谷知名投资人、也是 Conviction 的创始人 Sarah Guo 写了一篇文章《The Untrainable》,说她并不认同这套逻辑。

她觉得,这套逻辑只对了一半:凡是能被 Benchmark 测量的工作,都已经走在通往商品化的路上。模型前沿实验室和开源蒸馏模型会从上下两头同时吃掉这些「可读的工作」。

凡是可衡量的,皆可被训练;凡是可训练的,终将被商品化。

但,真正有价值的工作是天生「不可读」的,它的正确性只存在于某家公司的私有数据里,锁在外人进不去的系统中,需要靠许可、问责、信任和长期集成才能建立。

真正值钱的工作,从一开始就是 benchmark 测不出来的。而这一部分,就是模型够不到的少数地方。

当智能开始变得更便宜时,真正的价值会持续滑向模型够不到的少数地方。

尤其是对于应用公司来说,他们的机会是在「不可读」价值上建立商业模式,能在一个行业里定义什么是好,往往是因为这个行业已经在用你了,而这些公司是靠真实采用的硬仗挣来的这种资格。

不要在别人的 Benchmark 里卷,去定义你自己的 Benchmark。

⬆️关注 Founder Park,最及时最干货的创业分享

Founder Show 正在寻找下一个值得被全球投资人看见的 AI 创业团队。

AGI Playground 2026 将于 8 月在新加坡举办,Founder Show 是活动中专为早期创业者打造的路演环节,你将用 15-20 分钟向现场的全球 VC 与行业领袖展示产品的「Aha Moment」,并与最前沿的 AI 创业者同台交流。

如果你正在做面向全球市场的 AI 产品,欢迎报名。

2026 年中,投资圈流行起一种了新型「AI 绝望论」。

这是一种深深的绝望:似乎除了 Anthropic 和 Nvidia,什么都不值得投了,不如把钱全砸进这两家,然后回家躺平。

但我从来没这种感觉。

我已经连续好几个小版本都确信模型比我聪明,我也乐意按市价买入 Anthropic 和 Nvidia,我身边最聪明的朋友们也都笃信自我改进很快就会成真,但我依然不绝望。

这种绝望并非毫无道理。它的逻辑是这样的:如果模型在每件事上都越来越强,那么所有建立在模型之上的公司都不过是一层「薄壳」(thin wrapper),早晚被吞掉,唯一能活下来的价值只剩算力和前沿模型权重。

听上去很有说服力。但我想说的是:它对了一半,也错了一半。

01模型把软件工程吃掉了,但只吃掉了能被测量的那部分

软件工程,是这套绝望论最爱拿来举例的领域。

2024 年 Devin 发布时,在 SWE-Bench 上只解决了 13% 的任务,被普遍嘲笑。一年半后,最好的智能体冲到 80% 多,并且已经在高盛和美国陆军内部承担真实工作。几乎所有人都得出了同一个错误结论:模型把软件工程吃掉了。

但当模型吞下软件工程中最容易被测量的那部分时,我们也在重新认识许多团队早已知道的事,工程一向抗拒测量,而最容易测量的部分,未必是唯一重要的部分

MIT 的 Mert Demirer 和合作者最近用数字给出了答案:在超过 10 万名开发者的样本里,最新的 coding agents 让代码写出量提升了约 180%,但真正上线发布的代码只多了约 30%。

写代码变便宜了,但剩下的那一大段,仍然要靠人来解决,而且这一段才是关键。当然,整体净影响仍然惊人。

为什么编码智能体最先成熟?因为它的对错可以被免费验证:

  • 编译器是免费的验证器;

  • 测试套件是免费的验证器;

  • 当答案能自我检查时,你可以无成本地「磨」模型,直到它通过。

凡是能被测量的东西,就能被训练;能被训练的东西,最终都会被模型吃掉。

但这里有一个关键问题:通过单元测试,从来不等于改对了

一个十年的老代码库,其中某个模块存在的三个理由没人写过文档,部署流水线靠一个没人愿意承认是自己写的 cron job 撑着。在这种环境里,「对不对」根本不在排行榜上。Google 那种规模的系统,没人会跑完单元测试看到一排绿勾就敢上线,你信任它是因为它扛过了多年真实流量。

这种正确性不仅是私有的,更是资本无法压缩的「慢护城河」。连最乐观的人都承认,时钟是无法被跳过的。OpenAI 推理模型的开拓者 Noam Brown 最近写道:要评估一个智能体在一年时间尺度上是否靠谱,唯一可靠的办法,可能就是让它真的跑一年。

正如 Gabe Pereyra 所说,真正的自动化不只是模型变强。它是产品、模型、工作流、公司四者一起向前移动,而后三者跑的是组织的速度。

推动人,是任何基准都无法触及的部分:让一位心存疑虑的合伙人改变她处理案件的方式,让一支团队在重构中不散架。这就是为什么招 CEO 时,搞定人的能力至少和分析能力同等重要。反馈是模糊的,时间尺度是数年的,信任归属于某个具体的人。更聪明的模型,并不会改变这个权重。

我认识的每一家公司,都让所有工程师用上了前沿编码模型,但没有一家公司以接近那个速度改造了自己的工程组织。采用只用了一个季度,那真是 token 消耗爆炸式增长的、神奇的一个季度!但工程组织的重构,要花好几年。

02不可测量的部分,才是真正有价值的

可以总结成一句话:可被读出的,正在被带走;剩下的,才是真价值。

我的朋友、Rippling 的 Matt MacInnis 有个很好的说法:一个 token 用来回答通用问题,几乎一文不值,因为谁家的模型都能答;而一个 token 用来在你公司的数据上推理,价值高得多,因为它做的是你真正想要的事,而不是听上去合理的事。

「可读的工作」会从两个方向被吃掉:

从下面,被开源模型蚕食。任务一旦能被廉价验证,买家就不再问「用的哪个模型」,只问「多少钱」。工作就掉给当周最便宜的开源或蒸馏模型。

从上面,被实验室吞并。实验室在让模型把自己的脚手架一起「吸收」下去,检索、便宜/贵的调用路由、工具使用、推理策略,所有过去包在模型外面的东西,都在被拉进权重里。直到外壳本身就是模型。这就是所谓的 absorption frontier(吸收边界)模型能力的边界在不断向外推。

那么剩下什么?我们可以问任何一类工作两个问题:

  • 它的正确性,是不是只能在私有数据里建立?

  • 它是不是被锁在一个外人进不去的系统里?

把这两点和任务饱和度交叉,就是一个 2×2 矩阵:

  • 有公开答案的饱和任务→ 商品 token,开源模型称王;

  • 有公开答案的前沿任务(编码基准就属于这一类)→ 实验室赢,因为评测免费时,「拥有它」毫无意义;

  • 真正的奖品是最后一格:正确性只存在于私域里的前沿任务,也就是「不可训练之地」(The Untrainable)。

打开网易新闻 查看精彩图片

你能从那些服务 AI 原生先锋的推理云上看到这一点:绝大多数 token 不是由通用开源模型生成的,而是来自定制模型。

通往这块地的墙有多高,差别很大。一个开发者的玩具代码库标准、可移植,墙很矮。一家银行的生产系统呢?你不会因为在 SWE-Bench 上聪明 2% 就拿到 root 权限。

03模型的瓶颈不在智力,是许可和问责

能力会吃掉很多东西,但更强的模型不会让「私有真相」(private ground truth)变成公开真相。它持不了执照、签不了责任书、拥有不了公司的文件、出事时也没法被起诉。

瓶颈不在智力。瓶颈是许可,是问责。你可以想象一个远比任何人都聪明的模型,它仍然必须被允许进门,仍然要有人在它做的事上署名。

这扇门有两把锁。

锁是环境:你只有在被信任进入一个系统之后,经过安全审查、完成集成、签下责任合同,才能去验证 AI 在其中是否真的做了有用的事。

插销是用户:今天大多数美国医生每天打开 OpenEvidence,再多算力也买不来这个习惯。哪怕一家实验室明天能训出一个完美的医疗模型,也挤不进医生的工作流,也进不了 UCSF(加州大学旧金山分校)的决策链路。因为信任是慢慢长出来的,靠关系、靠用户的默许,而不是会抹去这些关系的梯度下降(gradient descent)。

04不光鲜的「Dirty Work或许才是真护城河

一个应用要在「不可训练之角」挣到位置,靠的是不光鲜的脏活:

  • 把一家公司的私有现实整理成模型能动手的样子;

  • 把工具递到模型手上;

  • 和客户一起,真的去改变他们员工队伍的现实。

带来这种「翻译」的公司,最难被复制,而且翻译永远做不完。

举个例子:在一家顶级精英律所,光是 M&A(并购)业务一年就有近一千笔交易。你不可能让几百个 associate 各自把客户文件下载到桌面,再让一个通用 Agent 去啃,保密、合规、风控,十几条理由都不允许。就算允许,你学到的也只是一堆碎片:一次一个 associate 的修订,没人能看到整笔交易的全貌。

真正的信号在「交易」层面,而每种交易都有自己的形态:M&A 有 NDA、term sheet、尽调、购买协议、附件、交割清单;IP 诉讼则是动议、证据开示、在先技术、更多动议。每个业务领域都有自己的「形状」,律师不通用,工具也不通用。

而律所真正要解决的问题,比这些还高一层:让所有业务线并行运转,就像一个顶级合伙人同时操盘几百宗 case,还要拓展新业务、培养 associate。

改造这样一家律所,不是一个能写出 evals 的任务。它需要一个运营者去「moneyball」它,在中间目标极度模糊、反馈极不完整、时间跨度极长、环境从不静止的情况下,硬干出来。

*moneyball 来自 2003 年 Michael Lewis 的同名畅销书《Moneyball》,这里比喻在一个看似混乱、无法用传统办法量化、所有人都凭感觉在做事的领域里,用系统化的数据、判断和重新设计的指标,把隐藏的价值挖出来。

正因为「不可读的价值」很难证明,所以它也很难卖,公司自己都判断不了 AI 会不会改造它的运营,基准更判断不了。

最强的公司干脆不再向外部证明,而是先进去,然后按结果定价:

  • Sierra在 Agent 成功解决用户问题时收费,转给人工就不收钱,价格本身就是评测。这只行得通,因为 Sierra 拥有「什么叫已解决」的定义权。

  • Cognition 的 Devin在软件领域做同样的事,给出「性能保证」,这只能在你已经被信任的系统里给。

哪怕是被所有人称为「纯商品」的 token 服务,也并不真像商品。最强的 AI 原生公司会把推理集中在一两家供应商(比如 Baseten 或 Fireworks),因为单 token 价格按部就班地商品化了,但真实流量下的可靠性、对稀缺算力的优先访问权,并没有商品化。

有人会问:实验室是你的供应商,凭什么不能自己亲自下场、低价倾销把你耗死?

这才是绝望论的「硬核版本」。但它只在「模型层是单人游戏」时才成立。

而现实显然不是,模型层更像一场三方半的死斗,外加一批落后六个月训练量的国际选手,加一支规模比去年大 5 倍的发展联赛。客户希望供应商之间互相竞争,实验室想要的是市场份额,而不是某一个应用死掉。

最直观的证据来自实验室直接对垒的市场。在消费级 Chat 应用市场中,「最好的模型」从来没有简单地赢过。ChatGPT 在多年真实竞争中保持领先,它现在丢的份额是被 Gemini 拿走的,靠的不是模型更好,而是 Android 和 Search。Anthropic 目前被普遍认为模型最强,但在消费级聊天里几乎没有存在感,它的生意建在企业和编码上。

如果一个更好的模型,在最核心的应用里都拿不下对手的用户,它也别想用同样的方式整合进医院的病历系统或银行的责任体系。

05当模型的吸收边界一直在扩展时,intent 比算力更稀缺

如果工作没法从外部打分,那就必须有一个内部的人来定义什么叫好,而这个定义权,才是整盘棋的全部。

把够多这样的判断写下来,就成了基准。Harvey 为法律出了一个,Sierra 为语音 Agent 出了一个。但要注意因果关系:你能定义一个行业里什么是好,是因为这个行业已经在用你。而这些公司,是靠真实采用的硬仗挣来的这种资格。

决定真金白银的评估是私有、按公司而异的:这家律所,对这一类事务,会接受什么样的工作为「好」。而且这件事远未完成,法律本身的深度,让任何公开测试都相形见绌。OpenEvidence 也在干同样的事:确立什么是安全的临床答案。

这不是测量,这是判断。关于什么是真的、什么是好的判断。被写下来,就成了别人都被衡量的标准。哪怕基础模型再聪明,也写不出这个标准,因为这种权威只存在于行业内部。

资深律师写法律基准;安全临床答案的定义权属于医生;「已解决」的含义,由那家拥有客户的公司说了算。

「absorption frontier」还在不断向上推,因为我们一直在学会测量更多的事,而能被测量的都会被吃掉。不可训练的地面,在踩着它的人脚下一直在缩小。所以你找不到一块可以原地休息的高地,你必须不停往尚未被打分的方向迈步,并不断重新审视自己站在哪。

  • 在窄任务上,用你的私有数据和自己的评测,你可以训练到前沿,在要害处把通用模型打败,这个专用模型就成为护城河的一部分。

  • 反过来,如果你试图在通用任务上和前沿模型硬碰硬,那是一场你必输的资本战争,你会输给拥有最多算力的人。这就是访问权浅、任务可读的公司掉进去的陷阱。它决定要「在通用任务的大片领域里训练胜过前沿」以求生存的那一天,胜负就主要由数据中心规模决定,结局通常不是独立冠军,而是被某个算力大户收购

以上都是防守。但更难的是进攻,首先选择该建什么。

这是我一整年都在找的事,一年大概能找到三次。模型在这件事上帮不上忙,它会做你指给它的任何事,但不能告诉你什么值得指给它做。这件事没法基准化,所以也没法训练。

这也是为什么巨头吃不下一切:它们守得住已有的地,但下一片地总是来自一个比所有人都更早发现某种用法的人。也许意图,是比算力还要稀缺的输入。

回到文章开头提到的绝望论,其实只说对了一半。「薄壳层」确实在被吸收,今天看起来像公司的很多东西,其实只是一层薄壳。但它对「剩下什么」判断错了。

机制是清楚的,目的地不是。我愿意押注的是方向:

智能持续变便宜,价值持续滑向模型够不到的少数地方。不可训练之地,是带着历史的价值。

所以,挑一块这样的地走进去,做那种不光鲜的翻译工作,开始一行一行地写下「在这里,什么叫好」,因为总会有人来写。

今年被引用次数最多的那个基准分数,是一张即将一文不值的领土地图;同时也是一份通知书:通知谁,即将失去定义「什么叫好」的权利。

原文:https://x.com/saranormous/status/2064510215056400652

打开网易新闻 查看精彩图片

转载原创文章请添加微信:founderparker