Sarah Guo：能被 Benchmark 衡量的工作，都不应该是你的创业方向|benchmark|基准|底层逻辑|智能体|正确性|翻译|通用

今年开年以来，不管是硅谷、还是国内的 AI 投资圈子，都不太敢投 AI 应用了。

基础模型每个月都在变强，所有建在模型之上的应用公司都变成了一层迟早会被吞掉的「薄壳」。

似乎，除了算力和前沿模型外，什么都不值得投了。硅谷管这种现象叫「AI 绝望论」，投资人不如把钱全砸进 Anthropic 和 Nvidia，然后回家躺平。

硅谷知名投资人、也是 Conviction 的创始人 Sarah Guo 写了一篇文章《The Untrainable》，说她并不认同这套逻辑。

她觉得，这套逻辑只对了一半：凡是能被 Benchmark 测量的工作，都已经走在通往商品化的路上。模型前沿实验室和开源蒸馏模型会从上下两头同时吃掉这些「可读的工作」。

凡是可衡量的，皆可被训练；凡是可训练的，终将被商品化。

但，真正有价值的工作是天生「不可读」的，它的正确性只存在于某家公司的私有数据里，锁在外人进不去的系统中，需要靠许可、问责、信任和长期集成才能建立。

真正值钱的工作，从一开始就是 benchmark 测不出来的。而这一部分，就是模型够不到的少数地方。

当智能开始变得更便宜时，真正的价值会持续滑向模型够不到的少数地方。

尤其是对于应用公司来说，他们的机会是在「不可读」价值上建立商业模式，能在一个行业里定义什么是好，往往是因为这个行业已经在用你了，而这些公司是靠真实采用的硬仗挣来的这种资格。

不要在别人的 Benchmark 里卷，去定义你自己的 Benchmark。

⬆️关注 Founder Park，最及时最干货的创业分享

Founder Show 正在寻找下一个值得被全球投资人看见的 AI 创业团队。

AGI Playground 2026 将于 8 月在新加坡举办，Founder Show 是活动中专为早期创业者打造的路演环节，你将用 15-20 分钟向现场的全球 VC 与行业领袖展示产品的「Aha Moment」，并与最前沿的 AI 创业者同台交流。

如果你正在做面向全球市场的 AI 产品，欢迎报名。

2026 年中，投资圈流行起一种了新型「AI 绝望论」。

这是一种深深的绝望：似乎除了 Anthropic 和 Nvidia，什么都不值得投了，不如把钱全砸进这两家，然后回家躺平。

但我从来没这种感觉。

我已经连续好几个小版本都确信模型比我聪明，我也乐意按市价买入 Anthropic 和 Nvidia，我身边最聪明的朋友们也都笃信自我改进很快就会成真，但我依然不绝望。

这种绝望并非毫无道理。它的逻辑是这样的：如果模型在每件事上都越来越强，那么所有建立在模型之上的公司都不过是一层「薄壳」（thin wrapper），早晚被吞掉，唯一能活下来的价值只剩算力和前沿模型权重。

听上去很有说服力。但我想说的是：它对了一半，也错了一半。

01模型把软件工程吃掉了，但只吃掉了能被测量的那部分

软件工程，是这套绝望论最爱拿来举例的领域。

2024 年 Devin 发布时，在 SWE-Bench 上只解决了 13% 的任务，被普遍嘲笑。一年半后，最好的智能体冲到 80% 多，并且已经在高盛和美国陆军内部承担真实工作。几乎所有人都得出了同一个错误结论：模型把软件工程吃掉了。

但当模型吞下软件工程中最容易被测量的那部分时，我们也在重新认识许多团队早已知道的事，工程一向抗拒测量，而最容易测量的部分，未必是唯一重要的部分。

MIT 的 Mert Demirer 和合作者最近用数字给出了答案：在超过 10 万名开发者的样本里，最新的 coding agents 让代码写出量提升了约 180%，但真正上线发布的代码只多了约 30%。

写代码变便宜了，但剩下的那一大段，仍然要靠人来解决，而且这一段才是关键。当然，整体净影响仍然惊人。

为什么编码智能体最先成熟？因为它的对错可以被免费验证：

编译器是免费的验证器；
测试套件是免费的验证器；
当答案能自我检查时，你可以无成本地「磨」模型，直到它通过。

凡是能被测量的东西，就能被训练；能被训练的东西，最终都会被模型吃掉。

但这里有一个关键问题：通过单元测试，从来不等于改对了。

一个十年的老代码库，其中某个模块存在的三个理由没人写过文档，部署流水线靠一个没人愿意承认是自己写的 cron job 撑着。在这种环境里，「对不对」根本不在排行榜上。Google 那种规模的系统，没人会跑完单元测试看到一排绿勾就敢上线，你信任它是因为它扛过了多年真实流量。

这种正确性不仅是私有的，更是资本无法压缩的「慢护城河」。连最乐观的人都承认，时钟是无法被跳过的。OpenAI 推理模型的开拓者 Noam Brown 最近写道：要评估一个智能体在一年时间尺度上是否靠谱，唯一可靠的办法，可能就是让它真的跑一年。

正如 Gabe Pereyra 所说，真正的自动化不只是模型变强。它是产品、模型、工作流、公司四者一起向前移动，而后三者跑的是组织的速度。

推动人，是任何基准都无法触及的部分：让一位心存疑虑的合伙人改变她处理案件的方式，让一支团队在重构中不散架。这就是为什么招 CEO 时，搞定人的能力至少和分析能力同等重要。反馈是模糊的，时间尺度是数年的，信任归属于某个具体的人。更聪明的模型，并不会改变这个权重。

我认识的每一家公司，都让所有工程师用上了前沿编码模型，但没有一家公司以接近那个速度改造了自己的工程组织。采用只用了一个季度，那真是 token 消耗爆炸式增长的、神奇的一个季度！但工程组织的重构，要花好几年。

02不可测量的部分，才是真正有价值的

可以总结成一句话：可被读出的，正在被带走；剩下的，才是真价值。

我的朋友、Rippling 的 Matt MacInnis 有个很好的说法：一个 token 用来回答通用问题，几乎一文不值，因为谁家的模型都能答；而一个 token 用来在你公司的数据上推理，价值高得多，因为它做的是你真正想要的事，而不是听上去合理的事。

「可读的工作」会从两个方向被吃掉：

从下面，被开源模型蚕食。任务一旦能被廉价验证，买家就不再问「用的哪个模型」，只问「多少钱」。工作就掉给当周最便宜的开源或蒸馏模型。

从上面，被实验室吞并。实验室在让模型把自己的脚手架一起「吸收」下去，检索、便宜/贵的调用路由、工具使用、推理策略，所有过去包在模型外面的东西，都在被拉进权重里。直到外壳本身就是模型。这就是所谓的 absorption frontier（吸收边界），模型能力的边界在不断向外推。

那么剩下什么？我们可以问任何一类工作两个问题：

它的正确性，是不是只能在私有数据里建立？
它是不是被锁在一个外人进不去的系统里？

把这两点和任务饱和度交叉，就是一个 2×2 矩阵：

有公开答案的饱和任务→ 商品 token，开源模型称王；
有公开答案的前沿任务（编码基准就属于这一类）→ 实验室赢，因为评测免费时，「拥有它」毫无意义；
真正的奖品是最后一格：正确性只存在于私域里的前沿任务，也就是「不可训练之地」（The Untrainable）。

你能从那些服务 AI 原生先锋的推理云上看到这一点：绝大多数 token 不是由通用开源模型生成的，而是来自定制模型。

通往这块地的墙有多高，差别很大。一个开发者的玩具代码库标准、可移植，墙很矮。一家银行的生产系统呢？你不会因为在 SWE-Bench 上聪明 2% 就拿到 root 权限。

03模型的瓶颈不在智力，是许可和问责

能力会吃掉很多东西，但更强的模型不会让「私有真相」（private ground truth）变成公开真相。它持不了执照、签不了责任书、拥有不了公司的文件、出事时也没法被起诉。

瓶颈不在智力。瓶颈是许可，是问责。你可以想象一个远比任何人都聪明的模型，它仍然必须被允许进门，仍然要有人在它做的事上署名。

这扇门有两把锁。

锁是环境：你只有在被信任进入一个系统之后，经过安全审查、完成集成、签下责任合同，才能去验证 AI 在其中是否真的做了有用的事。

插销是用户：今天大多数美国医生每天打开 OpenEvidence，再多算力也买不来这个习惯。哪怕一家实验室明天能训出一个完美的医疗模型，也挤不进医生的工作流，也进不了 UCSF（加州大学旧金山分校）的决策链路。因为信任是慢慢长出来的，靠关系、靠用户的默许，而不是会抹去这些关系的梯度下降（gradient descent）。

04不光鲜的「Dirty Work或许才是真护城河

一个应用要在「不可训练之角」挣到位置，靠的是不光鲜的脏活：

把一家公司的私有现实整理成模型能动手的样子；
把工具递到模型手上；
和客户一起，真的去改变他们员工队伍的现实。

带来这种「翻译」的公司，最难被复制，而且翻译永远做不完。

举个例子：在一家顶级精英律所，光是 M&A（并购）业务一年就有近一千笔交易。你不可能让几百个 associate 各自把客户文件下载到桌面，再让一个通用 Agent 去啃，保密、合规、风控，十几条理由都不允许。就算允许，你学到的也只是一堆碎片：一次一个 associate 的修订，没人能看到整笔交易的全貌。

真正的信号在「交易」层面，而每种交易都有自己的形态：M&A 有 NDA、term sheet、尽调、购买协议、附件、交割清单；IP 诉讼则是动议、证据开示、在先技术、更多动议。每个业务领域都有自己的「形状」，律师不通用，工具也不通用。

而律所真正要解决的问题，比这些还高一层：让所有业务线并行运转，就像一个顶级合伙人同时操盘几百宗 case，还要拓展新业务、培养 associate。

改造这样一家律所，不是一个能写出 evals 的任务。它需要一个运营者去「moneyball」它，在中间目标极度模糊、反馈极不完整、时间跨度极长、环境从不静止的情况下，硬干出来。

*moneyball 来自 2003 年 Michael Lewis 的同名畅销书《Moneyball》，这里比喻在一个看似混乱、无法用传统办法量化、所有人都凭感觉在做事的领域里，用系统化的数据、判断和重新设计的指标，把隐藏的价值挖出来。

正因为「不可读的价值」很难证明，所以它也很难卖，公司自己都判断不了 AI 会不会改造它的运营，基准更判断不了。

最强的公司干脆不再向外部证明，而是先进去，然后按结果定价：

Sierra在 Agent 成功解决用户问题时收费，转给人工就不收钱，价格本身就是评测。这只行得通，因为 Sierra 拥有「什么叫已解决」的定义权。
Cognition 的 Devin在软件领域做同样的事，给出「性能保证」，这只能在你已经被信任的系统里给。

哪怕是被所有人称为「纯商品」的 token 服务，也并不真像商品。最强的 AI 原生公司会把推理集中在一两家供应商（比如 Baseten 或 Fireworks），因为单 token 价格按部就班地商品化了，但真实流量下的可靠性、对稀缺算力的优先访问权，并没有商品化。

有人会问：实验室是你的供应商，凭什么不能自己亲自下场、低价倾销把你耗死？

这才是绝望论的「硬核版本」。但它只在「模型层是单人游戏」时才成立。

而现实显然不是，模型层更像一场三方半的死斗，外加一批落后六个月训练量的国际选手，加一支规模比去年大 5 倍的发展联赛。客户希望供应商之间互相竞争，实验室想要的是市场份额，而不是某一个应用死掉。

最直观的证据来自实验室直接对垒的市场。在消费级 Chat 应用市场中，「最好的模型」从来没有简单地赢过。ChatGPT 在多年真实竞争中保持领先，它现在丢的份额是被 Gemini 拿走的，靠的不是模型更好，而是 Android 和 Search。Anthropic 目前被普遍认为模型最强，但在消费级聊天里几乎没有存在感，它的生意建在企业和编码上。

如果一个更好的模型，在最核心的应用里都拿不下对手的用户，它也别想用同样的方式整合进医院的病历系统或银行的责任体系。

05当模型的吸收边界一直在扩展时，intent 比算力更稀缺

如果工作没法从外部打分，那就必须有一个内部的人来定义什么叫好，而这个定义权，才是整盘棋的全部。

把够多这样的判断写下来，就成了基准。Harvey 为法律出了一个，Sierra 为语音 Agent 出了一个。但要注意因果关系：你能定义一个行业里什么是好，是因为这个行业已经在用你。而这些公司，是靠真实采用的硬仗挣来的这种资格。

决定真金白银的评估是私有、按公司而异的：这家律所，对这一类事务，会接受什么样的工作为「好」。而且这件事远未完成，法律本身的深度，让任何公开测试都相形见绌。OpenEvidence 也在干同样的事：确立什么是安全的临床答案。

这不是测量，这是判断。关于什么是真的、什么是好的判断。被写下来，就成了别人都被衡量的标准。哪怕基础模型再聪明，也写不出这个标准，因为这种权威只存在于行业内部。

资深律师写法律基准；安全临床答案的定义权属于医生；「已解决」的含义，由那家拥有客户的公司说了算。

「absorption frontier」还在不断向上推，因为我们一直在学会测量更多的事，而能被测量的都会被吃掉。不可训练的地面，在踩着它的人脚下一直在缩小。所以你找不到一块可以原地休息的高地，你必须不停往尚未被打分的方向迈步，并不断重新审视自己站在哪。

在窄任务上，用你的私有数据和自己的评测，你可以训练到前沿，在要害处把通用模型打败，这个专用模型就成为护城河的一部分。
反过来，如果你试图在通用任务上和前沿模型硬碰硬，那是一场你必输的资本战争，你会输给拥有最多算力的人。这就是访问权浅、任务可读的公司掉进去的陷阱。它决定要「在通用任务的大片领域里训练胜过前沿」以求生存的那一天，胜负就主要由数据中心规模决定，结局通常不是独立冠军，而是被某个算力大户收购。

以上都是防守。但更难的是进攻，首先选择该建什么。

这是我一整年都在找的事，一年大概能找到三次。模型在这件事上帮不上忙，它会做你指给它的任何事，但不能告诉你什么值得指给它做。这件事没法基准化，所以也没法训练。

这也是为什么巨头吃不下一切：它们守得住已有的地，但下一片地总是来自一个比所有人都更早发现某种用法的人。也许意图，是比算力还要稀缺的输入。

回到文章开头提到的绝望论，其实只说对了一半。「薄壳层」确实在被吸收，今天看起来像公司的很多东西，其实只是一层薄壳。但它对「剩下什么」判断错了。

机制是清楚的，目的地不是。我愿意押注的是方向：

智能持续变便宜，价值持续滑向模型够不到的少数地方。不可训练之地，是带着历史的价值。

所以，挑一块这样的地走进去，做那种不光鲜的翻译工作，开始一行一行地写下「在这里，什么叫好」，因为总会有人来写。

今年被引用次数最多的那个基准分数，是一张即将一文不值的领土地图；同时也是一份通知书：通知谁，即将失去定义「什么叫好」的权利。

原文：https://x.com/saranormous/status/2064510215056400652