企业 Agent 为何多半是玩具？差的不是模型，是品味|agent|代码|正式版模型|玩具

全文 3,000字 | 阅读约 8 分钟

(Replit CEO Amjad Masad 访谈要点)

过去一年，AI Agent 在演示环节的表现越来越惊艳。

给它一个指令，代码自动生成，环境自动配置，产品几分钟就能上线。整个过程流畅到让人觉得，这技术已经可以替代一整个团队了。

但真正落地时，评价往往只有一句：看着挺好，用不起来。

Replit CEO Amjad Masad 最近在一场对谈中，用了一个词来评价今天的 Agent ：玩具（toys）。看起来能干活，实际不稳定、做事靠运气、生成的东西都差不多。这类能生成但不可靠的内容，在业内有个统一称呼：slop（粗制滥造）。

问题不只出在模型本身。更大的问题是：没人教 Agent 什么叫“好”。

什么内容该保留
什么要删改
做到什么程度才算合格。

这些判断标准，模型学不到。所以 Masad 的答案不是换更大的模型，就两个字：品味（taste）。

要让平台更有主张，让 Agent 理解好的标准。

第一节｜多数 Agent 都翻车，不是不聪明，是太通用

Amjad Masad 说：

当前，除了代码和客服，其他 Agent 基本都不靠谱。

不是因为模型能力不够，而是这些 Agent 本质上就是通用输出机器。你给一句模糊提示，它就随便输出一个看起来还行的通用答案。看起来像在完成任务，实际上只是勉强交差。

所有生成的内容看起来都差不多。UI 排布雷同，语言模板僵硬，代码风格也像流水线产品。

具体来说：

你让它做个营销活动规划，它会输出一个看起来还行的 Excel，但不懂品牌语调，也不清楚预算限制；
你让它写代码，它给你一段跑得通的函数，但没考虑企业自己的数据库结构；

它能查资料、能回复、能填表，但始终不清楚什么才算完成得好。

它缺的不是智能，是判断标准。

在企业内部，事情往往没那么标准化。数据是混乱的，流程是断的，权限是分散的。Agent 真正难的，不是生成内容，而是在一团乱麻里还能做出靠谱判断。

所以 Amjad 强调，

信息检索是聊天机器人，行动才是 Agent 。

也就是说，光会找信息不算 Agent，得能做决定、能判断结果。

大多数 Agent 一上生产就崩溃，不是因为它太笨，而是它太通用。没有判断力，也没有判断边界。你让它做决定，它只会给你一种模糊的中等答案。

你以为你找了个助理，结果来的是个不会说不的临时工。

第二节｜品味不是审美，是标准

Amjad 说：你不能指望基础模型自带品味。

这里的“品味”，不是设计风格，也不是代码偏好，而是一套让模型交出可用结果的机制。

如果只用模型的默认输出，结果只会是一堆雷同的内容，和市面上其他产品没什么区别。

那 Replit 怎么做的？

第一步，给模型定规矩。

Replit 为不同类型的 App 准备了提示模板。做电商的用电商的结构，做内容的用内容的逻辑。不是让模型自由发挥，而是事先定好框架，让生成内容符合业务需求。

第二步，限定答案范围。

它不在整个互联网上随便找资料，而是从自己整理好的内容库里查。用的都是提前分类标记过的数据。这样至少能保证，每次调用的信息是可信的。

第三步，舍得花资源。

Replit 选择了不走快路。每次生成内容的长度更长，查询更深，结构更细。哪怕过程更慢，成本更高。Amjad 的态度很明确：App 贵一点、慢一点，但能用。

这套做法背后的逻辑很简单：

生成内容，不等于完成任务。

他要的是结果能被真实用户用起来，而不是模型做了什么。

所以，他对“品味”的定义，不是一种感觉，而是三个实际动作：

先定好什么算完成
只让模型在靠谱的范围里找答案
愿意为质量多花成本

如果说大模型是原材料，Replit 给它加了三层把关：标准、范围、成本。把那些差不多就行的模糊输出，一层层卡住。

这就是 Amjad 说的品味：不是审美，而是让结果有标准、可追溯、有保障。

第三节｜Replit 的 Agent 为什么能交付？

有了标准，还得有人盯着。

一个 Agent 能不能用，核心不是它能不能生成内容，而是它能不能检查自己做得对不对。但大多数 Agent 做不到这一点。

大多数 Agent 只负责写，不负责看结果。它生成完代码、文档或操作指令，就直接停了。至于能不能执行、有没有问题，它自己并不知道。

Replit 最大的不同，是它让 Agent 具备了自测能力。

怎么做的？Amjad 讲了个简单但有效的办法：给每个编码 Agent 配一个测试 Agent。前者写，后者查。测试 Agent 会像用户一样打开网页、点按钮、读输出。不是看代码，而是实际操作一遍，看页面能不能正常跑、会不会崩溃、有没有做完。

如果发现问题，它会把反馈丢给主 Agent。主 Agent 改完再测，直到通过。

这套机制不靠聪明，靠的是流程。

而且 Replit 用的是两个不同模型。一个写，一个测。为什么？因为一个模型容易自圆其说，两个模型互相挑战，才更可能发现问题。

这就是 Replit 真正能用的原因：它不是生成一次，而是完成一轮。从写得出到用得上，中间差了至少一层验证。

Amjad 强调：

“我们是唯一一个让 Agent 测试自己工作成果的氛围编码平台。”

更关键的是：Replit 给了用户一个回滚机制。如果整个流程出错，点一下就能回到任务开始前的状态。代码、数据库、界面，全都恢复。

为什么这么重要？

因为 Agent 的风险不在于它不会写，而在于它出错时没人知道。如果没有验证机制，也没有回退手段，它可能一边出错，一边还在自信地推进任务。

所以 Amjad 把验收机制做成了 Agent 交付链的一部分。你不是在试一个 Agent，而是在用一整条“写—测—改—通过—上线”的闭环。

关键不是能做，而是能做对。

第四节｜模型人人都能买，基础设施买不到

很多人以为，Agent 的效果好不好，关键在用什么模型。

Replit 也接了最强的模型：Claude 做主任务，Gemini 3 搜代码，GPT-5辅助对话。但 Amjad 认为：模型大家都能买，差别从来不在这。

真正的差距，在于有没有能力把模型用得对。

这就要讲到一个容易被忽视的事实：Replit 本质上不是一家 AI 公司，而是一家基础设施（ AI Infra）公司。

举个例子，你在 Replit 的 Agent 里让它写一个 App，它会在几秒钟里开启一整套工作环境：

启动一个新的沙盒，让模型在里头自由写代码、搭接口、连数据库
写完后，测试 Agent 会复制一份环境来点按钮、验证结果
如果失败，这个环境可以一键回到最初，不留残痕

这套流程背后，其实非常复杂：

秒级生成虚拟环境
数据库读写隔离，避免测试阶段误删真实数据
操作系统级的文件追踪和还原机制

而这些，大多数 Agent 工具都不具备。

Amjad 特别提到：他们用了四年打磨底层文件系统，才让环境支持这么快的创建、回滚、合并。这背后是 Copy-on-write（写时复制）架构。每次操作都是带记忆的副本，随时可以清理或还原。

这套能力不是模型能学出来的，也不是提示词能写出来的，必须靠工程团队一点点构建。

这就是基础设施的价值。

一套真正能用的 Agent，必须靠这些东西托着：模型有分工、验证有环境、产品从一开始就为交付而设计。

Replit 不靠模型差异取胜，靠的是先把基础设施搭好了。别人还在讨论怎么让 Agent 输出内容，Replit 的 Agent 已经完成了写、测、改、复原、上线这整套流程。

差的不是模型，是工程。

结语｜分水岭不是 AGI，是工程能力

模型越来越强，Agent 却不好用。

不是技术不行，而是没人负责交付。

Replit 没靠新模型出圈，而是靠写完要测、测完能回退、生成有标准。

Amjad 说不能等路线图，因为你得提前把基础打好，才能抓住模型突破的那一刻。

这套能力，说到底就两个字：品味。

它不是风格，而是底线。不是灵感，而是规矩。

识自AI

本文由AI深度研究院出品，内容整理自 Replit CEO Amjad Masad 在 VentureBeat 访谈等网上公开素材，包含翻译、提炼与分析。内容为合理引述与观点延伸，非原文逐字翻译。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=7i7A-Y4EMgQ

https://venturebeat.com/infrastructure/why-ai-feels-generic-replit-ceo-on-slop-toys-and-the-missing-ingredient-of

https://venturebeat.com/infrastructure/new-test-time-training-method-lets-ai-keep-learning-without-exploding?utm_source=chatgpt.com

https://www.youtube.com/shorts/21f7Ml1XFuU?utm_source=chatgpt.com

来源：官方媒体/网络新闻，

排版：Atlas

编辑：深思

主编：图灵

企业 Agent 为何多半是玩具？差的不是模型，是品味

热搜

热门跟贴

热搜

热门跟贴

相关推荐

智能Agent如何改造传统工作流：从搜索到全能助手-青否AI Agent！

50人的工厂装上机器人，只剩下厂长自己，一时分不清是好是坏！

在高维生物面前，再发达也是玩具

就一个玩具，少东家别抢了

三百六十行，行行出状元！卖的不是玩具，是手艺

真正的零公差和虚假的零公差，对比一下亮点

收手吧！“资本家的丑孩子”没颜值没才华，就别出来霍霍观众了

大头不是顶尖的，但是一个有特点的，招人稀罕有点萌蠢在身！

给大模型排名次，两个博士一年干出120亿独角兽

重新定义「失败产品」：5个反常识认知，避开产品打造的“坑”

为一个杯子开14次会，却在汽车上用手机芯片，这就是高品质？

开始还以为是模型，开机后真是惊喜了

工业齿轮的质感，每一个细节都值得细细品味

小伙算是把职场，玩明白了

打包方式挺小众！

买家秀vs卖家秀，先得有那身材再买，买前就先照照镜子！

老板画大饼不如你！

让两个大模型在线吵架，跑通全网95%科研代码｜深势Deploy-Master

为什么是这10个词，定义了2025年AI叙事

DeepSeek最新论文：直指Transformer要害，让AI学会翻“字典”了