全文 3,000字 | 阅读约 8 分钟
(Replit CEO Amjad Masad 访谈要点)
过去一年,AI Agent 在演示环节的表现越来越惊艳。
给它一个指令,代码自动生成,环境自动配置,产品几分钟就能上线。整个过程流畅到让人觉得,这技术已经可以替代一整个团队了。
但真正落地时,评价往往只有一句:看着挺好,用不起来。
Replit CEO Amjad Masad 最近在一场对谈中,用了一个词来评价今天的 Agent :玩具(toys)。看起来能干活,实际不稳定、做事靠运气、生成的东西都差不多。这类能生成但不可靠的内容,在业内有个统一称呼:slop(粗制滥造)。
问题不只出在模型本身。更大的问题是:没人教 Agent 什么叫“好”。
什么内容该保留
什么要删改
做到什么程度才算合格。
这些判断标准,模型学不到。所以 Masad 的答案不是换更大的模型,就两个字:品味(taste)。
要让平台更有主张,让 Agent 理解好的标准。
第一节|多数 Agent 都翻车,不是不聪明,是太通用
Amjad Masad 说:
当前,除了代码和客服,其他 Agent 基本都不靠谱。
不是因为模型能力不够,而是这些 Agent 本质上就是通用输出机器。你给一句模糊提示,它就随便输出一个看起来还行的通用答案。看起来像在完成任务,实际上只是勉强交差。
所有生成的内容看起来都差不多。UI 排布雷同,语言模板僵硬,代码风格也像流水线产品。
具体来说:
你让它做个营销活动规划,它会输出一个看起来还行的 Excel,但不懂品牌语调,也不清楚预算限制;
你让它写代码,它给你一段跑得通的函数,但没考虑企业自己的数据库结构;
它能查资料、能回复、能填表,但始终不清楚什么才算完成得好。
它缺的不是智能,是判断标准。
在企业内部,事情往往没那么标准化。数据是混乱的,流程是断的,权限是分散的。Agent 真正难的,不是生成内容,而是在一团乱麻里还能做出靠谱判断。
所以 Amjad 强调,
信息检索是聊天机器人,行动才是 Agent 。
也就是说,光会找信息不算 Agent,得能做决定、能判断结果。
大多数 Agent 一上生产就崩溃,不是因为它太笨,而是它太通用。没有判断力,也没有判断边界。你让它做决定,它只会给你一种模糊的中等答案。
你以为你找了个助理,结果来的是个不会说不的临时工。
第二节|品味不是审美,是标准
Amjad 说:你不能指望基础模型自带品味。
这里的“品味”,不是设计风格,也不是代码偏好,而是一套让模型交出可用结果的机制。
如果只用模型的默认输出,结果只会是一堆雷同的内容,和市面上其他产品没什么区别。
那 Replit 怎么做的?
第一步,给模型定规矩。
Replit 为不同类型的 App 准备了提示模板。做电商的用电商的结构,做内容的用内容的逻辑。不是让模型自由发挥,而是事先定好框架,让生成内容符合业务需求。
第二步,限定答案范围。
它不在整个互联网上随便找资料,而是从自己整理好的内容库里查。用的都是提前分类标记过的数据。这样至少能保证,每次调用的信息是可信的。
第三步,舍得花资源。
Replit 选择了不走快路。每次生成内容的长度更长,查询更深,结构更细。哪怕过程更慢,成本更高。Amjad 的态度很明确:App 贵一点、慢一点,但能用。
这套做法背后的逻辑很简单:
生成内容,不等于完成任务。
他要的是结果能被真实用户用起来,而不是模型做了什么。
所以,他对“品味”的定义,不是一种感觉,而是三个实际动作:
先定好什么算完成
只让模型在靠谱的范围里找答案
愿意为质量多花成本
如果说大模型是原材料,Replit 给它加了三层把关:标准、范围、成本。把那些差不多就行的模糊输出,一层层卡住。
这就是 Amjad 说的品味:不是审美,而是让结果有标准、可追溯、有保障。
第三节|Replit 的 Agent 为什么能交付?
有了标准,还得有人盯着。
一个 Agent 能不能用,核心不是它能不能生成内容,而是它能不能检查自己做得对不对。但大多数 Agent 做不到这一点。
大多数 Agent 只负责写,不负责看结果。它生成完代码、文档或操作指令,就直接停了。至于能不能执行、有没有问题,它自己并不知道。
Replit 最大的不同,是它让 Agent 具备了自测能力。
怎么做的?Amjad 讲了个简单但有效的办法:给每个编码 Agent 配一个测试 Agent。前者写,后者查。测试 Agent 会像用户一样打开网页、点按钮、读输出。不是看代码,而是实际操作一遍,看页面能不能正常跑、会不会崩溃、有没有做完。
如果发现问题,它会把反馈丢给主 Agent。主 Agent 改完再测,直到通过。
这套机制不靠聪明,靠的是流程。
而且 Replit 用的是两个不同模型。一个写,一个测。为什么?因为一个模型容易自圆其说,两个模型互相挑战,才更可能发现问题。
这就是 Replit 真正能用的原因:它不是生成一次,而是完成一轮。从写得出到用得上,中间差了至少一层验证。
Amjad 强调:
“我们是唯一一个让 Agent 测试自己工作成果的氛围编码平台。”
更关键的是:Replit 给了用户一个回滚机制。如果整个流程出错,点一下就能回到任务开始前的状态。代码、数据库、界面,全都恢复。
为什么这么重要?
因为 Agent 的风险不在于它不会写,而在于它出错时没人知道。如果没有验证机制,也没有回退手段,它可能一边出错,一边还在自信地推进任务。
所以 Amjad 把验收机制做成了 Agent 交付链的一部分。你不是在试一个 Agent,而是在用一整条“写—测—改—通过—上线”的闭环。
关键不是能做,而是能做对。
第四节|模型人人都能买,基础设施买不到
很多人以为,Agent 的效果好不好,关键在用什么模型。
Replit 也接了最强的模型:Claude 做主任务,Gemini 3 搜代码,GPT-5辅助对话。但 Amjad 认为:模型大家都能买,差别从来不在这。
真正的差距,在于有没有能力把模型用得对。
这就要讲到一个容易被忽视的事实:Replit 本质上不是一家 AI 公司,而是一家基础设施( AI Infra)公司。
举个例子,你在 Replit 的 Agent 里让它写一个 App,它会在几秒钟里开启一整套工作环境:
启动一个新的沙盒,让模型在里头自由写代码、搭接口、连数据库
写完后,测试 Agent 会复制一份环境来点按钮、验证结果
如果失败,这个环境可以一键回到最初,不留残痕
这套流程背后,其实非常复杂:
秒级生成虚拟环境
数据库读写隔离,避免测试阶段误删真实数据
操作系统级的文件追踪和还原机制
而这些,大多数 Agent 工具都不具备。
Amjad 特别提到:他们用了四年打磨底层文件系统,才让环境支持这么快的创建、回滚、合并。这背后是 Copy-on-write(写时复制)架构。每次操作都是带记忆的副本,随时可以清理或还原。
这套能力不是模型能学出来的,也不是提示词能写出来的,必须靠工程团队一点点构建。
这就是基础设施的价值。
一套真正能用的 Agent,必须靠这些东西托着:模型有分工、验证有环境、产品从一开始就为交付而设计。
Replit 不靠模型差异取胜,靠的是先把基础设施搭好了。别人还在讨论怎么让 Agent 输出内容,Replit 的 Agent 已经完成了写、测、改、复原、上线这整套流程。
差的不是模型,是工程。
结语|分水岭不是 AGI,是工程能力
模型越来越强,Agent 却不好用。
不是技术不行,而是没人负责交付。
Replit 没靠新模型出圈,而是靠写完要测、测完能回退、生成有标准。
Amjad 说不能等路线图,因为你得提前把基础打好,才能抓住模型突破的那一刻。
这套能力,说到底就两个字:品味。
它不是风格,而是底线。不是灵感,而是规矩。
识自AI
本文由AI深度研究院出品,内容整理自 Replit CEO Amjad Masad 在 VentureBeat 访谈等网上公开素材,包含翻译、提炼与分析。内容为合理引述与观点延伸,非原文逐字翻译。未经授权,不得转载。
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
https://www.youtube.com/watch?v=7i7A-Y4EMgQ
https://venturebeat.com/infrastructure/why-ai-feels-generic-replit-ceo-on-slop-toys-and-the-missing-ingredient-of
https://venturebeat.com/infrastructure/new-test-time-training-method-lets-ai-keep-learning-without-exploding?utm_source=chatgpt.com
https://www.youtube.com/shorts/21f7Ml1XFuU?utm_source=chatgpt.com
来源:官方媒体/网络新闻,
排版:Atlas
编辑:深思
主编:图灵
热门跟贴