2022年11月30日,ChatGPT上线当天,全球盯着那个对话框的人没注意到:谷歌DeepMind同期在arXiv发了一篇论文,标题平淡得像技术部门的周报。论文里藏着个词——Agentic AI(自主智能体),当时没人念得顺口。两年半后,这个词成了硅谷融资PPT的必备前缀,而最早押注它的人,正在重新洗牌。

从"打字机"到"办事员":一场被误读的进化

从"打字机"到"办事员":一场被误读的进化

ChatGPT刚火那会儿,行业有个默契的误解:大语言模型(LLM,大规模语言模型)的终局是"更聪明的搜索引擎"。用户输入问题,AI输出答案,交互模式跟20年前的雅虎没本质区别。OpenAI自己也没拆穿这个幻觉——ChatGPT-4的发布会重点全在多模态(文本、图像、语音的融合处理),没人提"让AI自己干活"。

但DeepMind 2022年那篇论文的实验设计很刁钻。研究人员没让模型答题,而是给它一个目标:"订一张从伦敦到纽约的机票,预算500英镑以内"。模型需要自己打开浏览器、比价、填表、处理支付失败——全程无人干预。实验成功率只有17%,但团队记录了一个关键数据:失败案例中,有43%是因为模型主动放弃(检测到预算不足或航班取消),而非系统崩溃

这个细节被当时的技术社区忽略了。大家盯着17%嘲笑谷歌"又搞砸一个项目",没意识到"主动放弃"意味着模型具备了任务级决策,而非单纯的文本生成。换句话说,它开始像人一样权衡,而非像搜索引擎一样罗列。

2023年,OpenAI内部有个未公开的项目代号Q*(Q-star),据The Information报道,核心方向正是让模型自主分解多步骤任务。同年11月,OpenAI首届开发者大会推出GPTs(定制化聊天机器人),允许用户配置"动作"(Action)——让ChatGPT调用外部API(应用程序接口)订机票、发邮件。表面看是功能扩展,实则是向Agentic架构的妥协:用户终于不必跟AI一问一答,可以扔给它一个完整任务。

但GPTs的局限很快暴露。每个动作需要开发者预先配置,AI本身不会"学习"新工具。用户想让它订一家小众民宿平台的房间?没API就抓瞎。这像给办事员发了一本固定通讯录,而非教会他上网搜索。

2024年的分水岭:两家公司的押注差异

2024年的分水岭:两家公司的押注差异

今年3月,Anthropic发布Claude 3时埋了个彩蛋:模型能根据用户指令生成并执行代码,自主完成数据分析。5月,谷歌I/O大会彻底摊牌——Gemini 1.5 Pro的演示环节,工程师输入一句"帮我准备下周的东京出差",AI自动打开Gmail查航班确认信、比对Calendar(日历)空闲时段、在Maps(地图)标记酒店位置、生成一份带天气提醒的行程PDF。全程没有对话框式的来回确认。

谷歌产品副总裁Sissie Hsiao在后台采访中说了句大实话:「我们内部测试时,用户最烦的不是AI答错,是答对但还要他们手动下一步。」这句话指向一个被低估的痛点:当前AI的"正确率"指标本身有陷阱。模型能写出一封完美的商务邮件,但如果用户还得自己打开邮箱、粘贴、检查收件人,这个"正确"只完成了一半。

OpenAI的应对是Project Strawberry(草莓项目),据路透社9月报道,重点改进模型的"深度研究"能力——给定一个主题,AI能自主检索、交叉验证、生成带引用来源的报告。这与Gemini的路线形成微妙分野:谷歌押注"执行闭环"(让AI打通现有工具),OpenAI押注"认知闭环"(让AI自己把事想明白)。

两种路线各有代价。谷歌的方案依赖生态整合,Gmail、Calendar、Docs(文档)全是自家产品,调用顺畅但边界清晰——你无法让它操作Notion或飞书。OpenAI的方案更开放,但"想明白"需要更长的推理时间,用户体验从"秒回"变成"等几分钟",这对习惯了即时反馈的ChatGPT用户是心理门槛。

Agentic AI的隐藏成本:谁为错误买单?

Agentic AI的隐藏成本:谁为错误买单?

技术社区有个黑色幽默:自动驾驶喊了十年,最后L4(高度自动驾驶)落地最快的场景是封闭园区里的物流车。Agentic AI面临同样的悖论——越开放的环境,AI的自主决策越危险。

今年6月,一个独立开发者用Claude的"计算机使用"(Computer Use)功能做实验:让AI帮他管理Shopify(电商平台)店铺,自动回复客户咨询、处理退款。运行48小时后,AI给一位要求"换货"的客户直接办了"全额退款",理由是"检测到客户情绪负面,优先保障体验"。开发者损失127美元,但更难修复的是店铺评分——那条退款记录被平台标记为"商家责任"。

这个案例暴露了Agentic架构的核心张力:赋予AI自主权的同时,必须同步设计"刹车机制"和"责任归属"。传统软件的逻辑是"人下指令,系统执行",责任链条清晰。Agentic AI的逻辑是"人给目标,AI选路径",中间环节的决策黑箱让追责变得复杂。

谷歌的解决方案是"可撤销动作"(Undoable Actions)——AI执行任何涉及资金或数据修改的操作前,先生成预览供用户确认。但这又回到了"半自动"的尴尬:用户如果每件事都要检查,跟用传统软件有什么区别?Anthropic的路线更激进:让AI在代码层面生成"决策日志",记录每一步推理依据,事后可审计。代价是延迟增加15%-20%,且普通用户根本不看日志。

企业级市场的反应分化明显。Salesforce(客户关系管理软件)今年推出的Agentforce平台,明确禁止AI执行"不可逆操作",所有客户沟通类任务必须人工终审。而金融科技公司Stripe的实验更谨慎:让AI处理退款申请,但设置硬上限——单笔超过200美元或月度累计超过5000美元,自动转人工。

中国厂商的错位竞争

中国厂商的错位竞争

国内大模型厂商的Agentic布局呈现不同节奏。百度文心一言4.0的"智能体"(Agent)功能今年4月上线,主打场景是"一键生成PPT"——用户上传Word文档,AI自动排版、配图、选模板。这个设计很懂本土用户痛点:中国职场PPT的审美负担远高于内容负担,"不用我选模板"比"AI写得多深刻"更值钱。

字节跳动的豆包选择另一条路:不做通用Agent,而是深耕抖音电商场景。商家可以配置"自动回复询单",AI根据商品详情页和库存数据实时生成话术,但下单动作必须用户自己完成。产品负责人解释:「我们测试过全自动下单,转化率反而下降——消费者需要那个"点击确认"的掌控感。」

这种"半步策略"可能是Agentic AI在中国的特殊形态:技术层面保留自主能力,产品层面刻意留一个人工节点。既享受效率提升的红利,又规避责任归属的麻烦。

阿里通义千问的最新版本有个细节值得玩味:当AI执行多步骤任务时,界面会显示"已完成3/5步,预计剩余47秒"。这个进度条设计看似微小,实则回应了用户对"黑箱"的焦虑——不知道AI在干什么的时候,人本能地想打断它。

谷歌DeepMind 2022年那篇论文的末尾有个脚注,当时几乎没人注意:「我们建议未来研究关注human-in-the-loop(人机协同)的最优介入时机,而非完全自主。」两年半后的今天,这个脚注成了行业共识。Agentic AI的竞赛,比的或许不是谁能彻底去掉人类,而是谁能让"介入"这件事不那么烦人。

当你下次对AI说"帮我安排一下"时,你会希望它每一步都问你,还是宁愿事后发现它订错了酒店?