文:任泽平团队
比尔盖茨曾断言 “Agent将是未来计算机交互史上最大的革命”。如果说ChatGPT等生成式AI是博学的军师,AI Agent将是最有力的执行者。它不再是一个AI聊天框,而是拥有了“数字手脚”,能直接操控App和浏览器、鼠标和键盘,替你直接一键到底的完成复杂工作,采购、订票、报销……正如英伟达黄仁勋所言,我们正在跨越生成式AI,迈向AI Agent的新纪元。
这场革命的核心在于行动力。Agent不再局限于生成文本,而是通过“大脑规划+工具调用+记忆经验”,接管了数字世界的繁琐流程。你只需定义目标,AI Agent会自动拆解步骤、穿透各应用,帮你把事办成。无论是OpenAI发布的Operator、还是谷歌Jarvis接管Chrome、微软推出的Windows 365 for Agents,大厂们正掀起一场关于超级入口的卡位战。中国企业Manus与Meta的天价收购传闻,更是引爆了这场Agent军备竞赛。
然而,Agent若要成为新基建,必须解决“书同文,车同轨”的标准问题。MCP协议应运而生,作为AI时代的“Type-C接口”,它让大模型能像插U盘一样即插即用;配合谷歌提出的A2A协议,硅基世界正在形成一个互联互通的AI Agent联盟。
但落地的最大阻碍并不仅是技术,还有利益重构。字节的豆包手机遭遇的生态围剿,这就是AI Agent和App之间的利益矛盾体现。这是一场关于AI时代的流量、数据与入口主权之战。未来,AI Agent将重塑流量世界、过去互联网时代的很多商业模式将被改写。
1、什么是AI Agent:它让未来生活发生哪些改变?
首先,我们要明白,什么是AI Agent?简单来说,如果之前的ChatGPT、Deepseek是AI军师,负责帮你出主意、跟你对话;那Agent就是执行官,它不仅有脑子,还长出了“手”和“脚”,能真正用自动化的AI能力帮你把事情办好。
AI Agent到底有多强?看看这些正在发生的例子:
比如,阿里通义千问AI,里面聚合了生活服务Agent:你只需要对它说一句“帮我点杯拿铁”,它就能自己打开淘宝闪购,选好店、下好单,甚至能利用你的历史偏好决定加不加糖。它不再是给你返回一堆文字链接,而是直接交付一个下单成功的结果。
2025年末推出的第一代豆包手机,这是系统级Agent:在豆包的手机终端里,AI拥有了跨APP的权限。你想订票、发微信、查地图,理论上是不需要在一个个APP之间来回跳转。你下达指令,Agent就在后台自动调度各个APP帮你完成,APP之间的墙被推倒了。
再比如浏览器Agent,Google推出的Jarvis,可以直接接管你的Chrome浏览器。如果想订一张机票,它能自动打开网页、搜索航班、比价、甚至填写乘客信息,帮你搞定所有繁琐的网页操作。
如果说生成式AI比如ChatGPT、DeepSeek是让我们看到AI的“博学”,那么代理式AI Agent则让我们看到AI的“能干”。这是AI发展的新浪潮,也是AI能真正未来普惠每一个人的超级应用。
在2025年的GTC大会上,黄仁勋提出了著名的AI四阶段论:第一个阶段是让机器能听能看的“感知AI”,第二阶段是能写诗作画的“生成式AI”,现在我们正跨入第三阶段——“代理式AI”,这就是Agent,而终局则是“具身智能AI”。
按OpenAI的定义,Agent是具备高度独立性、能代表用户使用工具完成任务的系统,它的核心区别在于“行动力”,不再是一个只会陪你聊天的“大脑”,而是长出了“手脚”。生成式AI生成的是内容,而Agent生成的是行动。
Claude认为:Agent是大模型学会了使用工具,能够动态规划流程,独立完成任务。
比尔盖茨更是断言:Agent将是继Windows之后,计算机交互史上最大的革命,它将彻底改变由于APP造成的数据孤岛。
AI Agent是从“对话AI”到“干活AI”的本质跃迁,Agent工作过程分为三个阶段:
1、大脑+规划:它能像人类一样运用思维链,把一个复杂目标,比如如“帮我策划并预定一次旅行”拆解为查机票、比价、订酒店、做攻略等一连串步骤。在任务后,还能反思与自我批判,完成“规划-行动后反思-优化”的循环。
2、手脚+工具:它不再局限于生成文本,而是能调用外部工具,比如它能打开浏览器搜索最新信息,能调用计算器算账,能调用代码解释器跑程序,甚至能直接操控你的日历和订票系统。
3、记忆+经验:Agent有长期记忆,长期记忆负责存储那些需要跨任务、跨会话持久化保存的信息,例如用户的基本信息、偏好、过往的重要交互记录,以及Agent从任务中总结出的知识和经验等;Agent还有短期记忆,能记住当前的任务进度。因此能够相互参考作出对用户最有利的抉择。
未来的世界,当Agent接管一切,每个人都将拥有一个乃至一支Agent团队。Agent将AI装进负责的操作系统和软件里,接管数字世界的繁琐流程。用户不再需要学习如何使用复杂的软件,你只需要告诉你的Agent:“帮我搞定这件事”。
未来的可能的三大改变:
第一个构想是,APP后台化、部分App会消失、APP的流量广告等商业模式面临重构。在未来有了Agent,手机屏幕上可能不再有密密麻麻的图标,打车时不需要寻找滴滴、Uber,直接告诉Agent要去哪里,约什么类型的车, Agent会在后台瞬间唤醒各个出行APP的接口,自动完成比价、下单、支付。APP不再是争夺你注意力的前台,而退化为提供服务能力的后台,现在App们的商业模式也将面临改变。
第二构想是,Agent替代传统操作系统、操作系统拟人化。未来的操作系统不再是冷冰冰的,而是一个全知全能的硅基管家。系统读得懂你的一切。早上Agent根据你的日程和路况,自动调整了闹钟,并让咖啡机提前准备好。工作时候它监测到你在写的内容,自动从后台数据库里调取了数据,帮你做好图表。Agent还能记住了朋友的生日,自动在鲜花电商下单。人不再用去学习怎么点击系统,而是完全的系统服务于人,Agent来猜你的意图。
第三个构想是,人类角色的终极转变。当Agent能以高成功率搞定所有时,人类的价值将被重新定义。 我们不再需要做PPT美化、不需要亲自比价……人类唯一剩下的工作就是决策和审美。人类需要告诉Agent做什么,并判断它做出的结果好不好。 这是一个超级个体的时代:一个人,加上一支不知疲倦的Agent团队,其生产力将超过过去的一家公司。
2、行业格局:Manus掀起“鲶鱼效应”,引爆Agent卡位战
2026年初,全球科技圈最大的新闻是Meta拟以数百亿美元天价收购Manus。
为什么扎克伯格要买?Meta也焦虑了。Meta拥有大模型Llama,但缺乏一个能直接触达用户、替用户解决复杂任务的超级入口。Manus展现出的通用任务规划能力,恰恰是Meta的AI 拼图中缺失的最关键一环。这证明了中国AI企业在产品力、工程化能力上,已经具备了全球竞争力。
Manus的爆火和Meta的动作,代表一场针对AI Agent的卡位战开启:
OpenAI推出Operator的系统级Agent。2026年1月24日,OpenAI正式发布Operator,OpenAI首席技术官认为“理解世界只是第一步,与之互动才是真正的智能。” Operator基于最新的多模态模型+强化学习技术。它能像人类一样看着屏幕,理解网页结构,点击按钮,填写表单,在处理预订航班、电商购物等复杂多步骤任务时,成功率已达70%。
微软推出的是Windows 365 for Agents。一是推出智能体控制平台Agent 365,帮助用户管理智能体。二是推出了一个具备记忆用户偏好和工作流程的智能层Work IQ,可用于预测用户行动并推荐智能体应用,还支持基于个人特征定制智能体。
与其他家做2C产品不同,Anthropic专注于底层的“Computer Use”能力,也就是计算机操作能力。它把自己定位为基础设施提供商,向全球开发者出售“让AI操作电脑”的API。现在很多创业Agent,底层调用的都是Claude的能力。
谷歌推出的Project Jarvis,一个直接接管Chrome浏览器的超级Agent。它能帮你完成网页上的操作——订票、购物、填表。还有在安卓生态,谷歌正在将Gemini Nano植入安卓底层。逻辑是只要守住谷歌浏览器和安卓入口,就守住了Agent时代的必要通道。
还有马斯克的Grok,未来可能演变成驱动物理世界的Agent平台。马斯克正在把Grok装进特斯拉汽车和Optimus机器人里。当其他Agent还在帮你操作电脑时,Grok可能已经操控Optimus帮用户倒咖啡了,这是这场Agent竞赛中最大的变量。
国内大厂也纷纷布局Agent领域。
字节将重心放在平台化工具“扣子空间”上,强调将各行各业的专业知识封装成可复用的Agent Skills。其核心目标是构建一个技能生态市场,让开发者和企业来创造价值。这有点像是为未来的“AI应用商店”做准备。此外,字节和中兴通讯合作推出豆包手机,试图在手机操作层面基于Agent权限,但是迅速被微信、淘宝等软件反制。
阿里的优势在于其庞大且成熟的商业与生活服务生态。阿里千问App的策略是将自身打造成一个智能调度中枢,通过AI直接调用和串联淘系电商、本地生活、支付、出行等后端服务。这是最直接、最能体现Agent“帮你办事”价值的路径,但其服务范围深度绑定阿里生态。
百度结合其百度网盘、和百度文库的既有优势,将智能体定位为“超级个人助手”。其关键在于利用GenFlow的记忆中心和调度能力,深度结合用户的个人数据和习惯,提供高度个性化的服务。这条路避开了与电商和生活服务的正面竞争,专注于个人知识管理与生产力提升。
3、技术趋势:AI Agent的标准之争,MCP与A2A是硅基世界的“书同文,车同轨”
AI Agent虽然强大,但如果它不能顺畅地调用外部工具,它就只是一个聪明的哑巴。过去,让AI接入一个工具,比如日历或地图,开发者要写专门的代码,像是一把钥匙开一把锁,效率极低。现在,行业正在发生一场决定性的革命——协议标准化。这是AI时代的“书同文,车同轨”、统一度量衡。
第一大技术趋势是,MCP协议。这是AI时代的Type-C接口,实现即插即用。Type-C接口出现之前,我们出门要带好几根线,甚至不同品牌的手机充电器都不通用,这是极大的资源浪费。AI开发也一样,过去每个APP的接口都不一样。
2024年底,Anthropic提出了MCP协议,就是Model Context Protocol,终结了混乱,它就是AI世界的Type-C接口。有了MCP,大模型与外部工具之间建立了一套通用语言。开发者不需要再为每个工具重复造轮子。只要你的日历、地图、支付等支持MCP,任何大模型都能像插U盘一样,即插即用,秒级调用。
虽然由 Anthropic 发起,但MCP被设计为一个开放标准。至2026年初,MCP已成为行业通用的连接标准。MCP已正式加入Linux基金会旗下的Agentic AI Foundation (AAIF),由社区共同治理,以确保其透明度和中立性。不仅是 Anthropic的Claude,OpenAI、Google DeepMind等主要 AI以及 Cloudflare、GitHub 等技术巨头均已支持该协议,MCP已演变为AI资源连接的通用方法。开发者的魔搭社区上迅速涌现了近几千个MCP服务,这意味着,AI Agent瞬间拥有了几千种新技能。
一个实际使用案例:过去企业的产品文档可能写在Notion里,开发进度跑在Linear里,代码存在GitHub上,这三个系统是割裂的,员工每天要在三个之间来回跳转。现在,用Claude为核心的MCP生态已经彻底打通了这一切。 只需要在Claud里配置好Notion和Linear的MCP Server,Claude就能像穿针引线一样,读完Notion的需求文档,自动去Linear创建任务卡片,并去GitHub拉取代码。对于硅谷的科技公司来说,MCP极大提升了AI Agent的效率。
另外一个案例:Coinbase推出了基于此技术的Agent Wallet智能体钱包,这意味着Agent不仅能帮你订票,还能直接调用加密钱包或信用卡接口,用USDC或美元完成支付。
国内支付宝、高德地图这些常用的应用,纷纷推出官方的MCP Server。此外,百度文库、百度网盘、百度地图等应用也对外提供MCP Server服务。
第二大技术趋势是,A2A协议。
谷歌在2025年4月提出的A2A(Agent-to-Agent)协议,解决了“机机交互”的协作问题。 未来的互联网,不再是APP的群岛,而是Agent的联盟。通过A2A协议,我们的旅行助理Agent可以直接跟航空公司的订票Agent对话,跟酒店的客服Agent砍价。它们之间不需要人类传话,直接在后台通过标准协议完成商业博弈。
这两大协议的建立,标志着Agent AI正式迈入了标准化时代。
4、未来展望:Agent落地的最大难点是什么?如何克服?
Agent落地的最大难点,其实不仅是技术,还有利益。 Agent试图建立一套新的交互范式:用户只对Agent下令,Agent直接调度所有APP。这听起来很美好,但Agent动了所有互联网巨头的蛋糕——它试图绕过APP的界面,直接用其底层服务。这意味着:广告没了、用户停留时长没了、精准营销失效了。
因此,Agent和软件平台之间就有了激烈的竞争关系,关乎数据、流量和用户入口控制权。未来大家选择Agent还是APP?这是一次数字世界的权力重构。APP们正在捍卫自己的主权。
2025年12月,字节跳动与中兴推出搭载豆包手机助手的努比亚M153,这款手机试图在操作系统层面直接布局Agent,通过读取屏幕和模拟点击,绕过API,直接操控APP。理想情况下,用户只需说一句“帮我订去高铁和接站的网约车”,豆包助手就能像真人一样,自动打开12306和打车软件,行云流水地完成搜索、比价、下单。3000台样机瞬间售罄,市场为之沸腾。但仅仅几天后,这场技术狂欢就被现实生态打破。微信提示“登录环境异常”,强制下线,淘宝和闲鱼疯狂弹出滑动验证,拒绝AI访问。银行APP判定环境高风险,中止支付。一时间,这台Agent手机的核心功能几乎寸步难行。在没有达成利益共识之前,通用Agent,或许会被现实撞得头破血流。
这就是为什么字节和阿里同样布局Agent,却有不一样的表现。因为字节手机冲击了跨厂商的各类APP,而相比之下,阿里千问依托阿里自有生态,接入淘宝、支付宝、淘宝闪购、飞猪、高德等业务,其本质是将集团内部分散的业务入口,通过AI Agent重构为一个统一、高效、更智能的AI新入口,不直接冲击到第三方厂商的利益。
展望未来,Agent的落地,远非单纯的技术模型竞争,更是生态整合、商业协议设计、复杂利益协调的考量。
一种可能的解法是:“Service-as-an-API”,也就是服务即接口模式的诞生。比如未来的App们主动推出“Agent专用付费接口”。当平台型Agent助手调用时,每达成一笔交易,会向Agent收取一笔更高比例的技术服务费,类似现在的“苹果税”,未来叫“Agent税”。当然,这样一来,APP或许会退化为纯粹的服务供应商,不再追求用户时长,转而追求单位时间内的交易并发量。未来世界的商业逻辑和流量的逻辑变了,谁能高效服务Agent,谁就能赚钱。
2月5日(周四)晚七点,我将跟大家聊聊AI新趋势。
热门跟贴