文:泽平宏观团队

人工智能AI 应用边界与能力范畴极大拓展,从在图像识别和语音识别中大放异彩的感知AI,到近年来能够生成文本、图片等各类内容的生成式AI。当前,Deepseek、ChatGPT等大语言模型已经深刻改变了人们获取信息的习惯,从通过检索找答案到问大模型要答案。

然而,尽管大语言模型拥有聪明的大脑,擅长提供信息和建议,但它却缺乏执行能力,无法将想法付诸实践。

Agent的出现,就是要打破这一局限。按照Anthropic官网的定义,Agent是让大语言模型动态掌控工具使用方式的系统,可以自主决定如何完成任务。也就是说,要大模型能自主使用工具,自主执行任务,实现从“对话AI”到“干活AI”的转变。

目前Agent尚处起步期,离终极设想的功能还比较遥远,但是伴随着3月份Manus的空降事件,Agent的关注度也陡然提升。Agent这个新概念如何理解、为何成为新的AI浪潮?目前有哪些Agent产品,它们能实现什么功能?伴随Agent火起来的MCP协议又是怎么回事?Agent的出现未来又将如何重构软件生态?

正文

一、Agent核心理念:让大模型使用工具、拔高大模型的生产力

Agent直译为“代理”,按OpenAI的说法,是能独立代表使用者完成任务的系统。相比于被视为知识库的大模型,Agent更像一个行动者,它在用户授权下以高度独立的方式编排工作流程、调用各类工具以执行工作流程,最终交付复杂任务。

调用外部工具,是Agent和当下DeepSeek、ChatGPT等大模型的最显著区别。生成式AI时代,大模型主要依靠其庞大的内部数据库回答用户问题。

进入Agent时代,大模型将不再局限于自身内部的数据,而是具备了调用外部工具的能力,变得更实用。

Agent并不脱离大模型存在,事实上它相当于大模型再往前走一步,本质就是让大模型使用工具,拔高大模型的生产力。这从Anthropic(Claude)对Agent的定义中可以清楚看出:Agent“是让大语言模型动态掌控工具使用方式的系统,可以自主决定如何完成任务”。而OpenAI前高管Lilian Weng则更一步地阐述了Agent的技术框架:Agent是由大模型驱动的自动化系统,系统以大模型为“大脑”,同时有三个关键部分:规划、记忆和工具使用。

规划:使用思维链,将总任务拆分成子任务;

记忆:具备长短记忆功能,用于反思和修正工作流;

工具使用:大模型调用各种外部工具,以完成任务。比如Web搜索、计算器、代码解释器、天气、地图、票务预订系统等等。

Agent标志着AI大模型从单纯的“对话AI”进化到“干活AI”。

按OpenAI在2024年提出的内部AGI设想路线,Agent属于AI大模型的L3级别。

二、Agent是人工智能发展的新浪潮,和具身智能一样,是未来的大趋势

2025年GTC大会上,黄仁勋提出自2012年深度学习革命开始以来,AI发展的会经历的四个阶段:感知AI、生成式AI、代理式AI(也即Agent)、具身AI。

首先是感知AI,这是人工智能的初始阶段,让机器能“看见”和“听见”,即具备计算机视觉和语音识别能力,如人脸识别、语音助手等应用。

接着是生成式AI,在过去3年里发展迅速,主要以内容生成为核心,能够创造文本、图像、视频等等。文本生成的普及度和使用率最高,以Deepseek、ChatGPT等大模型为代表,大大冲击了传统的检索式搜索引擎,让人们逐渐习惯了与大模型交互来获取知识。

代理式AI(也就是Agent)、具身AI则被认为是接下来的发展方向。人工智能发展必然要从“智慧”到“智能”,也就是让AI具备行动能力,这是发展Agent和具身AI的共同意义。具身AI聚焦于物理世界,把AI装在新能源汽车、人形机器人这样的物理实体上,让AI在物理世界中感知、理解和行动。而Agent则聚焦于计算机世界,给予AI调用软件工具的能力,让AI在计算机世界中执行工作任务。

三、Agent发展现状:Manus空降推动“通用Agent”爆火出圈,各家大厂正在加速布局中

从“对话AI”到“干活AI”的转变是必然趋势。这一趋势首先在专用领域落地,即专用Agent,最典型的是编程Agent,比如Devin、Cursor、Windsurf等。而Manus 3月的空降事件,则推动了通用Agent的爆火出圈。

2025年3月6日,由中国人工智能公司Monica开发的一款Agent产品“Manus”正式发布,宣称是“全球首款通用型AI助手”。Manus 定位于通用Agent,与专用Agent 不同,它能对多种复杂任务进行拆解并执行,不受限于特定领域或任务类型。在官网展示了几十个案例,包括旅行规划、股票分析、PPT制作等多种任务类型。

Manus当前定价高,在海外的落地步伐快于国内。基础版55美元/月,升级版则需279美元/月,已经超过OpenAI的Operator升级版200美元/月的定价3月28日,Manus AI 的移动APP版已在美区苹果App Store上线。而国内目前还没有产品上线,但已经在今年3月宣布与阿里通义千问达成战略合作,共同开发Manus中文版。

Manus团队表示“产品非常简单,没有秘密”,这也是Manus空降后引起争议的原因。尽管媒体大肆宣扬这是又一个“DeepSeek时刻”,但许多人认为Manus并不能和DeepSeek平齐,后者是国产大模型的创新与崛起,而Manus只是“套壳”,没有原创技术的突破,比如它并不自研基座模型,而是接入Anthropic的Claude 3.5 模型。Manus空降后,许多团队花了很短的时间便复刻了类Manus产品,比如OpenManus等等。然而毋庸置疑的是,Manus空降也有其独特的意义,那就是让通用Agent得到空前的关注度,事实上成了整个AI行业向“干活AI”方向发展的一股巨大推力。

在这股推力下,国内大厂开始加速布局通用Agent,赶早卡位,如字节跳动和百度。

4月18日,字节跳动网页端Agent产品“扣子空间”开启内测,定位为“用户与AI Agent协同办公的最佳场所”。基座大模型采用字节自研的豆包大模型,引入多款可调用工具,包括高德地图、飞书文档等等,提升实际交付能力。官网展示了许多用户分享的任务回放,包括制作网页、制作旅程攻略并在高德地图标注、制作歌曲、制作研究报告等等。

4月25日,百度移动端的通用Agent产品“心响App”正式发布,目前已在安卓全面上线。 采用Agent Use方案,可以自动调度百度自己和市面上所有第三方子智能体,以及各种内外部AI工具、应用和服务接口,提升任务完成度和匹配度。目前有十大任务场景:例行任务、城市旅游、AI相亲、AI绘本、摸鱼游戏、深度研究、法律咨询、健康咨询、智慧图表、试题讲解。百度心响App使用很方便,目前任何安卓用户都可以在手机应用市场进行下载体验。

四、Agent生态构建:MCP&A2A协议,未来大模型调用工具的能力将十分强大

4.1 MCP协议(Model Context Protocol):大模型和外部工具之间的“Type-C接口”

Agent核心就是让大模型调用工具,因此,未来Agent的表现将由两个因素决定:一是大模型本身推理和决策能力的进步;二是大模型接入和调用工具的便利性。

针对第二点,Anthropic(Claude)在2024年11月提出MCP协议,旨在为大模型和各种外部工具之间建立一个统一的连接标准。MCP协议极大简化了大模型接入外部工具的难度,让开发者不用为每个外部工具编写复杂的接口,“大模型+外部工具”开始步入“即插即用”时代。

MCP协议的意义在于,它相当于大模型和各种外部工具间的Type-C接口。

在Type-C出现前,电子设备接口有多种类型,不同设备采用不同接口,用户需要携带多种数据线,非常不方便。Type-C的出现,逐渐统一了众多设备的接口标准,无论是手机、平板、笔记本电脑,还是一些家用设备,都可以使用同一种数据线,大大减少了数据线的种类和数量,让设备间的连接变得简单高效。

类似的,MCP协议也简化了大模型和各种外部工具之间的连接。

传统上,要把大模型和外部工具连接起来,主要是通过使用针对该外部工具的API,也就是需要针对每个外部工具单独开发和维护接口,一把钥匙开一把锁。

有了MCP协议,只要每个外部工具都依照协议创造一个MCP服务器,大模型对外部工具就能现实“即插即用”,避免了开发者重复造轮子的问题。

可以说,MCP就像一座桥梁,衔接了大模型与各外部工具的交互。比如对于一个旅行规划Agent,如果使用API方法,开发者需要给日历、地图、航班预订等API分别编写独立的代码,每个API都需要为其定制身份验证、内容传递和错误处理的规则;但有了MCP协议,只要日历、地图、航班预定这些外部工具支持MCP协议,开发者就能非常简单的接入它们,之后大模型就能丝滑的进行调用。

毫无疑问,MCP协议的提出将在大模型时代向Agent时代的跨越中留下关键一笔。现下,MCP正在成为行业标准,以惊人的速度获得采纳:

越来越多的大模型厂商宣布支持MCP协议,海外的OpenAI、Google,国内的阿里、腾讯、字节、百度等。

同时,许多应用也开始进入MCP生态圈。

以魔搭社区为例,截至目前已经有超过2700个MCP Server,为开发者提供便利。

支付宝、高德地图这些常用的应用,纷纷推出官方的MCP Server。

今年4月,支付宝成为国内首家支持 MCP 协议的支付机构,Agent开发者现在可以通过支付宝的“支付MCP Server”轻松接入收单支付服务。

高德地图在今年3月发布MCP1.0,整合开放位置服务、地点信息搜索、路径规划、天气查询等12大核心接口,让用户在出行规划、位置信息检索场景下轻松获取即时信息。今年4月全面升级,发布MCP2.0版本,可一键将AI生成的攻略内容转化为专属地图,并可实现由攻略到一键导航、打车、订票。

百度对MCP的支持力度也很大。4月,李彦宏表示,MCP“为开发者在AI大爆发的时代提供了解决思路,让AI能够更自由地调用工具,是AI发展的一大步”,宣布帮助开发者全面拥抱MCP。目前百度的商品检索、商品交易、商品详情、商品参数对比、商品排行榜能力等也已经通过百度电商的MCP server对外提供,这是国内首家支持电商交易的MCP服务。此外,文库、网盘、地图等应用也全面对外提供MCP Server服务。

4.2 A2A(Agent-to-Agent Protocol):打破孤岛,让Agents之间互联互通

2025年4月,谷歌提出A2A协议,即Agent和Agent之间的标准化通信协议。谷歌将A2A协议定位成MCP协议的补充:MCP协议润滑大模型对外部工具的调用,A2A协议则润滑Agents之间的互联。

MCP+A2A,就能将Agent的能力范畴拓展到极致——对每个Agent而言,它不仅能轻易的接入和使用各种外部工具,而且能借助其他Agent的力量赋能。

A2A协议没有MCP出圈,但是据谷歌云官网,该协议的支持者数量也比较可观,目前有60家左右。

五、展望:通用Agent本质是一场范式革命,未来可能成为最大的流量分配中心,重构当前软件生态

通用Agent是交互范式的第三轮变革:从PC时代的桌面操作系统到移动互联网时代的超级应用,再到如今AI大模型时代的通用Agent。当前的软件生态可能会被颠覆,通用Agent或将重构整个数字世界的权力格局。

从技术逻辑看,传统软件生态是以功能为导向,用户需主动适应软件的固定模式来实现特定目标,而通用Agent以自主决策为特征,理解用户意图,自主调用各类工具(当然也包括各大软件)以交付任务。

未来,随着通用Agent的落地推开,流量分配权将逐渐向各个通用Agent产品集中。这意味着各大软件的竞争力将更多的取决于其服务能否被Agent精准认可和推荐,而非传统的用户粘性构建。

目前,通用Agent的生态并不完善。就像Perplexity CEO Aravind说的那样:“目前任何人声称2025年的Agents可以完全投入使用,都应该持怀疑态度。”这当然有技术层面的原因,比如大模型本身的推理决策能力要再一步提升,并且要降低幻觉问题。但是生态层面同样有很长的路要走,比如Aravind也表示过:目前没有其他方式能让 AI Agent同时控制多个应用,尤其是在 iOS 上,甚至无法访问其他应用,这是苹果生态的限制。未来Agent到底如何落地,流量分配、收费模式等等,非常值得期待。