AI Agent研究报告2025：AI交互革命——人工智能系列|agent|人工智能|大模型|语音识别|调用

文：泽平宏观团队

人工智能AI 应用边界与能力范畴极大拓展，从在图像识别和语音识别中大放异彩的感知AI，到近年来能够生成文本、图片等各类内容的生成式AI。当前，Deepseek、ChatGPT等大语言模型已经深刻改变了人们获取信息的习惯，从通过检索找答案到问大模型要答案。

然而，尽管大语言模型拥有聪明的大脑，擅长提供信息和建议，但它却缺乏执行能力，无法将想法付诸实践。

Agent的出现，就是要打破这一局限。按照Anthropic官网的定义，Agent是让大语言模型动态掌控工具使用方式的系统，可以自主决定如何完成任务。也就是说，要让大模型能自主使用工具，自主执行任务，实现从“对话AI”到“干活AI”的转变。

目前Agent尚处起步期，离终极设想的功能还比较遥远，但是伴随着3月份Manus的空降事件，Agent的关注度也陡然提升。Agent这个新概念如何理解、为何成为新的AI浪潮？目前有哪些Agent产品，它们能实现什么功能？伴随Agent火起来的MCP协议又是怎么回事？Agent的出现未来又将如何重构软件生态？

正文

一、Agent核心理念：让大模型使用工具、拔高大模型的生产力

Agent直译为“代理”，按OpenAI的说法，是能独立代表使用者完成任务的系统。相比于被视为知识库的大模型，Agent更像一个行动者，它在用户授权下以高度独立的方式编排工作流程、调用各类工具以执行工作流程，最终交付复杂任务。

调用外部工具，是Agent和当下DeepSeek、ChatGPT等大模型的最显著区别。生成式AI时代，大模型主要依靠其庞大的内部数据库回答用户问题。

进入Agent时代，大模型将不再局限于自身内部的数据，而是具备了调用外部工具的能力，变得更实用。

Agent并不脱离大模型存在，事实上它相当于大模型再往前走一步，本质就是让大模型使用工具，拔高大模型的生产力。这从Anthropic（Claude）对Agent的定义中可以清楚看出：Agent“是让大语言模型动态掌控工具使用方式的系统，可以自主决定如何完成任务”。而OpenAI前高管Lilian Weng则更一步地阐述了Agent的技术框架：Agent是由大模型驱动的自动化系统，系统以大模型为“大脑”，同时有三个关键部分：规划、记忆和工具使用。

规划：使用思维链，将总任务拆分成子任务；

记忆：具备长短记忆功能，用于反思和修正工作流；

工具使用：大模型调用各种外部工具，以完成任务。比如Web搜索、计算器、代码解释器、天气、地图、票务预订系统等等。

Agent标志着AI大模型从单纯的“对话AI”进化到“干活AI”。

按OpenAI在2024年提出的内部AGI设想路线，Agent属于AI大模型的L3级别。

二、Agent是人工智能发展的新浪潮，和具身智能一样，是未来的大趋势

2025年GTC大会上，黄仁勋提出自2012年深度学习革命开始以来，AI发展的会经历的四个阶段：感知AI、生成式AI、代理式AI（也即Agent）、具身AI。

首先是感知AI，这是人工智能的初始阶段，让机器能“看见”和“听见”，即具备计算机视觉和语音识别能力，如人脸识别、语音助手等应用。

接着是生成式AI，在过去3年里发展迅速，主要以内容生成为核心，能够创造文本、图像、视频等等。文本生成的普及度和使用率最高，以Deepseek、ChatGPT等大模型为代表，大大冲击了传统的检索式搜索引擎，让人们逐渐习惯了与大模型交互来获取知识。

代理式AI（也就是Agent）、具身AI则被认为是接下来的发展方向。人工智能发展必然要从“智慧”到“智能”，也就是让AI具备行动能力，这是发展Agent和具身AI的共同意义。具身AI聚焦于物理世界，把AI装在新能源汽车、人形机器人这样的物理实体上，让AI在物理世界中感知、理解和行动。而Agent则聚焦于计算机世界，给予AI调用软件工具的能力，让AI在计算机世界中执行工作任务。

三、Agent发展现状：Manus空降推动“通用Agent”爆火出圈，各家大厂正在加速布局中

从“对话AI”到“干活AI”的转变是必然趋势。这一趋势首先在专用领域落地，即专用Agent，最典型的是编程Agent，比如Devin、Cursor、Windsurf等。而Manus 3月的空降事件，则推动了通用Agent的爆火出圈。

2025年3月6日，由中国人工智能公司Monica开发的一款Agent产品“Manus”正式发布，宣称是“全球首款通用型AI助手”。Manus 定位于通用Agent，与专用Agent 不同，它能对多种复杂任务进行拆解并执行，不受限于特定领域或任务类型。在官网展示了几十个案例，包括旅行规划、股票分析、PPT制作等多种任务类型。

Manus当前定价高，在海外的落地步伐快于国内。基础版55美元/月，升级版则需279美元/月，已经超过OpenAI的Operator升级版200美元/月的定价。3月28日，Manus AI 的移动APP版已在美区苹果App Store上线。而国内目前还没有产品上线，但已经在今年3月宣布与阿里通义千问达成战略合作，共同开发Manus中文版。

Manus团队表示“产品非常简单，没有秘密”，这也是Manus空降后引起争议的原因。尽管媒体大肆宣扬这是又一个“DeepSeek时刻”，但许多人认为Manus并不能和DeepSeek平齐，后者是国产大模型的创新与崛起，而Manus只是“套壳”，没有原创技术的突破，比如它并不自研基座模型，而是接入Anthropic的Claude 3.5 模型。Manus空降后，许多团队花了很短的时间便复刻了类Manus产品，比如OpenManus等等。然而毋庸置疑的是，Manus空降也有其独特的意义，那就是让通用Agent得到空前的关注度，事实上成了整个AI行业向“干活AI”方向发展的一股巨大推力。

在这股推力下，国内大厂开始加速布局通用Agent，赶早卡位，如字节跳动和百度。

4月18日，字节跳动网页端Agent产品“扣子空间”开启内测，定位为“用户与AI Agent协同办公的最佳场所”。基座大模型采用字节自研的豆包大模型，引入多款可调用工具，包括高德地图、飞书文档等等，提升实际交付能力。官网展示了许多用户分享的任务回放，包括制作网页、制作旅程攻略并在高德地图标注、制作歌曲、制作研究报告等等。

4月25日，百度移动端的通用Agent产品“心响App”正式发布，目前已在安卓全面上线。 采用Agent Use方案，可以自动调度百度自己和市面上所有第三方子智能体，以及各种内外部AI工具、应用和服务接口，提升任务完成度和匹配度。目前有十大任务场景：例行任务、城市旅游、AI相亲、AI绘本、摸鱼游戏、深度研究、法律咨询、健康咨询、智慧图表、试题讲解。百度心响App使用很方便，目前任何安卓用户都可以在手机应用市场进行下载体验。

四、Agent生态构建：MCP&A2A协议，未来大模型调用工具的能力将十分强大

4.1 MCP协议（Model Context Protocol）：大模型和外部工具之间的“Type-C接口”

Agent核心就是让大模型调用工具，因此，未来Agent的表现将由两个因素决定：一是大模型本身推理和决策能力的进步；二是大模型接入和调用工具的便利性。

针对第二点，Anthropic（Claude）在2024年11月提出MCP协议，旨在为大模型和各种外部工具之间建立一个统一的连接标准。MCP协议极大简化了大模型接入外部工具的难度，让开发者不用为每个外部工具编写复杂的接口，“大模型+外部工具”开始步入“即插即用”时代。

MCP协议的意义在于，它相当于大模型和各种外部工具间的Type-C接口。

在Type-C出现前，电子设备接口有多种类型，不同设备采用不同接口，用户需要携带多种数据线，非常不方便。Type-C的出现，逐渐统一了众多设备的接口标准，无论是手机、平板、笔记本电脑，还是一些家用设备，都可以使用同一种数据线，大大减少了数据线的种类和数量，让设备间的连接变得简单高效。

类似的，MCP协议也简化了大模型和各种外部工具之间的连接。

传统上，要把大模型和外部工具连接起来，主要是通过使用针对该外部工具的API，也就是需要针对每个外部工具单独开发和维护接口，一把钥匙开一把锁。

有了MCP协议，只要每个外部工具都依照协议创造一个MCP服务器，大模型对外部工具就能现实“即插即用”，避免了开发者重复造轮子的问题。

可以说，MCP就像一座桥梁，衔接了大模型与各外部工具的交互。比如对于一个旅行规划Agent，如果使用API方法，开发者需要给日历、地图、航班预订等API分别编写独立的代码，每个API都需要为其定制身份验证、内容传递和错误处理的规则；但有了MCP协议，只要日历、地图、航班预定这些外部工具支持MCP协议，开发者就能非常简单的接入它们，之后大模型就能丝滑的进行调用。

毫无疑问，MCP协议的提出将在大模型时代向Agent时代的跨越中留下关键一笔。现下，MCP正在成为行业标准，以惊人的速度获得采纳：

越来越多的大模型厂商宣布支持MCP协议，海外的OpenAI、Google，国内的阿里、腾讯、字节、百度等。

同时，许多应用也开始进入MCP生态圈。

以魔搭社区为例，截至目前已经有超过2700个MCP Server，为开发者提供便利。

支付宝、高德地图这些常用的应用，纷纷推出官方的MCP Server。

今年4月，支付宝成为国内首家支持 MCP 协议的支付机构，Agent开发者现在可以通过支付宝的“支付MCP Server”轻松接入收单支付服务。

高德地图在今年3月发布MCP1.0，整合开放位置服务、地点信息搜索、路径规划、天气查询等12大核心接口，让用户在出行规划、位置信息检索场景下轻松获取即时信息。今年4月全面升级，发布MCP2.0版本，可一键将AI生成的攻略内容转化为专属地图，并可实现由攻略到一键导航、打车、订票。

百度对MCP的支持力度也很大。4月，李彦宏表示，MCP“为开发者在AI大爆发的时代提供了解决思路，让AI能够更自由地调用工具，是AI发展的一大步”，宣布帮助开发者全面拥抱MCP。目前百度的商品检索、商品交易、商品详情、商品参数对比、商品排行榜能力等也已经通过百度电商的MCP server对外提供，这是国内首家支持电商交易的MCP服务。此外，文库、网盘、地图等应用也全面对外提供MCP Server服务。

4.2 A2A（Agent-to-Agent Protocol）：打破孤岛，让Agents之间互联互通

2025年4月，谷歌提出A2A协议，即Agent和Agent之间的标准化通信协议。谷歌将A2A协议定位成MCP协议的补充：MCP协议润滑大模型对外部工具的调用，A2A协议则润滑Agents之间的互联。

MCP+A2A，就能将Agent的能力范畴拓展到极致——对每个Agent而言，它不仅能轻易的接入和使用各种外部工具，而且能借助其他Agent的力量赋能。

A2A协议没有MCP出圈，但是据谷歌云官网，该协议的支持者数量也比较可观，目前有60家左右。

五、展望：通用Agent本质是一场范式革命，未来可能成为最大的流量分配中心，重构当前软件生态

通用Agent是交互范式的第三轮变革：从PC时代的桌面操作系统到移动互联网时代的超级应用，再到如今AI大模型时代的通用Agent。当前的软件生态可能会被颠覆，通用Agent或将重构整个数字世界的权力格局。

从技术逻辑看，传统软件生态是以功能为导向，用户需主动适应软件的固定模式来实现特定目标，而通用Agent以自主决策为特征，理解用户意图，自主调用各类工具（当然也包括各大软件）以交付任务。

未来，随着通用Agent的落地推开，流量分配权将逐渐向各个通用Agent产品集中。这意味着各大软件的竞争力将更多的取决于其服务能否被Agent精准认可和推荐，而非传统的用户粘性构建。

目前，通用Agent的生态并不完善。就像Perplexity CEO Aravind说的那样：“目前任何人声称2025年的Agents可以完全投入使用，都应该持怀疑态度。”这当然有技术层面的原因，比如大模型本身的推理决策能力要再一步提升，并且要降低幻觉问题。但是生态层面同样有很长的路要走，比如Aravind也表示过：目前没有其他方式能让 AI Agent同时控制多个应用，尤其是在 iOS 上，甚至无法访问其他应用，这是苹果生态的限制。未来Agent到底如何落地，流量分配、收费模式等等，非常值得期待。