2026年2月,来自MIT、哈佛、斯坦福等高校的研究团队发布了《2025 AI Agent Index》。这份报告对全球30个最具代表性的AI Agent产品进行了系统性记录,横跨法律、技术能力、自主性与控制、生态交互、评估和安全六大维度,共整理了1350个信息字段。报告的数据截止于2025年12月31日。
这不是一份普通的行业综述。研究团队逐一联系了所有被纳入的公司,给了他们四周时间核实和纠正标注内容——结果只有23%的公司作出某种形式的回应,真正提供实质性意见的仅有4家。这个回应率,本身就说明了问题。
报告里有些数字让人难以忽视:在安全、评估与社会影响相关的240个信息字段中,有133个——超过一半——完全没有公开信息可查。
“Agent热”到底有多热
2025年研究论文中提到"AI Agent"或"Agentic AI"的数量,比2020年到2024年五年总和还多出两倍以上。
麦肯锡在2025年6到7月对1993家企业做了调查,结果显示62%的受访组织已经在试验AI Agent。麦肯锡还估计,到2030年,AI Agent可能会自动化掉美国经济中价值2.9万亿美元的工作量。
被纳入这份Index的30个产品,有24个是在2024至2025年间发布或完成重大agentic功能更新的。早期产品如ChatGPT(2022年)和Perplexity(2022年)是后来才加上了agentic能力。
研究团队把这30个产品分成三类:聊天界面型(12个,比如Claude、ChatGPT Agent、Manus AI)、浏览器操控型(5个,比如Perplexity Comet、ChatGPT Atlas、Opera Neon),以及企业工作流型(13个,比如Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow AI Agents)。
谁在做,谁在掌控
地理分布上,21个产品来自美国公司,5个来自中国,其余4个分布在德国(SAP、n8n)、挪威(Opera)和开曼群岛(Manus)。
这里有个明显的分裂:中国公司基本不公开AI安全框架和合规标准。 5家中国公司中,只有1家(Z.ai)发布了AI安全框架,合规标准文档同样只有1家。报告团队特别说明,这可能只是因为中文文档没有被检索到,但他们专门找了中国AI生态专家核查,包括中文文档,结论依然如此。
相比之下,美国公司中76%有AI安全框架,75%有合规标准记录。
整体来看,30个产品里只有15个引用了AI安全框架,比如Anthropic的负责任扩展政策(RSP)、OpenAI的准备框架,或微软的负责任AI标准。10个产品完全没有安全框架文档。
“自主程度”的光谱
研究团队用了Feng等人提出的五级自主性框架来标注每个产品:L1是"用户全程操控",L5是"AI全程自主运行,用户只能旁观"。
聊天型Agent通常在L1到L3之间,以轮次交互为主。Anthropic Claude、Google Gemini、OpenAI ChatGPT都是用户发一条,AI执行一次,然后等下一条。但同一个产品内部,自主程度差异可以很大——比如"普通聊天"是L1,"深度研究模式"可以到L3甚至L5。
浏览器型Agent的自主程度最高,达到L4到L5。 Perplexity Comet和Browser Use一旦收到任务就自主运行,执行过程中用户基本无法介入或中止。这类产品也是报告中安全问题最集中的。
企业型Agent存在"设计阶段"和"部署阶段"的自主性分裂。 设计时,用户用可视化画布手动配置触发器和动作(L1到L2);一旦部署,这些Agent就会在没有任何人工介入的情况下自动响应邮件、数据库变更等事件(L3到L5)。
安全信息:沉默的大多数
这是报告里最值得停留的部分。
133个安全相关字段没有任何公开信息。浏览器型Agent的安全信息缺失率达到64%,企业型Agent达到63%,就连相对透明的聊天型Agent,缺失率也有43%。
在30个产品中:
只有4个有专门针对Agent本身(而非底层模型)的系统卡:ChatGPT Agent、OpenAI Codex、Claude Code和Gemini 2.5 Computer Use。25个产品不披露任何内部安全测试结果。23个产品没有任何第三方测试信息。有记录的第三方测试仅出现在3个产品上:Anthropic Claude、OpenAI ChatGPT和OpenAI Codex。只有9个产品有沙箱或虚拟机隔离的记录,主要集中在开发者工具和浏览器类Agent。9个产品完全没有任何安全防护措施的记录。报告把这种现象称为"弱版本的安全洗白"(a weaker form of safety washing)——企业的安全和伦理框架停留在高层叙述,缺乏实证数据支撑,而且是选择性披露。
有意思的是,另一边的情况刚好相反:9个产品发布了能力基准测试(比如GUI操控或代码生成的跑分),但这些相同的产品往往缺乏安全评估的披露。能力数据发得越多,安全信息反而越少。
在网络上的行为:谁在扮人
浏览器型Agent对互联网生态的影响,是报告专门拿出来讨论的另一个议题。
传统的robots.txt协议让网站可以告诉爬虫"不要抓取这里"。但在Agent时代,这套协议正在失效。报告发现:
30个产品中,只有6个明确声明其爬虫机器人遵守robots.txt。6个产品明确使用类似Chrome浏览器的User-Agent字符串和住宅/本地IP,刻意模仿人类网页请求。Browser Use甚至在产品营销中公开宣传能绕过反机器人系统,"像人一样浏览"。Perplexity对此有自己的说法:AI助手"就像人类助手"在代替用户获取内容,所以不应受到爬虫限制。但Cloudflare记录到Perplexity使用了未申报的爬虫,用通用Chrome签名绕过封锁。亚马逊已经就Perplexity Comet不声明自己是AI Agent的行为提出法律威胁。
在所有30个产品中,只有ChatGPT Agent使用了HTTP请求的密码学签名(RFC 9421),这是唯一能在技术层面证明"这个请求来自AI Agent"的机制。其余产品的行为痕迹在网络上难以被核实或追溯。
评估困境:谁来负责
报告揭示了一个结构性难题。
绝大多数Agent依赖OpenAI、Anthropic、Google这三家的基础模型,外面套一层调用框架和编排层。这创造了一条依赖链:模型提供商 → 编排平台 → Agent构建者 → 终端部署。每个环节都只控制整个系统的一部分(见报告Figure 7)。
这带来两个问题:一是没有任何单一主体能清楚地负责整个系统的安全;二是"针对模型的评估"在很多情况下不等于"针对Agent的评估"——Agent的风险来自规划能力、工具访问权限、记忆机制和系统提示的组合,而不只是底层模型的能力。
企业级Agent构建平台(如Zapier、Salesforce)通常把安全防护责任转移给终端用户:你要配置哪些guardrail,你自己决定。报告认为,监管者和买家很可能从"模型层面的文档"获得错误的安全保证。
论文地址:
https://arxiv.org/pdf/2602.17753
END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:《2025 AI Agent Index》报告覆盖哪些产品,用什么标准筛选?
报告纳入了30个产品,要求同时满足三类标准:一是具备真正的智能性(能自主运行、追求复杂目标、直接与环境交互、处理模糊指令);二是有足够的影响力(高搜索量、开发商市值超过10亿美元、或属于重要行业成员);三是可评估(公开可用、无需工程背景即可部署、具备通用任务处理能力)。
Q2:《2025 AI Agent Index》报告最核心的发现是什么?
安全信息的系统性缺失,以及"能力透明度"与"安全透明度"之间的倒置关系。越是展示自己跑分跑得好的Agent,往往越不披露安全测试结果。30个产品中,只有4个有针对Agent本身的系统卡,只有3个有记录在案的第三方测试。
Q3:浏览器型Agent为何被单独点名?
浏览器型Agent在自主程度上最高(L4到L5),在安全信息披露上缺口最大(64%字段无信息),在已知安全事件上最集中(提示词注入漏洞主要出现在此类产品),在网络行为上争议最多(绕过robots.txt、模拟人类流量)。Perplexity Comet被单独作为案例分析,2025年有多个研究者记录了其间接注入漏洞和URL攻击漏洞。
热门跟贴