Anthropic重磅出品，权威企业级Agent安全应用白皮书：AI智能体零信任安全|agent|安全应用|微软|数据源|智能体|服务器|白皮书|知名企业|虚拟机

2026 AI智能体安全危机爆发！零信任成唯一防线（官方权威框架落地指南）
攻击成功率73.2%！AI智能体漏洞全面失控，传统安全彻底失效
Anthropic重磅白皮书：AI智能体零信任安全框架，企业合规落地全方案

当 AI 智能体从实验室概念走向企业生产环境，一场静默的安全危机正在发酵。

2026年RSA大会上，微软、思科、CrowdStrike 和 Splunk 的四位高管不约而同地指向同一个结论：零信任必须延伸至 AI 领域。

一个多月前，Anthropic 发布 Claude Mythos Preview 引发的连锁反应，已让美联储主席与银行业 CEO 坐到同一张谈判桌前。

云安全联盟调查显示，仅 26% 的组织建立了 AI 治理策略，而针对智能体框架的"ClawHavoc"供应链攻击已确认涉及 1184 个恶意技能包。

这不是未来预警，而是当下危机。约 40% 的 AI 智能体协议存在可通过提示词注入利用的漏洞，但适当的防御框架可将攻击成功率从 73.2% 降至 8.7%。

问题的核心在于：传统零信任架构为人类用户设计，而自主化智能体以机器速度运行、跨系统链式调用工具、持久化记忆上下文。当组织从基础生成式 AI 过渡到智能体工作流时，传统零信任模型正在触及其极限。

在安全方面，最近Anthropic发布的名为《Zero Trust for AI Agents》的安全白皮书，值得大家参考。

这份白皮书长达34页，深度剖析 Agent 自主执行、工具调用、上下文持久等独有安全风险，明确提示注入、供应链投毒、内存污染等五大核心威胁。基于零信任核心原则，构建基础、企业、高级三层分级安全框架，配套八大落地实施阶段，覆盖身份认证、权限管控、供应链防护、内存安全等关键维度，可以为不同规模、不同风险等级的企业提供从理论到实操的全链路安全指引，以助力企业合规落地 AI Agent，筑牢智能体安全防线。

这里，贴上白皮书的思维导图。

读完之后，感觉这个白皮书还是有些东西的，不想其他研报只讲理论，是真的在聚焦产业真实落地需求。

白皮书里提供的适配 AI 加速威胁时代的系统性安全方法论，可以为企业构建 AI Agent 安全防线、合规规模化落地的提供参考。对于想要洞察 AI 安全产业趋势、把握零信任落地路径的朋友，也是不错的参考资料。

在 AI Agent 规模化落地、AI 加速攻击常态化的当下，由AI大厂基于一线实操经验推出的这份白皮书，在AI 智能体安全领域也算是权威指南了，强烈建议企业安全负责人、AI 架构师及技术决策者精读。

为让大家系统了解AI Agent的企业级安全应用，王吉伟频道翻译了此白皮书，并发布在此公众号。

本文2.6万字左右，仍旧建议先收藏，再阅读。

对于想用AI读白皮书捞干的朋友，我也提供了中、英文版PDF文档。有需要的，可以在公众号主页发消息：260602，获取资源。

以下是正文。

AI智能体的零信任在企业中部署Agentic AI的安全框架 Zero Trust for AI AgentsA security framework for deploying autonomous AI agents in the enterprise目录

• 构建面向下一代威胁格局的防线
• 零信任背后的原则
• 第一部分：智能体系统的安全考量
• 第二部分：智能体系统面临的当前威胁
• 第三部分：将零信任应用于智能体服务
• 第四部分：智能体实施工作流
• 第五部分：以自主威胁的速度开展防御运营
• 从原则走向实践
• 写在最后

构建面向下一代威胁格局的防线

基于边界的网络安全防御，已无力招架现代威胁的凌厉攻势，而威胁本身，正在加速演进。前沿 AI 模型正将漏洞发现到漏洞利用之间的时间窗口，从数月压缩至数小时，而边际成本不过区区数美元。

采用这些工具的防御方，能更快地发现和修复漏洞；而采用同样工具的攻击方，或者仅仅等待防御方发布补丁、再逆向工程为利用手段的攻击方，同样行动更快。

这绝非遥远的隐忧：当前的 AI 模型已经能够发现传统工具和人工审查员数年来视而不见的严重漏洞。

这种提速，对任何部署智能体的组织而言，都意味着双重冲击。

其一，智能体所运行的基础设施，与其他资产一样，暴露于 AI 加速的攻击之下。

其二，智能体本身引入了解释目标、选择工具、执行多步操作的自主性。

传统访问控制无法阻止智能体滥用合法权限，而监控机制则需要应对那些以持续渗透而非一次性入侵为手段的攻击。

真正赢得这场竞赛的，不是 AI 技术最先进的组织，而是安全基本功最扎实的那些——它们的代码质量高到让 AI 扫描都难觅漏洞，它们的智能体架构从设计之初就预设了"已遭入侵"的最坏情况。

本指南将展示如何在应对当前威胁向量的同时，将零信任应用于智能体部署。涵盖内容包括：

1. 通过分层框架建立安全的基础能力
2. 识别新兴威胁并制定切实可行的缓解策略
3. 构建安全部署智能体的实施工作流
4. 以自主威胁所要求的速度开展防御运营

对于受监管的医疗、金融和政府等行业，本框架可验证智能体行为、授予最小必要权限，并在入侵发生时将损失控制在最小范围。

如果你是首席信息安全官或安全领导者，第一、二部分将为你提供所需的威胁格局与合规背景；第三、四、五部分则是面向架构师和工程师的实施指南。

我们希望这些模式与最佳实践对贵组织有所助益。本指南体现了 Anthropic 对智能体安全架构的当前思考，仅作为供你自行评估的框架，而非针对任何特定环境的法律、合规或安全保证。

零信任背后的原则

零信任的根源可追溯至 1994 年。彼时，史蒂芬·保罗·马什在斯特灵大学的博士论文中首次将这一概念系统化。

高调安全事件接连暴露出基于边界的安全防御的局限，推动整个行业重新审视其根本假设，这一理念才真正获得了广泛关注。

这场思想转变催生了具体的指导框架：NIST 于 2020 年发布了 SP 800-207 架构标准，美国国家安全局（NSA）随后于 2026 年推出了零信任实施指南（ZIGs）。这些框架共同将一套重新定义组织安全方式的原则进行了规范化。

零信任以一个简洁的前提取代了基于边界的安全防御：不信任任何人，验证所有事，并假定入侵已然发生。

这一框架由三条原则定义：

永不信任，始终验证。无论请求来源如何，每次访问请求都要经过身份验证和授权审查。来自企业内网的请求，与来自外部 IP 地址的请求，受到同等严格的审查。

假定已遭入侵。在设计系统时，要预设入侵终将发生。与其聚焦于阻止入侵，不如限制攻击者所能造成的损害。按身份划分隔段，实施细粒度访问控制，确保攻陷一个系统不会导致对其他系统的访问权被打开。

最小权限原则。只授予完成特定任务所必需的最低访问权限。数据库管理员无需访问邮件服务器。通过约束每个身份所能访问的范围，组织便能控制任何单次入侵的影响范围（blast radius，即攻击波及范围）。

设计检验：是使攻击"不可能"，还是仅仅"繁琐"？

评估本文档中的任何控制措施时，只需问一个问题：这是否使攻击变得不可能，还是只是更加繁琐？

那些价值来源于摩擦而非硬性壁垒的缓解措施，包括额外的跳转节点、速率限制、非标准端口，以及基于短信的多因素认证，在面对能够以规模化方式反复尝试繁琐步骤的对手时，效果会大打折扣。

自主化的攻击者拥有无限的耐心，以及趋近于零的单次尝试成本。

真正经得起考验的防御手段，都有一个共同基因：它们不依赖摩擦，而是构建硬性壁垒，硬件绑定的凭据、限时失效的令牌、基于密码学的身份验证，以及物理上根本不存在的网络路径，而非仅仅不便利的通道。

这一检验贯穿于本文档的每一条分层建议之中。如有疑问，优先选择那些彻底移除某项能力的控制措施，而非那些只是对其加以节流的措施。

第一部分：智能体系统的安全考量 Security considerations for autonomous systems

Agentic AI（智能体AI\代理型AI）引入了现有安全模型所未被设计用于应对的能力。

智能体系统有何不同

传统软件执行预先定义的逻辑。Agentic AI系统则运作方式迥异，它们以不同程度的自主性执行多步操作。这一转变带来了若干安全考量：

•智能体无需人工发起或逐步审批即可执行操作。一个进行主题研究的智能体，可能在无需人工审查的情况下，完成网络搜索、信息综合并生成报告。这种效率意味着，一个被操控的智能体可以以机器的速度造成危害。
•工具访问权限使智能体能够与 API、数据库、文件系统和外部服务交互。这包括模型上下文协议（MCP），它标准化了智能体连接这些资源的方式。一个被攻陷的 MCP 栈可导致数据窃取、恶意代码执行和系统破坏。
•做出决策要求智能体解释指令并选择如何实现目标。这引入了模糊性，而攻击者恰恰能够利用这种模糊性。对人类而言看似无害的指令，可能被智能体解读为截然不同的行动方式。
•上下文持久化允许智能体跨会话维护记忆。记住以往交互、学习到的偏好和知识，使 AI 助手更为强大，同时也创造了新的数据保护需求。
•多智能体协同使智能体能够相互通信。这些信任关系让攻击者得以攻陷一个智能体，并以此为跳板渗透其他智能体，从而可能触及初始目标无法直接访问的系统。

智能体安全概念 Agentic security concepts

将网络安全扩展至智能体系统，需要引入一些新术语。

影响范围 Blast Radius

影响范围衡量的是一旦出现问题，潜在损害的波及程度。一个对单一数据库只有读取权限的智能体，其影响范围很小；一个对云基础设施拥有管理员权限的智能体，其影响范围则极为巨大。

安全投入应与这一暴露程度相匹配，而"为入侵而设计"的安全姿态，意味着要假定某一时刻，每个智能体的影响范围都将被付诸检验。

最小授权原则 Least Agency

最小授权原则是由 OWASP 新创的术语，是对最小权限原则在智能体应用领域的延伸。最小权限约束的是用户和系统能够访问的内容，而最小授权原则走得更远：它限制的是每个智能体工具能够做什么、频率如何、范围在哪。

实践中：数据库工具只获得只读查询权限，邮件摘要工具不获得发送/删除权限，API 只获得最小的增删改查操作权限。

受监管行业与合规要求 Regulated industries and compliance requirements

医疗、金融、政府等受监管行业面临智能体部署同样必须满足的特定要求。零信任与现有法规高度契合，并进一步强化了它们。监管这些合规要求的机构，很可能会采纳零信任并将其整合进现有要求之中。

美国、英国和澳大利亚政府已先后发布零信任指南，美国要求所有联邦机构于 2027 年前完成零信任部署。

国家

机构/指南

澳大利亚

homeaffairs.gov.au 零信任指导原则

英国

NCSC.gov.uk 零信任入门

美国

CISA.gov 零信任成熟度模型，NSA.gov 零信任实施指南（ZIGs），NIST.gov SP 800-207

第二部分：当前智能体系统面临的威胁 Currentthreats to agentic systems

智能体系统面临着独特的威胁格局。OWASP 识别出的当前威胁包括：提示词注入、工具与资源劫持、身份与访问权限滥用、内存与上下文投毒，以及供应链风险。

提示词注入与指令操控 Prompt injection and instruction manipulation

提示注入攻击是指外部攻击者在系统中植入恶意指令，使智能体执行攻击者的命令。该攻击主要分为两种形式：通过用户输入直接注入，以及通过外部来源间接注入。

直接提示注入发生在攻击者设计能够覆盖系统指令的输入数据时，常用技术包括显式指令覆盖、使用Base64或十六进制编码方案绕过过滤器，以及使用对人类无意义但能影响模型输出的对抗性后缀。

研究表明，采用跨多个模型家族通用的提示语时，算法攻击手段可实现100%的成功率。间接提示注入则构成更为隐蔽的威胁——攻击者将恶意指令嵌入智能体处理的外部数据源（如网页或电子邮件）中。

微软研究院证实，大型语言模型无法可靠区分信息上下文与可执行指令；用户根本无法察觉恶意载荷的存在，而智能体会将其视为正常请求执行。

工具与资源劫持 Tool and resource misuse

具备工具访问权限的智能体程序，即使在授权范围内也可能被恶意利用这些工具。传统访问控制机制无法防范此类攻击，因为智能体程序始终在其获准权限范围内运行。

工具中毒攻击发生在攻击者篡改工具接口（如MCP工具描述符、数据模式或元数据）时：智能体程序会基于伪造的功能调用工具，从而引发意外操作；恶意工具可在元数据中隐藏指令，在用户不知情的情况下窃取数据；在“地毯拉取”攻击中，合法工具会被秘密替换为恶意版本。

首个公开记录的案例显示，一个合法MCP服务器冒充电子邮件服务，秘密复制所有发送邮件。

工具链攻击则构成更隐蔽的威胁：攻击者诱使智能体程序将合法工具按有害顺序组合使用（例如将安全的内部CRM工具与外部邮件工具串联），以窃取单独使用任一工具均无法获取的客户数据。

由于所有命令均通过有效凭证下的可信二进制文件执行，基于主机端的监控系统无法检测到恶意软件，滥用行为也难以被发现。

资源耗尽攻击则利用智能体程序运行的自动化特性：循环放大机制导致智能体程序反复调用高成本API，引发服务中断或账单激增现象。

身份与权限滥用 Identity and privilege abuse

智能体通常以提升的权限或服务账户运行，而为人类用户设计的传统身份系统难以有效容纳它们。这种不匹配创造了可被利用的安全漏洞。

无作用域特权继承 Unscoped privilege inheritance

无作用域特权继承是指高权限管理智能体在委托任务时未采用最小权限范围控制机制，将其完整的访问上下文传递给仅具备有限权限的工作智能体。在多智能体系统中，信任关系具有动态性且通常隐含存在。

另一个典型场景是：被攻破的低权限智能体向高权限智能体转发看似有效的指令，而高权限智能体在执行这些指令时并未验证原始用户的意图。这种复杂的智能体间信任问题在智能体频繁协作与委托任务执行的情况下会进一步加剧。

基于内存的权限保留 Memory-based privilege retention

基于内存的权限保留机制是指智能体在未进行适当内存分段的情况下，将凭证或密钥缓存以供后续使用。

若缺乏这种分段机制，攻击者便能诱使智能体执行其自身凭证根本无法授权的操作：智能体会从先前的安全会话中调用缓存的机密信息并执行请求，从而实现跨会话边界的权限提升。

供应链与依赖风险 Supply chain and dependency risks

与静态软件供应链不同，智能体生态系统通常在运行时动态组合各种功能模块，并实时加载外部工具及智能体角色。

这使得攻击面范围超出了传统软件组合分析的处理能力，而前沿模型在识别未打补丁的上游组件中已知且已被修复漏洞的特征方面尤为有效。

模型供应链风险 Model supply chain risks

模型供应链风险包括中毒权重和被篡改的微调数据，这些因素会引入在部署过程中持续存在的后门。

人类行为研究证实，仅注入250份恶意文档即可成功为参数量从6亿到130亿不等的大语言模型植入后门；这些后门在包括监督微调和 RLHF 在内的安全训练过程中依然存在。

工具与框架供应链风险 Tool and framework supply chain risks

工具供应链风险会影响MCP服务器、API集成及智能体框架。PyTorch依赖项混淆攻击案例表明，恶意软件包在安装过程中可窃取包括SSH密钥在内的敏感数据。

安全研究人员已在主要平台上发现约100种恶意AI模型，其中部分模型在加载时会发起反向shell连接。

除蓄意攻击外，大多数软件供应链属于开源项目，而多数开源项目缺乏服务级别协议。

需全面评估智能体基础设施所依赖的所有组件的安全状况：OpenSSF评分卡系统会根据代码分支保护机制、模糊测试覆盖率、签名版本发布情况及维护者活跃度等指标对每个依赖项进行自动评分，并运行持续集成流程以识别未维护的软件包。

同样标准应适用于供应商，第三方风险管理流程应要求供应商说明其如何应对日益缩短的漏洞利用窗口期以及是否对自身代码进行扫描；多数大型代码库还会集成多个执行相同功能的库（如多个HTTP客户端、多个 JSON 解析器），这些冗余组件不仅无实际防护价值，反而增加了攻击面。

通过一小时的依赖树审计（使用边界模型分析锁文件，识别重叠依赖项并规划迁移方案），通常能发现值得优化的整合机会。

内存与上下文投毒 Memory and context poisoning

能够在多个会话中持续保留上下文信息的智能体，其内存可能遭到破坏，导致后续推理出现偏差、安全性降低，甚至主动助长数据泄露行为。

植入智能体内存中的恶意指令可能危及当前及所有后续会话的安全性。该智能体在初始注入后仍将持续服务于攻击者的攻击目标。

RAG投毒 RAG poisoning

RAG投毒攻击通过受污染的源数据、直接上传或过度信任的管道，将恶意数据注入向量数据库。该攻击者在响应查询时获取受污染的数据上下文，从而生成错误答案或执行定向有效载荷。

共享上下文污染 Shared context poisoning

共享上下文攻击利用多租户环境中复用或共享的上下文环境。攻击者通过常规交互注入数据，从而影响后续会话；新用户会话可能继承被污染的上下文信息，导致出现错误信息、不安全的代码执行或异常工具操作。

长期记忆漂移则更为隐蔽：摘要信息或对等智能体反馈会逐渐改变存储的知识内容或目标权重，随着时间推移产生难以察觉的行为偏差，因为单个变化本身并不具有恶意性。仅针对单一威胁进行应对只能维持被动防御状态。

下一节将阐述零信任原则如何构建更持久的安全基础。

第三部分：将零信任应用于智能体服务 Applying Zero Trust to agentic AI services

本文档其余部分为实施指南。安全架构师和工程师应仔细研读分层表格和工作流章节；安全领导者可将执行摘要和第二部分作为简报材料使用。

识别和缓解当前威胁只会让你处于被动，永远追赶下一个漏洞利用。将你的智能体解决方案构建在零信任原则之上，才能让你站上更坚实的地基。

这些原则通过三个能力层级呈现：

基础层 Foundation代表最低可行安全标准，适用于规模较小的部署或初始实施阶段。由于 AI 加速的进攻已经压缩了漏洞利用的时间线，基础层的门槛已经提高——仅提供摩擦的控制措施不再符合要求。

企业层 Enterprise体现了大多数拥有大规模部署的组织应当追求的企业标准实践。

高级层 Advanced描述了对大多数组织而言属于进阶目标，或对高风险部署及有严格监管要求的组织而言属于基准的能力。

基础层是你进入坚实零信任智能体实践的入口。它为未来的风险缓解奠定基础，根据组织规模和需求，可能足以满足风险容忍度。但首先要明确：基础层仅能满足小型企业和团队的风险要求。

企业层是大多数组织应当瞄准的目标。该层在基础层控制措施的基础上，增加了应对现实复杂性所需的深度：更大的团队规模、多个智能体部署，以及单次入侵即可造成实质性业务影响的环境。如果你的组织在任何有意义的规模上运营，企业层就是你的目标成熟度水平。

高级层超越了大多数组织的日常需求。该层适用于风险足够高的环境，例如高度受监管的行业、国家安全应用，或者一次安全漏洞就会带来严重运营或财务后果的部署。

大多数组织会发现企业层控制措施足以满足其风险容忍度，但若你的威胁模型涵盖复杂对手，或你的监管环境几乎没有容错空间，高级层就是你的基准。每个层级都建立在前一个层级之上，因此从基础层推进到企业层意味着强化现有控制措施，而非替换它们。

各层级均在前一级基础上逐步升级，从基础级晋升至企业级意味着强化现有管控措施而非完全替换。需注意，下文所述防护措施均依赖于您智能体部署所依托的基础设施和服务支持体系。

该领域发展迅速：本文所述各项功能虽已成熟，但相关工具及应用普及度仍在提升中。随着行业发展，预计高级层级将演变为企业级标准，而企业级也将逐步回归基础层级。

智能体身份与认证 Agent identity and authentication

身份与认证是所有其他安全能力的基础。没有可验证的身份，就无法执行访问控制、维护审计记录，或将行为归因于特定智能体。

智能体身份验证 Agent identity verification

可验证的身份能够实现操作归因、访问控制实施以及有意义的审计。若缺乏明确的身份标识，智能体将处于归因缺口之中，导致最小智能体原则无法有效执行。

层级

能力

实施方式

Foundation

每个智能体实例的唯一密码学标识符

为每个智能体分配由密码学材料支持的持久化ID（而非单纯标签）。跟踪智能体从创建到退役的完整生命周期。所有日志和访问请求中均包含这些ID。

Enterprise

基于证书的认证及全生命周期管理

为每个智能体颁发X.509证书。要求所有服务连接均需出示证书。实施证书生命周期管理，包括轮换与吊销。

Advanced

硬件支持的身份验证与证明

采用相互TLS（mTLS）并实施证书固定。要求客户端与服务器证书的双向验证。通过固定预期证书防止中间人攻击。实施证书透明度监控。使用硬件绑定凭证及已证明的颁发流程。将智能体凭证存储于硬件安全模块（HSM）或可信平台模块（TPM）中。在授予访问权限前实施远程证明以验证智能体完整性。对敏感操作使用机密计算安全区。

唯一标识符仅是标记工作；基础层现要求这些标识符必须具备密码学根源，从而使身份伪造真正变得困难。密码学身份是实现不可否认性的基础。硬件支持的身份进一步强化了这一能力，对于任何可从互联网访问的生产系统，建议将其作为目标状态。

服务认证 Service authentication

确立智能体身份仅解决了问题的一半，智能体在访问数据库、API及其他服务时还必须证明自身身份。

静态API密钥和共享的服务账户密码是具备模型辅助代码分析能力的攻击者最先寻找的目标；即使在基础层，它们也不再是可接受的方案。由身份提供商颁发的短期且范围严格的令牌已成为新的安全基线。

层级

能力

实施方式

Foundation

由身份提供商颁发的短期令牌，并支持自动刷新

实施OAuth 2.0或类似基于令牌的认证机制。令牌有效期以分钟为单位。实现无需人工干预的自动令牌刷新。严禁在代码或配置文件中嵌入凭证。

Enterprise

带证书钉定的双向TLS

需同时验证客户端和服务器证书。固定预期证书以防止中间人攻击。实施证书透明度监控机制。

Advanced

经认证签发的硬件绑定凭证

将认证凭证与硬件身份绑定，从而防止凭证从被攻破的主机中泄露。对经过认证的硬件设备中的所有服务间调用（包括生产环境服务之间的调用）进行根权限控制。

若当前仍在使用带有轮换策略的API密钥，应将其视为已知安全差距，而非合规的基础态势。轮换可被轻松搜索到的凭证，无法显著提升针对AI辅助攻击者的防御成本。应优先转向短期令牌，并在可行情况下将凭证绑定至硬件。

访问控制与权限管理 Access control and privilege management

即使经过完美认证的智能体，若被授予过多权限，仍可能造成损害。授权层负责执行最小智能体原则，确保每个智能体仅获得履行其特定功能所需的访问权限。

权限模型 Permission models

权限模型决定了智能体可执行的操作。更精细的模型能够实现更细粒度的控制，并支持符合零信任原则的上下文感知决策。

层级

能力

实施方式

Foundation

默认拒绝的基于角色的访问控制（RBAC）

定义与智能体功能相匹配的角色。为每个角色分配最小必要权限。明确拒绝所有未明确授予的访问权限，并将其作为起始而非最终状态。

Enterprise

基于属性的访问控制（ABAC）及上下文感知策略

将请求属性（包括时间、位置、数据敏感度及风险评分）纳入授权决策。根据上下文动态调整权限。

Advanced

实时策略评估的持续授权

在每个操作而非会话开始时进行授权评估。将威胁情报和行为分析整合至授权决策中。当风险指标变化时立即撤销访问权限。

智能体至少应仅拥有与其角色相关的权限。例如，电子邮件起草智能体仅需电子邮件相关权限，而不应拥有财务部门文件共享的访问权。基于属性的控制可引入上下文限制（如仅限工作时间运行），从而降低非工作时段被利用的风险。

持续授权则通过定期重新评估访问权限，进一步提升安全性，使被入侵的智能体能够在其未能通过挑战时被立即撤销凭证。

权限范围控制 Privilege scoping

权限模型定义智能体可执行的操作，而权限范围控制则决定这些权限何时生效以及持续多久。

在部署时授予的静态权限会长期保持活跃，从而形成持久暴露风险。动态权限范围控制仅在需要时授予访问权限，并在任务完成后自动撤销，从而有效限制爆炸半径和暴露窗口。

层级

能力

实施方式

Foundation

按智能体功能定义的静态最小权限角色

在智能体部署阶段定义角色边界。定期审查和认证权限。在审查过程中移除未使用的权限。

Enterprise

基于任务需求的动态权限调整

仅在特定任务需要时提升权限。任务完成后恢复至基线权限。记录所有权限变更。

Advanced

自动过期机制的Just-In-Time（JIT）与Just Enough Administration（JEA）

仅在需要时授予权限。将访问范围限定于特定资源和时长。任务完成或超时时自动撤销权限。

权限范围控制是最小智能体原则的具体实践。在基础层，智能体仅获得任务所需的静态权限，与RBAC紧密结合。动态权限调整仅在必要时提升权限，类似于操作系统请求管理员密码，任务完成后自动恢复标准权限。JIT/JEA则进一步在任务结束时立即撤销提升权限，确保不存在超出实际需求的常驻访问权限。

资源边界 Resource boundaries

即使访问控制完美无缺，被入侵的智能体仍可能利用其权限攻击相邻系统。隔离机制通过防止横向移动并限制被入侵智能体的可达范围，有效控制爆炸半径。

基于身份的隔离是首要控制措施。网络分段虽可作为辅助手段减少爆炸半径和噪声，但并非主要边界。若攻击者能够抵达分段边界，且另一侧服务接受来自该网络的任何调用者，则仍可实现横向移动。

因此，应在接收端实施严格隔离，每个工作负载携带自身密码学身份，每个服务仅接受策略中明确指定的调用者。

层级

能力

实施方式

Foundation

基于身份的智能体工作负载隔离，并辅以网络分段

为每个智能体工作负载赋予密码学身份；服务仅接受明确指定的调用者。将网络分段作为后备而非主要边界。阻断不必要的东西向流量。

Enterprise

每个智能体的沙盒执行环境

在具备受限能力的容器中运行智能体。使用gVisor等提供额外系统调用过滤的容器运行时。限制挂载卷和网络访问。对于处理不受信任输入的智能体，沙盒应作为基本要求。

Advanced

机密计算的硬件隔离

使用AMD SEV或Intel TDX等技术在硬件隔离环境中部署智能体。采用轻量级虚拟机管理程序实现微虚拟机架构。通过证明验证执行环境完整性。

沙盒执行能够限制被入侵智能体在其身份边界内的可达范围，对于处理网页内容、文档或其他不受信任输入的智能体，应视为强制性要求而非可选目标。硬件隔离则进一步确保即使主机操作系统也无法检查或篡改智能体工作负载。

实用提示：Claude代码通过提供以下功能实现这一支持：默认拒绝权限（要求每次写入和执行操作均需明确批准）、基于操作系统级文件系统和网络隔离的沙箱执行、将修改范围限制在项目目录内的写入访问限制，以及允许管理员强制实施全组织权限策略且用户无法覆盖的管理设置。

可观察性与审计 Observability and auditing

访问控制用于防止未经授权的操作，而可观察性则用于揭示实际发生的情况。若缺乏全面的日志记录和审计轨迹，将无法验证访问控制的有效性、调查安全事件或证明合规性。有效的可观察性不仅记录智能体执行了什么，还包括执行的原因以及授权主体。

在对其他检测能力进行投入之前，应优先构建两项核心指标：停留时间（即异常发生至人工发现之间的时长）以及覆盖率（实际得到调查的警报比例）。这两项指标是AI辅助自动化最具杠杆效应的领域，在漏洞利用窗口显著缩短的当下尤为关键。

操作日志记录 Action logging

全面的日志记录能够捕获智能体执行了哪些操作、何时执行以及在何种权限下执行，从而为事件调查、合规证明和行为分析奠定基础。

层级

能力

实施方式

Foundation

包含时间戳与上下文的智能体操作全面日志

记录所有工具调用、数据访问和外部通信。包含智能体身份、操作详情及请求上下文。根据监管要求保留日志。

Enterprise

具备完整性验证的不可变审计轨迹

将日志写入仅追加存储。实施日志完整性的密码学验证。复制日志以防止单点篡改。

Advanced

实时流式传输至SIEM并支持关联分析

将日志流式传输至集中式安全监控系统。与其他安全事件进行关联分析。针对可疑模式启用实时告警。

审计是理解系统内部运行状况的基础，智能体环境亦是如此。不同层级实现之间的核心差异在于日志的完整性以及任意时刻所能获得的实时可见性程度。

不可变性在企业层实现，可有效防止未经授权的修改。可见性与关联分析在高级层提供，使组织不仅能够理解已发生的事件，还能掌握当前正在发生的情况并识别趋势。

可追溯性 Traceability

日志记录单个操作，而可追溯性则将这些操作连接成完整的序列，将每个智能体决策追溯至最初的触发事件。这有助于在事件调查中进行根本原因分析并明确责任。

层级

能力

实施方式

Foundation

将智能体操作与触发事件关联的请求ID

为每个用户请求生成唯一标识符，并在所有后续智能体操作中传播该ID。支持按请求链过滤日志。

Enterprise

跨多智能体工作流的分布式追踪

实施OpenTelemetry或类似标准以实现跨智能体追踪。捕获时序和依赖关系信息。可视化跨智能体边界的请求流。

Advanced

从输入到输出的完整溯源链（含中间步骤）

记录完整的决策历史，包括检索的上下文、工具输出和推理步骤。支持回放智能体决策以进行审计。满足监管机构对算法可解释性的要求。

与系统和服务层面的事件审计不同，可追溯性聚焦于智能体自身的操作，包括内部决策、工具调用、子智能体生成等。此处层级的递进反映了组织对可追溯性深度的不同要求。

实用提示：Claude代码通过提供OpenTelemetry指标来跟踪和审计智能体活动、为云环境中的所有操作提供审计日志记录、为复杂命令提供自然语言描述以实现易于阅读的可追溯性，以及配置变更挂钩（用于在会话期间审计或阻止设置更改）来实现上述功能。

行为监控与响应 Behavioral monitoring and response

可观察性用于捕获智能体执行了什么，而行为监控则用于判断这些操作是否正常或存在可疑之处。日志和追踪提供数据基础，但检测入侵需要理解基线行为并识别偏差。有效的监控应从被动调查转向主动威胁检测。

基线建立 Baseline establishment

建立智能体行为的基线能够有效检测可能表明入侵或故障的异常情况。

层级

能力

实施方式

Foundation

手动定义预期智能体行为模式

记录智能体预期能力和访问模式。定义应触发告警的边界。随着智能体功能演进，定期审查并更新定义。

Enterprise

从正常操作中自动学习基线

部署监控系统观察智能体行为并建立统计基线。识别典型的工具使用模式、访问频率和数据量。

Advanced

持续基线优化与漂移检测

随着智能体行为的合法演进更新基线。检测可能表明缓慢投毒攻击的渐进漂移。对突发异常和渐进偏差均发出告警。

明确智能体的“正常”行为特征具有双重意义：

首先，它为基于ABAC（属性基访问控制）的访问管理提供了行为特征参数，可标记或限制不符合既定模式的请求；

其次，它提供了恢复基准点，当配置变更导致性能下降或恶意攻击者入侵智能体服务时，通过捕获的基础数据即可将智能体恢复至已知的正常状态，而无需从头重建。

异常检测 Anomaly detection

及早检测异常可显著限制损害。通过识别偏离预期行为的偏差，可在被入侵智能体造成重大危害之前提供预警，从而实现以检测速度而非发现速度进行响应。

层级

能力

实施方式

Foundation

基于阈值的明显偏差告警，并辅以自动化初筛

为API调用频率、数据访问量和错误频率等指标定义阈值。超出阈值时触发告警。在人工介入前，通过自动化流程对每条告警进行初筛调查。

Enterprise

可调敏感度的统计异常检测

应用统计方法识别异常模式。调整敏感度以平衡检测率与误报率。对多指标异常进行关联分析。

Advanced

具备上下文感知的机器学习行为分析

部署基于正常智能体行为训练的机器学习模型。纳入时间、用户活动和业务周期等上下文信息。检测阈值方法难以发现的微妙异常。

异常检测直接依赖于您在前一节中建立的基线。若对正常行为缺乏清晰认知，便无法确定何为异常现象。基线越完善，检测系统区分真实威胁与常规波动的能力就越强。

自动化响应 Automated response

只有在能够迅速响应以控制损害的情况下，检测异常才具有重要意义。人工响应会导致延迟，使受感染的智能体程序仍持续运行；而自动化响应则能通过即时采取行动（从终止会话到以机器速度撤销凭证）来最大限度降低风险暴露。

这里有一条明确原则：应自动化事件记录流程，而非决策过程。系统模型需具备记录功能、捕获操作痕迹、追踪并行调查路径以及生成事后分析报告的能力；而人工则应负责发起风险控制指令、执行信息披露操作以及处理客户沟通事务。

层级

能力

实施方式

Foundation

向安全团队告警并提供模型生成的初筛上下文

将异常告警路由至安全运维团队。由分诊智能体在人工查看前生成结构化处置意见（查询、思考、报告）。为常见告警类型建立响应流程。

Enterprise

自动遏制措施（含会话终止和访问撤销）

对高置信度威胁实施自动化响应。终止可疑智能体会话。在调查期间撤销相关凭证。

Advanced

具备分级升级的编排式响应剧本

部署SOAR能力以实现自动化调查和响应。根据威胁严重程度实施分级响应。跨多个系统协调遏制措施。

通过将行为基准线与异常检测相结合并配备自动化响应机制，偏离既定行为模式的智能体可在造成损害前触发自动权限降级或完全关闭。该自动化响应方案应由组织自行定义，针对具体风险量身定制，并确保对运营影响最小化。

实用提示：Claude代码通过以下方式实现支持：提供命令注入检测功能，即使可疑命令与允许列表中的模式匹配也会将其标记；采用失败封闭匹配机制，将未识别的命令默认设为需人工批准；以及通过分析完整请求内容进行上下文感知分析，以识别潜在有害指令。

输入验证与输出控制 Input validation and output controls

监控与响应在威胁出现后进行捕获，而预防则在威胁启动前将其阻断。输入验证在边界处阻挡操纵尝试，在智能体处理前拒绝恶意指令。输出控制则约束智能体可产生的内容，即使攻击者成功影响智能体行为，也能限制数据泄露和有害操作。

输入净化 Input sanitization

智能体难以可靠地区分合法指令与嵌入用户输入中的恶意载荷。输入验证提供外部过滤机制，在智能体处理前拒绝可疑内容。

层级

能力

实施方式

Foundation

基本输入验证与长度限制

根据预期模式验证输入格式。强制执行最大长度限制。拒绝明显格式错误的输入。

Enterprise

具备已知攻击模式检测的内容过滤

部署已知注入技术的模式匹配。过滤编码载荷。阻断包含可疑指令模式的输入。

Advanced

多层验证、宪法分类器与聚焦技术

按顺序实施多种检测方法。使用基于对抗样本训练的AI分类器。应用聚焦技术清晰界定不受信任内容。

输入数据净化机制无法直接从传统技术迁移至智能智能体系统。SQL注入攻击具有明确的攻击模式和受限的输入字段，而智能智能体的输入数据则具有自由形式且难以预测，因此简单的验证规则已不足以应对。

尽管如此，仍可定义预期数据结构、设置最大长度限制，并在数据传入智能体前过滤已知的恶意攻击模式。在企业级应用层面，在数据传递给智能智能体之前进行已知威胁的模式匹配及有效载荷过滤，能够有效拦截更复杂的注入攻击手法。

高级防护层还新增了“重点识别”功能——该技术利用预先建立的已知数据结构，帮助大语言模型区分系统指令与用户输入内容，并将后者视为可信度较低的信息。

如果您正在开发自己的模型，在训练过程中也可以应用诸如宪法分类器之类的缓解技术，以构建专门训练的LLM防护机制，用于监控输入和输出内容。您可访问我们的网站了解更多关于我们的研究以及宪法分类器的有效性信息。

实用提示：Claude代码通过提供输入净化功能（可防止命令注入）、默认启用阻止如curl和wget等高风险命令的命令黑名单、在独立上下文中处理网页内容以防止提示注入的隔离上下文窗口，以及对所有出站连接进行网络请求审批来实现这些功能。

输出过滤 Output filtering

输出过滤用于防止智能体泄露敏感数据或生成有害内容。即使安全措施完备的智能体，也可能被操纵生成可能暴露凭证、泄露机密信息或促成社会工程攻击的输出。

层级

能力

实施方式

Foundation

针对敏感数据模式的输出过滤

扫描输出中匹配PII、凭证和敏感业务数据的模式。对检测到的敏感内容进行阻断或脱敏。记录过滤事件。

Enterprise

输出交付前的语义分析

对输出含义而非仅模式进行分析。检测编码敏感数据的尝试。识别可能用于社会工程的输出。

Advanced

高风险操作的人工介入审批

在执行具有重大后果的操作前要求人工审核。提供清晰的操作意图描述。对审批决策进行审计记录。

输入数据清洗技术同样适用于输出数据过滤，但其目标有所不同：输入数据清洗旨在保护系统组件免受恶意攻击者侵害，而输出数据过滤则主要用于防止数据丢失。

这一阶段的优势在于您完全掌握所处理的数据内容，从而能够精准制定相应的防护策略。在任何层级中，人工复核都具有重要价值；对于高风险操作而言，人工审核更是不可或缺的环节。

完整性与恢复 Integrity and recovery

预防与检测假设智能体正常运行。当控制措施未能完全阻止入侵时，需要可验证的配置和快速恢复能力。无法直接操纵输入的攻击者会转向针对智能体配置，从源头修改其行为。完整性保护确保配置保持可信。恢复能力则在攻击成功时快速恢复至已知良好状态。

配置完整性 Configuration integrity

配置文件控制智能体行为，因此成为极具吸引力的攻击目标。获得文件系统访问权限的攻击者可通过修改配置禁用安全控制、授予过多权限或更改智能体指令。完整性保护能够检测并防止未经授权的配置变更。

层级

能力

实施方式

Foundation

版本控制的智能体配置

将配置存储于版本控制系统中。配置变更需经过审查。维护所有变更历史记录。

Enterprise

带部署验证的签名配置

对批准的配置进行密码学签名。部署前验证签名。拒绝未签名或签名无效的配置。

Advanced

带证明的不可变基础设施

以不可变镜像形式部署智能体。执行前通过证明验证镜像完整性。替换而非修改正在运行的智能体。

配置完整性是较为容易实施的管控措施之一，因为大多数组织已具备相应的基础架构。版本控制、代码审查以及CI/CD流程对智能体配置的适用方式与应用程序代码完全一致。

关键在于必须以同等严谨的态度对待智能体配置，修改后的配置可能与代码漏洞同样具有破坏性，但往往更易被利用。

在基础设施层面，同样的严谨要求催生了另一种应对策略：对于自动更新可能导致系统故障的风险可接受的组件，应启用自动更新功能。手动审批步骤会增加延迟，而延迟现已成为主要风险。

应将“启用自动更新”与“部署前验证签名”视为互补而非矛盾的关系，来自可信供应商的带签名更新应自动通过；未签名的变更则应直接拒绝。

恢复能力 Recovery capabilities

当入侵发生时，恢复速度直接决定损害程度。恢复能力能够快速将系统恢复至已知良好状态，最大限度缩短被入侵智能体的运行窗口并限制爆炸半径。

层级

能力

实施方式

Foundation

文档化的回滚流程

记录恢复先前智能体版本的详细步骤。定期测试回滚流程。维护先前版本以支持快速恢复。

Enterprise

带健康检查的自动化回滚

实施自动化部署流程并验证智能体健康状态。健康检查失败时自动回滚。维护部署历史以支持快速回退。

Advanced

具备自动修复的自愈系统

部署支持失败自动重启的智能体。实施隔离故障组件的熔断机制。当恢复失败时自动供应替换智能体。

经过文档化的回滚流程虽能提供起点，但未经验证的流程往往在最关键时刻失效。通过结合健康检查实现自动化回滚，可消除人工响应时间的影响，在操作人员察觉之前就及时发现故障或异常的组件。

在高级层面，自愈系统更进一步实现了完全无需人工干预，但基础机制依然至关重要：若无法可靠地将系统恢复至已知正常状态，则无论采用何种自动化方案都无法解决问题。

实用提示：Claude代码通过提供版本控制设置来实现这一功能，其中权限配置和MCP服务器允许列表均提交至源代码控制系统以供审查和回滚；包含强制执行组织级策略且用户无法覆盖的管理设置；以及具备自动清理功能、可实现不可变执行环境的隔离云虚拟机。

AI治理策略 AI governance policies

技术控制负责执行安全要求，而治理策略则决定组织何时以及如何使用AI。许多组织在安全事件发生后才发现，现有的策略对智能体系统提供的指导存在明显不足。

层级

能力

实施方式

Foundation

文档化的可接受使用与事件响应策略

定义可接受的AI使用场景和禁止活动。建立针对智能体入侵的事件响应流程。明确智能体部署的审批责任人。解决员工未经IT批准使用LLM的影子AI问题。

Enterprise

具备利益相关方监督的正式治理框架

建立跨职能的AI治理委员会，成员包括安全、法律、合规和业务利益相关方。实施新智能体部署的审批流程。制定专门针对智能体系统的风险评估程序。定期开展策略审查。

Advanced

持续策略执行与自动化合规检查

将策略检查集成到部署流水线中。实施策略违规的自动化检测。建立策略合规性和有效性的度量指标。维护治理决策的审计轨迹。根据事件教训更新策略。

技术控制仅能执行治理所定义的内容。若缺乏清晰的策略，团队在智能体可执行的操作、可访问的数据以及出现问题时的责任归属等方面将做出不一致的决策。

影子AI是这一阶段的突出风险，即员工在未经IT部门知晓的情况下采用LLM工具，从而绕过框架中的所有控制措施。从制定文档化的策略和事件响应流程开始，可为组织提供坚实的构建基线。

随着治理的成熟，目标是将策略执行从定期审查转变为直接嵌入部署流水线的自动化检查。

实用提示：Claude代码通过提供以下功能来实现策略管理：可让管理员在整个组织范围内强制执行安全策略的托管设置；仅支持托管权限限制（如“仅允许托管权限规则”选项，防止用户自定义权限规则）；以及通过 MDM 或操作系统级别的策略实现集中化配置的服务器托管设置。

第四部分：智能体实施工作流 Agent implementation workflow

成功的智能体实施需要一个建立在上述安全架构之上的、明确且可重复的流程。每个阶段都针对特定的安全控制，同时缓解已识别的威胁。

第一阶段：识别需求 Identify requirements

明确你需要满足的监管要求、试图实现的运营目标，以及你所处的约束条件。在开始构建之前，确保安全、法律、合规和业务利益相关方保持一致。

第二阶段：管理供应链风险 Manage supply chain risks

供应链完整性是所有 IT 形式面临的共同挑战。当设备、服务和应用程序可能在从来源到消费者的传递过程中被篡改时，威胁随时可能被引入。为缓解这一问题，必须验证组件完整性，确保其未被篡改。

人工智能物料清单 (AI-BOM) AI Bill of Material (AI-BOM)

AI 物料清单（AI-BOM）的概念将软件成分分析扩展至 AI 组件，追踪模型溯源、训练数据集血缘和微调参数。OWASP 的 AI-BOM 扩展了其 CycloneDX ML-BOM，作为网页工具提供。

将 AI-BOM 集成到现有供应链安全流程中，对模型组件与对代码依赖项同等严格地对待。

如果你并未在本地运行大语言模型，请仔细考量所使用服务的来源。
Anthropic 是业内首批取得负责任人工智能ISO 42001 认证的人工智能企业之一。

自动评估依赖项健康状态 Evaluate dependency health automatically

绝大多数软件供应链都基于开源组件构建，而大部分开源项目并未签订服务等级协议。OpenSSF 评分工具会依据分支保护、模糊测试覆盖率、签名发布、维护者活跃度等指标，自动为每一个依赖项打分。

该工具可集成至持续集成流程中，帮助识别已无人维护的软件包。请将其与人工智能物料清单（AI-BOM）联动部署，确保模型组件与代码依赖项能够同步展示风险指标。

审计依赖树，排查冗余组件 Audit your dependency tree for redundancy

多数大型代码库会堆积大量功能重复的类库（例如多个HTTP客户端、多款JSON解析器），这类组件不会带来任何功能增益，反而会持续扩大攻击面。

可使用前沿大模型分析依赖锁定文件，识别相互重叠的依赖项，并梳理出迁移改造方案。这项工作通常仅需一小时，便能梳理出具备合并优化价值的冗余组件。

借助可达性分析缩小修复范围 Narrow remediation with reachability analysis

评估漏洞代码的可达范围，仅针对真正存在风险的最小代码集合开展修复工作。将该流程与持续交付流水线结合，在版本更新时执行回归测试，这样就能快速部署漏洞补丁，同时确保原有业务功能不受影响。

针对小型无人维护依赖项，采用AI重构自研方案 AI vendoring for small unmaintained dependencies

对于评分较低、且已停止维护的小型依赖组件，借助前沿大模型重新实现业务实际用到的功能子集，往往比继续依赖原有组件更加安全。

请将该方案视作应对劣质依赖项的标准处理方式，而非临时的变通手段。

加密签名 Cryptographic signing

从开发到生产部署的全流程中，对模型与软件进行签名。若仅在部署环节验证签名，将无法识别部署后发生的篡改行为。运行时校验能够持续确认程序与模型的完整性。

供应商安全评估 Vendor assessments

在选用第三方工具前，全面审查工具提供商的安全规范。评估其版本更新机制存在的供应链风险，并调研供应商过往安全事件记录以及漏洞响应能力。在运行阶段对组件进行校验，及时发现部署后的篡改行为。

企业的第三方风险管理流程中，应明确要求合作供应商说明：针对当下利用AI加速漏洞利用的攻击趋势，其已制定哪些应对方案，以及是否会对自身代码开展常态化安全扫描。

该评估要求同样适用于自由开源软件（FOSS）。下载对应软件后，直接对代码进行安全审计，并综合评估软件提供商。考察其是否拥有活跃的大型社区、是否具备长期维护支持的历史等。

当然，这些条件并不能完全排除其他贡献者植入恶意代码的可能，但至少可以确认软件原作者并非恶意攻击者。

实用技巧：完成代码安全校验后，请在不可篡改的平台上自行部署运行MCP服务端。手动为服务端程序添加加密签名，后续版本更新时，也需在上线生产环境前重复上述签名校验流程。

第三阶段：定义智能体行为边界 Define agent boundaries

明确规定每一个智能体的可执行操作、需要转交人工审批的场景，以及一旦出现安全问题所造成的影响范围。

分配唯一身份标识 Assign a unique identity

每一个智能体实例都必须配备基于加密技术的唯一标识，该标识需在智能体的全生命周期行为中保持不变。

如果没有独立身份，安全事件发生后，日志关联排查工作将无从下手。管理人员将无法定位是哪一个智能体访问了资源、触发了错误或是做出了某项决策。

唯一标识能够实现前文提到的全链路溯源，在排查异常行为或安全入侵事件时，可根据智能体筛选审计日志、还原完整操作链路，并将事件结果精准归属到对应的智能体实例。

实用技巧：Claude Code 会为每一次会话分配独立的会话ID，所有遥测数据都会关联用户账户唯一标识与组织ID，彻底避免身份混淆问题，实现精准的安全事件排查。

允许/禁止操作清单 Approved/prohibited actions

以文档形式明确界定智能体的允许操作与禁止操作，切勿仅依靠口头约定。如果明确规定智能体可读取客户档案、汇总信息、撰写回复内容，其行为边界就十分清晰；反之，若仅模糊地赋予智能体“协助客户服务”的权限，则边界完全失控。

相关权限管控需要落实到精细化执行层面。单纯口头限制智能体“禁止执行某操作”远远不够，必须通过权限机制从底层拦截违规行为。

实用技巧：Claude Code 原生支持在配置文件 settings.json 中实现此类精细化访问控制，可结合全局配置、项目独立配置以及环境变量完成权限设定。

升级触发条件 Escalation triggers

升级触发规则用于界定哪些操作必须先经过人工审核，才可继续执行。高价值交易、访问敏感数据、与外部主体开展通信等行为，均需设置人工审批流程。合理设定审批阈值，在安全防护与运营效率之间取得平衡。

Claude Code 原生支持该能力，既可在 settings.json 中通过 ask 参数配置，也可借助钩子函数实现。

范围限制 / 最小智能体权限原则 Scope limits / Least Agency

范围限制用于约束智能体可访问的系统、数据与各类资源。即便在已授权的操作范围内，智能体也仅能访问完成自身工作所必需的系统。

例如，客服类智能体即便依托的服务账号拥有相关权限，也不应允许其访问人力资源系统。

实现该原则的最优方式，是严格限制分配给智能体的账号权限。

举例来说，若通过证书认证的API接口为智能体开放数据库访问权限，在智能体无需写入权限的情况下，应仅授予只读权限；同时，只读权限也需进一步收缩，仅开放其履职所需的数据范围。

简言之，始终遵循最小智能体权限与默认拒绝原则。即便智能体被攻陷或凭证被盗，也能将安全事件的影响范围降到最低。

实用技巧：部分场景下，可将单个智能体的多项功能与业务目标拆分，交由多个独立智能体分别承担。这种能力与资源访问的隔离设计，会大幅提升攻击门槛：攻击者必须逐个攻陷多个智能体，才能逐步获取更多系统资源的访问权限。

重点注意：每一个拆分后的智能体都必须拥有独立ID与专属访问凭证。如果拆分多个智能体后，仍为其配置相同凭证，那么风险隔离的设计就完全失效了。

评估影响范围 Identify the blast radius

在完成允许操作、禁止操作、升级触发规则与访问范围限制的配置后，需要全面评估潜在的安全影响范围。假设智能体或对应系统遭到入侵，梳理可能引发的各类安全问题。

在此处运用“绝对不可行 vs 操作繁琐”判定原则进行校验。如果你的风险隔离方案仅依靠增加攻击难度（例如迫使攻击者发起大量请求、绕过多层限流规则）来防护，那么该方案终将被突破。

若当前风险等级仍无法接受，则需要调整前文各项配置，进一步收紧智能体的操作权限。

第四阶段：防范提示注入攻击 Defend against prompt injection

就像数据库等传统技术必须做好输入内容净化一样，我们也需要对传入智能体的各类信息进行管控与清洗。

防护策略必须同时覆盖两类攻击：来自用户输入的直接提示注入，以及依托外部数据源发起的间接提示注入。

除了升级触发规则与访问范围限制外，输入隔离、合规分类器以及缩小攻击面等手段，也能大幅降低提示注入攻击的风险。

输入隔离 Input isolation

输入隔离机制将所有自然语言输入内容统一判定为不可信数据。用户输入的文本、上传的文档、外部获取的内容，都必须经过安全校验，才能够影响智能体的行为。

微软推出的内容标记技术，通过明确划分不可信内容边界，将间接提示注入攻击的成功率从50%以上降至2%以内。

合规分类器 Constitutional classifiers

合规分类器可构建额外的安全检测层。这类基于人工智能的系统会扫描提示词与智能体回复，识别各类意图操控行为。

经测试，Anthropic 所采用的该方案可拦截95%的越狱攻击，同时不会造成拒绝正常请求的比例大幅上升。

缩小攻击面 Limit attack surfaces

缩小攻击面是一项经典的安全防护手段，同时也是缓解提示注入攻击最有效的方式之一。严格限制可与智能体系统交互的主体与资源。

若仅允许可信人员与可信资源接入系统，恶意攻击者劫持系统的能力将被极大削弱。

第五阶段：保障工具访问安全 Secure tool access

在智能体落地部署场景中，工具访问通道属于高风险攻击面。如果工具能力缺乏完善的管控机制，单个被入侵的智能体就可能引发大范围安全事故。

工具白名单 Tool allow-listing

通过工具白名单机制，限制智能体仅能使用已审批的工具。不要放任智能体调用任意可用工具，需根据不同智能体的业务职能，分别制定明确的工具许可清单。

同时遵循默认拒绝原则，拦截所有不在白名单内的工具调用请求。

根据所使用的智能体框架不同，白名单的实现方式也存在差异：部分框架要求在初始化时就为智能体明确指定可用工具，另一些框架则将工具统一纳入资源池管理。

无论采用哪种实现方式，都需要从两个维度进行管控。

第一重管控直接作用于智能体本身，通过内置的允许/拒绝权限规则实现拦截；

第二重管控部署在智能体外部，用于应对智能体自身或其运行环境被攻陷的情况。

最简便的实现方式是为工具调用增加身份认证：API接口采用证书认证，或是使用与调用方智能体身份绑定的短期令牌。即便是基础级别的安全要求，也严禁使用静态API密钥作为工具认证凭证。

实用技巧：Claude Code 支持通过 settings.json 在智能体层面配置精细化的工具权限管控，可结合全局配置、项目独立配置以及环境变量灵活设置。

工具能力限制 Capability restrictions

对已放行工具的具体能力进行约束。例如，邮件工具可仅开放读取权限，发送邮件功能则需单独审批；数据库工具允许执行数据查询，但禁止修改数据库架构。

在活动目录（Active Directory）等大型企业级服务中，通常会对分配的账号启用基于角色的访问控制（RBAC）实现该管控。

参数校验 Parameter validation

在执行工具调用前，对传入参数进行校验。和用户输入一样，工具调用参数也必须执行输入校验，拦截超出合理范围、包含可疑内容的参数。

参数校验工作需要同时在智能体端与工具端落地执行。

实用技巧：Claude Code 原生支持在智能体端通过钩子函数实现该能力。借助工具调用前置钩子（PreToolUse hook），可在参数发送前完成校验逻辑。

沙箱运行 Sandbox execution

当工具出现异常行为时，沙箱环境可实现风险隔离。采用网络访问受限、文件挂载受限、系统调用被过滤的容器沙箱或微型虚拟机，能够有效控制被入侵工具造成的破坏范围。

此外，还需配置限流与资源消耗管控规则，防范资源耗尽攻击。条件允许的情况下，部署熔断机制：当工具调用量超出预设阈值，或是在已部署基于属性的访问控制（ABAC）的场景中，工具使用行为偏离合规基线时，自动终止工具运行。

需要注意的是，限流规则仅能增加攻击难度、争取应急处置时间，无法彻底抵御蓄意发起攻击的智能体攻击者。

实用技巧：Claude Code 目前已支持沙箱能力，可实现文件系统隔离、网络隔离以及操作系统层面的强制管控。更多细节可查阅官方文档。

调用升级审批 Approval escalation

参照前文提到的升级触发规则，对高风险的工具调用行为启用同等管控，暂停执行并等待人工审核。

审核界面需清晰展示工具拟执行的操作，同时完整记录每一次审批结果。留存相关记录可为后续行为溯源、事件取证提供依据。

实用技巧：Claude Code 原生支持该审批机制，默认情况下所有工具调用都需要人工确认，同时可通过 settings.json 实现更精细化的规则配置。此外，还能借助钩子函数配置工具调用前后的自定义操作。

第六阶段：保护智能体凭证 Protect agent credentials

凭证防护用于阻止攻击者窃取、滥用智能体的身份认证信息。如果多个智能体共用凭证，或是依托通用服务账号运行，一旦单组凭证被盗，攻击者就能访问该账号下所有智能体可触及的全部系统。

为每一个智能体分配独立身份，结合加密认证机制，条件允许时再搭配硬件级身份绑定，既能缩小凭证被盗带来的影响范围，也可实现精细化权限管控与精准审计溯源。

借助大模型开展代码分析的攻击者，会第一时间定位到静态API密钥、硬编码凭证以及共用服务账号密码。因此，需默认认定这类凭证已处于不安全状态。

以身份提供商下发的短期凭证为基础方案 Short-lived, identity-provider-issued credentials as baseline

短期凭证能够大幅缩短凭证被盗后的可利用窗口期。将令牌有效期设置为分钟级（而非天级），可显著降低被盗凭证的利用价值。通过自动化续期机制，在不使用长期静态密钥的前提下，保障业务持续稳定运行。

在资源条件允许的场景下，搭建证书颁发机构（CA），落地基于证书的身份体系：由CA完成智能体注册、发放短期证书，并维护证书吊销列表或OCSP响应服务，实现证书实时有效性校验。

对于缺乏公钥基础设施（PKI）运维能力的企业，可选用云原生托管身份服务，以及 HashiCorp Vault 等密钥管理平台。这类工具可自动轮换凭证、集中吊销失效凭证，无需企业自行运维证书颁发机构，降低运营成本。

实用技巧：Claude Code 原生支持基于OAuth 2.0的身份认证，连接MCP服务端时可自动刷新令牌，彻底规避长期静态密钥带来的风险。此外，会话过程中为“需审批”类工具临时授予的权限，仅在当前会话内有效，会话结束后权限自动失效。

生产环境与敏感业务负载采用硬件绑定凭证 Hardware-bound credentials for production and sensitive workloads

面向生产系统与内部敏感工具，需将身份凭证与可信硬件绑定。即便主机被攻陷，攻击者也无法导出盗用凭证。该要求同时适用于生产服务间的接口调用，以及人员访问服务的场景。

凡是涉及人工身份认证的环节，默认启用可抵御钓鱼攻击的双因素认证（FIDO2 或通行密钥）；短信验证码类认证方式无法满足基础安全要求。

凭证隔离 Credential isolation

凭证隔离要求每一个智能体实例使用专属凭证。若多个智能体共用一组凭证，一旦凭证被盗，攻击者将获得所有关联智能体的访问权限；而吊销该凭证时，也会同时影响所有智能体的正常运行。

为每个智能体配置独立凭证，既能控制风险影响范围，也便于精细化权限管控与安全事件排查。

严禁将凭证硬编码在代码或配置文件中，应当在程序运行阶段，从密钥管理平台动态注入凭证；密钥管理平台需完整记录访问日志，并支持紧急吊销凭证。

实用技巧：Claude Code 将API凭证存储在操作系统凭证仓库中，而非配置文件内。通过 apiKeyHelper 配置项，可在运行时调用脚本从外部密钥仓库拉取机密数据，支持与各类密钥管理系统对接。

明确信任边界 Explicit trust boundaries

多智能体架构必须划分清晰的信任边界。智能体在接收其他智能体转交的任务前，需要先校验对方的身份与权限。

在多智能体协作流程的每一个环节都增设权限校验，不能默认发起任务的智能体具备合法权限。条件允许时，完整记录所有智能体间的通信数据，并对异常的任务转交行为进行标记，供管理人员核查。

实用技巧：Claude Code 会按需创建临时子智能体，子智能体作为主智能体的功能延伸，权限等级与主智能体保持一致。从外部监控与访问视角来看，主智能体与子智能体并无明显区别，但 Claude Code 会对二者进行区分，相关日志可通过 OpenTelemetry 或项目目录下的 JSONL 格式会话记录查看。

即时权限（JIT）Just-in-time (JIT) access

即时权限机制遵循“按需授权、用完即回收”的原则。摒弃长期常驻权限模式，智能体仅在执行特定操作时，申请限定资源范围、限定有效时长的临时凭证。

即便智能体运行环境被攻陷，攻击者也无法盗取缓存凭证，大幅降低安全风险。临时令牌的有效期应设置为分钟级，而非小时或天级。

实用技巧：即时权限防护能力极强，但落地复杂度较高。如果你的运行环境具备部署条件，即便仅实现部分功能，也建议落地应用。该机制属于零信任架构的高级实践，能够极大提升风险抵御能力。

基于属性的访问控制（ABAC）Attribute-based Access Control (ABAC)

基于属性的访问控制在授权前会综合校验多项维度信息，包括：智能体身份、资源敏感度、请求执行的操作、访问时段、访问来源以及当前风险评分。

这种上下文感知的管控模式可灵活配置策略：例如允许读取低敏感数据，访问高敏感数据则要求二次强认证；允许常规数据查询，但拦截批量数据导出操作。

ABAC 策略可根据场景动态适配，无需针对每一种访问场景单独新建角色。

实用技巧：和即时权限一样，基于属性的访问控制也属于高级安全实践。管理人员可自主选择校验维度，并结合不同智能体的业务场景配置适配规则。配置得当的情况下，可实时发现并拦截违规访问行为。

第七阶段：保护智能体记忆数据 Safeguard agent memory

记忆数据防护用于阻止攻击者篡改智能体上下文，或是从记忆存储中窃取敏感信息。与针对单次会话的攻击不同，记忆污染攻击会长期留存，即便在初始入侵行为结束后，仍会持续影响智能体的行为表现。

完善的防护体系需要实现用户与会话隔离、存储内容完整性校验，并制定敏感上下文数据的留存时效规则。

记忆隔离 Memory isolation

记忆隔离机制在不同用户、不同会话之间划分严格的数据边界。若缺乏该隔离机制，某一会话中被污染的上下文数据会干扰后续会话，被攻陷的会话也能读取历史会话的数据。

会话隔离可确保单次对话的数据不会影响其他对话，有效限制记忆污染攻击的持续影响。

实用技巧：Claude Code 默认启用会话隔离机制。每一次会话都会加载全新的上下文环境，子智能体运行在独立的上下文窗口中，无法读取主会话的历史对话数据。

上下文完整性校验 Context integrity validation

在调用已持久化的上下文数据前，必须执行完整性校验。借助加密哈希值识别未授权篡改行为，同时通过来源溯源记录每一条记忆数据的出处。

结合两项能力，企业可及时发现数据篡改行为，并隔离来自不可信数据源的记忆内容。

完整性校验需要在每一次读取数据时执行，而非仅在数据存储时校验。为每一条记忆数据标记来源与录入场景，将哈希值单独存储在防篡改日志中，与原始记忆数据物理隔离。

一旦校验失败，立即拒绝使用可疑上下文，并向安全团队发出告警，切勿继续调用已被污染的记忆数据。

上下文留存策略 Context retention policies

留存策略用于限定敏感上下文数据的保存时长。为数据设置生命周期，让未通过校验的记忆数据自动过期，避免被污染的内容长期生效。

针对外部输入、未校验工具输出等高风险上下文数据，缩短留存周期，在不影响核心业务数据使用的前提下，降低安全暴露风险。

检测到记忆污染攻击后，应急恢复能力取决于前期预案是否完善。采用带版本管理的记忆存储方案，可回滚至安全可信的历史状态；同时建立数据隔离流程，将可疑数据单独封存，完成取证分析后再做删除处理。

在安全事件发生前，提前演练数据回滚流程，并制定明确标准，区分场景判断是仅做针对性修复，还是彻底清空全部记忆数据。

实用技巧：Claude Code 支持自定义数据留存策略。通过 cleanupPeriodDays 配置项，可设置本地会话记录的自动删除时效。

此外，系统会在每一次内容编辑前创建状态快照，用户可通过回退功能（连续按下 Esc 键或输入 /rewind 指令）恢复至安全状态。支持单独还原代码修改内容、对话上下文，或是同时还原两者。

企业版部署模式下，服务端数据默认留存30天。更多详情可查阅数据使用与快照管理相关文档。

第八阶段：核心指标监测 Measure what matters

如果智能体系统如同黑盒一般无法观测，管理人员就无法判断系统是否正常输出预期结果，或是已被入侵、沦为攻击者的工具。

运行可视性至关重要：不仅要监控智能体的行为动作，更要追溯行为背后的原因，并且保证相关数据能够及时推送，支撑快速处置。

上述能力，直接决定运维团队能否尽早发现异常行为，或是最终遭遇重大安全事故。

异常驻留时长与告警覆盖率 Dwell time and coverage

首要监测两大指标：异常驻留时长（从异常发生到运维人员察觉的时间间隔）、告警覆盖率（已核查告警占总告警的比例）。借助AI自动化能力，可显著优化这两项指标；在漏洞可利用窗口期不断缩短的当下，这两项指标的重要性愈发凸显。

行为可解释性 Explainability

行为可解释性指：能否将智能体的任意操作，溯源至最初的触发输入，并清晰说明智能体做出对应响应的原因。

对于金融、医疗、个人信息等受监管行业而言，行为可解释性是硬性要求，不可或缺。该能力可助力企业完成合规举证、开展安全事件排查，同时维护用户信任。

安全团队需要明确回答两个问题：若智能体出现异常行为，能否在一小时内发现？团队人员轮休期间，是否无需担心存在未被察觉的违规行为？如果无法给出肯定答案，则说明基础安全管控体系仍存在短板，需要继续优化。

行为监测 Behavior

行为合规性监测用于判断智能体的操作是否符合预设安全策略与正常行为模式。在灰度部署阶段建立智能体行为基线，持续监测长期行为偏离情况。

核心监测指标包括：工具使用习惯、输出内容特征、决策倾向分布等。即便没有单条操作触发告警，一旦发现智能体突然更换常用工具、输出内容特征发生明显变化，也必须启动核查流程。

设定合理的行为偏差阈值，一旦超出范围立即标记并推送核查。持续性行为监测能够发现基于规则检测无法识别的隐性入侵行为，例如记忆污染导致的行为逐步偏移、潜伏期较长的供应链攻击等。

检测速度 Detection speed

该指标衡量您的团队在智能体行为异常时产生警觉的响应速度。分钟与天之间的差异直接反映故障控制效果，关键系统需实现一小时内目标识别；测量周期为从异常发生到人工察觉的时间间隔。

第五部分：以自主威胁的速度开展防御运营 Defensive operations at the speed of autonomous threats

保护你部署的智能体只是工作的一半。另一半是以足以应对同样经过 AI 加速的攻击者的速度运行安全运营。

当漏洞利用在补丁发布后数小时内出现时，响应流程需要数天才能完成就已经太慢了。自主化的对手可能在人工审查员处理完一个告警的时间里，攻击数百甚至数千个系统。

自主防御的理由 The case for autonomous defense

传统安全运营假设由人类分析告警并决定响应。当攻击者能够以比分析师响应速度更快地探测防御、调整技术和泄露数据时，这种方法就会力不从心。答案不是将人类从决策循环中移除，而是将人类从文书工作中解放出来，让其专注于决策本身。

将证据收集、丰富、关联和文档记录自动化。让人类负责遏制决策、披露决策和客户沟通决策。事件期间，人类决策的速度绝不应受到证据收集或报告撰写的制约。

在告警队列前端部署模型 Put a model at the front of your alert queue

每个传入的告警都应该在人员看到之前，经过自动化的初步调查。一个对你的安全信息与事件管理系统（SIEM）拥有只读访问权限和一套范围明确查询工具的分类智能体，可以将分析师的注意力引导到最需要人工判断的告警上。

实践起点：选择一条已知误报率较高的嘈杂规则。将前沿模型接入其告警流，赋予其对底层数据的只读访问权限，并让其为每次触发生成结构化处置建议。与人工审查员的意见进行两周的一致性比对。如果一致性可以接受，扩展到下一条规则。不要试图一次性将整个告警队列自动化。

自主化安全编排 Agentic security orchestration

如今，安全编排、自动化与响应（SOAR）平台能够帮助安全团队整合并协调各类安全工具，实现重复性任务的自动化处理，并优化事件响应与威胁应对的工作流程。

下一代SOAR技术是智能型SOAR（Agentic SOAR），它具备适应新型安全场景的自适应能力，从而突破传统操作手册的限制，并能在数秒内直接应对由人工智能驱动的恶意攻击。

针对可疑流量或异常行为的响应措施可包括：在网络或系统层面实施自动隔离；在用户或资源层面动态调整访问控制策略；终止会话；以及撤销凭证权限——所有这些操作均通过第三部分中构建的身份认证隔离机制及短生命周期凭证基础设施来实现。

构建针对MITRE ATT&CK的检测覆盖范围地图 Map detection coverage against MITRE ATT&CK

MITRE ATT&CK提供了大多数检测工具已采用的标准攻击技术术语体系。明确哪些技术可被检测、哪些无法检测，比单纯追求“提升检测能力”更为实用。应优先覆盖横向移动和凭证访问环节,这正是AI加速攻击者从被攻陷的智能体身份中获取最大利用空间的关键领域。

Atomic Red Team是一个开源库，包含与ATT&CK技术对应的小型安全测试；只需运行少量测试并核验现有日志记录是否成功捕获相关事件，即可在半天内生成详尽的覆盖范围地图。

针对五起同时发生的攻击事件开展桌面演练（而非单一事件）Run a tabletop for five simultaneous incidents, not one

标准演练假设周一发生一次关键 CVE 并伴随有效漏洞利用；若改为模拟同一周内发生五起事件，则需相应扩展漏洞收集、分类处理及修复追踪流程,仅依赖电子表格和每周会议的工作方式难以满足需求。需为检测量按数量级增长做好规划，并在实际发生前进行演练。

需提前制定紧急变更流程 Establish emergency change procedures in advance

针对生产补丁实施为期两周的变更审批周期本身即存在安全隐患；紧急管控措施（如停用服务、轮换凭证权限或阻断网络路径）同样存在此类风险。

应事先明确具备授权权限的人员、授权审批时限及所需证明材料，并演练完整的授权流程，确保在突发事件中不会出现临时调整的情况。

防御智能体需通过验证机制建立信任 Trust through verification for defensive agents

智能体型SOAR系统功能强大，其攻击半径可能相当广泛。必须严格遵循前文所述的零信任原则：组织不应像信任其他自主系统那样盲目信任防御自动化系统。经过验证的完整性确保智能体型SOAR系统未被攻破；一旦攻击者入侵防御智能体，便会获得强大的操作权限。

防御智能体应在具备严格完整性验证的加固环境中运行；有限的攻击半径限制了其行动范围；即便是可信的防御系统也应遵循最小权限原则。

自动化响应功能需针对具体操作场景设定明确边界；清晰的升级路径能确保人员及时掌握信息并保持控制权；自动化响应需生成警报供人工审核；高影响响应即使在自动化系统建议时仍需人工批准。

前述监控与审计功能同样适用于防御智能体,其所有操作均需像其他智能体活动一样进行日志记录、追踪和审查。这确保了系统的安全性与可控性。

第六部分：从原则走向实践 Fromprinciples topractice

智能体面临的威胁与传统 IT 不同，而零信任提供了应对这些威胁的框架。

验证每个智能体的行为，授予最小必要权限，在入侵发生时控制损害。身份实现归因和访问控制。可观测性揭示发生了什么。行为监控检测异常。输入和输出控制在边界处阻止攻击。完整性保护支持恢复。防御运营以威胁的速度行动。

缺少任何一项能力，攻击者就会利用这一缺口。

三层框架适应不同的组织需求。从基础层开始，但要认识到，基础层的门槛已因应 AI 加速的进攻而提高：短期令牌、具有密码学根基的身份、基于身份的隔离和自动化初步分类，现在是入场要求，而非可望而不可及的目标。

随着部署规模扩大和风险增加，系统地推进。这些层级提供的是路线图，而非终点线。威胁在演进，控制措施也必须随之推进。

对于受监管行业，《健康保险流通与责任法案》（HIPAA）、金融业监管局（FINRA）、《通用数据保护条例》（GDPR）、联邦风险与授权管理项目（FedRAMP）和《欧盟人工智能法案》已经施加了与零信任高度契合的要求。合规截止日期日益临近，而竞争压力意味着智能体部署不会放缓。

对于安全领导者而言：合规截止日期是真实存在的，威胁格局在持续演变，而事件发生后再追加控制措施的成本，远高于现在就将其构建进去。本文档中的框架为你的团队提供了具体的出发点。

真正赢得这场竞赛的，不是 AI 技术最先进的组织，而是安全基本功最扎实的那些。它们的代码质量高到让 AI 扫描都难觅漏洞，它们的智能体架构从设计之初就预设了"已遭入侵"的最坏情况。

对于架构师和工程师而言：从基础层开始，验证你的控制措施，并随着部署规模扩大推进各层级。将"不可能 vs. 繁琐"测试作为常态化的设计审查问题。威胁会演进，你的防御也应如此。

白皮书至此结束。

当攻防双方都用上 AI，这场较量的本质已不再是技术先进性的比拼，而是安全架构基本功的较量。

零信任不是新鲜事物，但将其扩展到智能体系统，需要重新审视每一条原则：身份从标签升级为密码学证明，权限从静态角色进化为上下文感知决策，监控从被动日志转向主动行为基准。

这一转变的深层含义在于，当漏洞利用窗口从数月压缩至数小时，那些依赖"摩擦"而非"壁垒"的防御措施将全面失效。硬件绑定凭据、即时访问权限、自动化响应手册，这些不再是进阶目标，而是生存底线。

三层框架提供的不是终点，而是演进路线图。在这场以机器速度展开的攻防战中，唯一确定的是：你的防御成熟度，必须与你部署的智能体能力保持同步。否则，每个智能体都将成为攻击者手中的利器。

从提示词注入到内存污染，从供应链风险到权限滥用，AI智能体的安全漏洞远比想象中更隐蔽、更致命。

传统零信任无法适配AI自主化场景，三层分级防御、最小智能体权限、全链路溯源，才是当下最优解。

你的企业是否已经落地AI智能体安全管控？目前正在面临哪些安全与合规难题？欢迎在评论区留言交流。

这份Anthropic官方白皮书，摒弃空泛理论，覆盖全行业落地场景与合规要求，是2026年企业AI安全建设的权威参考标准。

需要中、英完整版PDF白皮书的朋友，可在公众号后台回复：260602，免费获取。

看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，也可以给个星标，你的支持就是我的动力。

全文完

王吉伟频道图书《一本书讲透Agentic AI》已出版，完整构建Agentic AI在企业应用中的全景式知识体系，内容跨越 “基础认知-技术原理-业务应用-组织战略-实操指南” 五大板块，为读者提供从认知共识、技术解构、业务对接到组织变革的端到端路线图，欢迎大家关注。

【赠书福利进行中】

感谢大家的长期关注与支持。欢迎小伙伴们在文末留言与转发，王吉伟频道会随机选取读者，《一本书讲透Agentic AI》包邮到家。

【文末福利1 】：后台发消息研报2026，获取15篇 2026年 AI Agent研报。

【文末福利2】：后台发消息Workflow，获取 Agentic Workflow 相关25篇论文。

【文末福利3】：后台发消息agentic，获取Agentic AI相关资源。

【文末福利4】：后台发消息RPA Agent，获取相关论文和研报。

1、

2、

3、

4、

5、

6、

7、

8、

10、

Anthropic重磅出品，权威企业级Agent安全应用白皮书：AI智能体零信任安全

热搜

热门跟贴

热搜

热门跟贴

相关推荐

从能力到商品：Skills市场正在重塑开发者的生产方式

黄仁勋肩扛金箍棒，主动上台耍了一阵，玩得很开心

微软全面押注智能体时代：发布新模型、展示新终端、重塑应用生态

浏览器秒变手机！中科院开源Agent训练场，微信、原神都能跑

热播综艺被指“一车明星安全带全是P的”，公安部交通管理局发声：安全不是做样子给别人看，安全更容不得自欺欺人

亚洲唯一的根服务器在日本，那日本可以控制中国网络吗？

从手机PC机器人到数据中心，高通“计算连续体”成Agent时代AI路基

DataMaster：当AI开始成为自己的数据工程师

鲜奶雪糕包装印“不加一滴水”配料表首位竟是水 厂家：系旧包装，已改名“一滴水”

能源Agent正在“觉醒”，思格新能源发布行业首个全域AI智能体

阿里又发了款智能体模型：11小时造出学英语App，还能看懂地铁线路图

【英伟达GTC】老黄联手微软搞出地表最强轻薄本？

黄仁勋为何说“买得越多，赚得越多”？看完Vera Rubin就懂了

天涯回归首日挤爆了 6月1日，天涯社区正式恢复访问。大量用户涌入导致服务器负载过大，网页出现无法打开

GUI Agent记与学双修，长程任务有了专属记忆增强型自进化框架

自问“有数据吗？”这家公司让报表聪明偷懒

中东遭网络袭击：黑客销毁备份与还原系统，受害者无法恢复

重庆五中院发布破产审判白皮书：2025年盘活资产691.78亿元

6小时手搓手机Agentic操作系统，拿下OpenAI语音黑客松冠军

大部分公司的报表问题，根本不是数据的问题

鲜奶雪糕包装印“不加一滴水”配料表首位竟是水厂家：系旧包装，已改名“一滴水”