英伟达3层安全锁被扒光：Agent越权漏洞比想象更狠|agent|安全锁|沙箱|英伟达|调用

英伟达在GTC 2025扔出NemoClaw时，现场掌声雷动。一个能自主调用工具、执行复杂任务的AI Agent框架，配上了三层安全防护——沙箱隔离、权限分级、行为审计。听起来像给野马套了三重缰绳，但安全研究者翻完代码后的结论很扎心：这三层锁，防的是君子，不是黑客。

问题出在哪？NemoClaw的安全模型假设"工具本身是可信的"。换句话说，它盯着Agent别乱调API，却没想过Agent拿到的API返回数据可能有毒。这种设计思路，像极了小区保安只查进门的人，不管屋里有没有混进贼。

第一层沙箱：把Agent关进笼子，但笼子有窗

沙箱隔离是NemoClaw的招牌卖点。每个Agent运行在独立容器里，文件系统、网络、进程全隔离，理论上Agent越狱也碰不到宿主系统。英伟达工程师在演示中强调，"即使Agent被 prompt 注入（提示词注入）攻击，破坏范围也被锁死在沙箱内"。

但Palo Alto Networks的Unit 42团队发现了盲点。他们在测试中发现，沙箱隔离的是"执行环境"，不是"数据通道"。Agent调用外部API获取的数据，直接流进主推理流程，没有任何清洗层。攻击者不需要突破沙箱，只需要污染Agent读取的数据源——比如篡改一个天气API返回的JSON，就能让Agent执行隐藏指令。

这种攻击路径被安全圈称为"数据投毒式间接提示词注入"。2024年OpenAI的GPTs商店就爆过类似案例：某个"学术助手"GPT被植入恶意指令，用户上传论文PDF后，GPT会在总结末尾偷偷插入钓鱼链接。NemoClaw的沙箱对此毫无感知，因为它只监控"Agent做了什么"，不监控"Agent看到了什么"。

权限分级：给Agent发工作证，但证是假的

第二层防护是细粒度权限控制。NemoClaw允许开发者为每个Agent配置"工具白名单"，比如销售Agent只能查CRM、发邮件，不能碰财务系统。英伟达文档里写得很漂亮："最小权限原则，降低攻击面"。

现实测试却打了脸。安全公司HiddenLayer的研究员发现，权限系统的判定依据是"工具名称字符串匹配"。如果开发者给危险工具起个 innocuous 的名字——比如把"删除数据库"包装成"数据归档助手"——Agent的权限检查直接放行。更麻烦的是，NemoClaw支持动态工具注册，运行时加载的新插件不会重新触发权限审计。

这相当于公司给新员工发门禁卡，但门禁系统只认工牌上的职称，不核实这人到底能进哪些房间。2023年Twitter（现X）的API漏洞事件就是前车之鉴：某个内部工具被误配权限，导致大量用户数据泄露。NemoClaw的权限模型，把这种配置风险自动化放大了。

行为审计：事后诸葛亮，且眼镜是模糊的

第三层是审计日志，记录Agent的所有工具调用、输入输出、执行时长。英伟达把它定位为"合规与调试利器"，支持导出到SIEM（安全信息和事件管理）系统做分析。

日志本身没问题，但审计规则的设计暴露了产品思维的局限。NemoClaw默认只标记"高频异常调用"——比如5分钟内调了100次API。但对于"低频精准攻击"，比如Agent被诱导缓慢窃取数据（每次只读10条记录，间隔随机），审计系统完全静默。Unit 42的测试显示，这种"慢速渗漏"模式可以持续数周而不触发任何告警。

更深层的问题是语义盲区。日志记录了"Agent调用了getCustomerData工具"，但不记录"Agent为什么调用、返回数据里有没有隐藏指令、最终输出是否被污染"。安全团队拿到日志后，依然无法回答核心问题：这次Agent的执行，到底是用户想要的，还是被劫持的？

真正的漏洞：Agent没有"怀疑能力"

三层防护全部失效，根源不在技术实现，而在架构假设。NemoClaw的设计者把Agent当成"执行者"而非"决策者"来保护，但现代AI Agent的核心价值恰恰是自主决策——根据环境反馈调整策略。

这种矛盾体现在一个细节：NemoClaw的Agent接收到API返回后，会立即将数据送入推理上下文，没有任何"校验层"评估数据可信度。人类员工收到可疑邮件会多瞄一眼发件人，但Agent不会。它缺乏对信息源的元认知能力，这是当前所有Agent框架的通病，只是英伟达的包装让问题更难被察觉。

Google DeepMind的安全研究员Nicholas Carlini在2024年的一篇论文中指出，"对抗性数据注入"对LLM（大语言模型）驱动的系统构成系统性风险。他的实验显示，即使在训练时加入大量安全对齐，模型面对精心构造的对抗样本时，服从恶意指令的概率仍超过30%。NemoClaw的三层防护，没有一层针对这种"认知劫持"场景。

英伟达并非没有意识到风险。NemoClaw的文档里有一行小字："建议在生产环境中配合人工审核节点使用"。但这句建议被埋在配置指南的第47页，大多数开发者根本不会翻到。产品营销的声量，压过了安全实践的复杂性。

一个值得对比的案例是Anthropic的Claude计算机使用功能。同样允许AI控制浏览器、操作文件，但Claude每次执行敏感操作前会主动截图确认，且内置"拒绝执行模糊指令"的硬规则。这种"保守型设计"牺牲了部分自动化效率，但把不可控风险降到了更低。

NemoClaw的选择则相反：优先演示效果，安全作为可选项。这种策略在企业软件市场常见，但在Agent这个"AI直接连接现实世界"的领域，后果会被放大。

HiddenLayer的CEO Chris Sestito在采访中直言："客户问我们能不能审计NemoClaw Agent的行为，我们的回答是——可以记录它做了什么，但无法判断它为什么这么做。Agent的'意图'是个黑箱，而黑箱审计本身就是伪命题。"

英伟达尚未对具体批评做出回应，但GTC 2025的问答环节中，一位工程师承认"数据供应链安全是下一代重点"。这句话的潜台词很清晰：现在的NemoClaw，还没准备好面对真实的攻击者。

当Agent从"回答问题"进化到"执行任务"，安全模型的迭代速度能否跟上？NemoClaw的三层防护给出了一个警示性答案——堆叠防御层不等于堆叠安全性，如果每一层都盯着错误的问题。开发者现在面临的选择是：先上线再补洞，还是等安全架构成熟？这个权衡，可能比技术本身更能决定Agent时代的信任基础。