打开网易新闻 查看精彩图片

英伟达在GTC 2025扔出NemoClaw时,现场掌声雷动。一个能自主调用工具、执行复杂任务的AI Agent框架,配上了三层安全防护——沙箱隔离、权限分级、行为审计。听起来像给野马套了三重缰绳,但安全研究者翻完代码后的结论很扎心:这三层锁,防的是君子,不是黑客

问题出在哪?NemoClaw的安全模型假设"工具本身是可信的"。换句话说,它盯着Agent别乱调API,却没想过Agent拿到的API返回数据可能有毒。这种设计思路,像极了小区保安只查进门的人,不管屋里有没有混进贼。

第一层沙箱:把Agent关进笼子,但笼子有窗

沙箱隔离是NemoClaw的招牌卖点。每个Agent运行在独立容器里,文件系统、网络、进程全隔离,理论上Agent越狱也碰不到宿主系统。英伟达工程师在演示中强调,"即使Agent被 prompt 注入(提示词注入)攻击,破坏范围也被锁死在沙箱内"。

但Palo Alto Networks的Unit 42团队发现了盲点。他们在测试中发现,沙箱隔离的是"执行环境",不是"数据通道"。Agent调用外部API获取的数据,直接流进主推理流程,没有任何清洗层。攻击者不需要突破沙箱,只需要污染Agent读取的数据源——比如篡改一个天气API返回的JSON,就能让Agent执行隐藏指令。

这种攻击路径被安全圈称为"数据投毒式间接提示词注入"。2024年OpenAI的GPTs商店就爆过类似案例:某个"学术助手"GPT被植入恶意指令,用户上传论文PDF后,GPT会在总结末尾偷偷插入钓鱼链接。NemoClaw的沙箱对此毫无感知,因为它只监控"Agent做了什么",不监控"Agent看到了什么"。

权限分级:给Agent发工作证,但证是假的

权限分级:给Agent发工作证,但证是假的

第二层防护是细粒度权限控制。NemoClaw允许开发者为每个Agent配置"工具白名单",比如销售Agent只能查CRM、发邮件,不能碰财务系统。英伟达文档里写得很漂亮:"最小权限原则,降低攻击面"。

打开网易新闻 查看精彩图片

现实测试却打了脸。安全公司HiddenLayer的研究员发现,权限系统的判定依据是"工具名称字符串匹配"。如果开发者给危险工具起个 innocuous 的名字——比如把"删除数据库"包装成"数据归档助手"——Agent的权限检查直接放行。更麻烦的是,NemoClaw支持动态工具注册,运行时加载的新插件不会重新触发权限审计。

这相当于公司给新员工发门禁卡,但门禁系统只认工牌上的职称,不核实这人到底能进哪些房间。2023年Twitter(现X)的API漏洞事件就是前车之鉴:某个内部工具被误配权限,导致大量用户数据泄露。NemoClaw的权限模型,把这种配置风险自动化放大了。

行为审计:事后诸葛亮,且眼镜是模糊的

行为审计:事后诸葛亮,且眼镜是模糊的

第三层是审计日志,记录Agent的所有工具调用、输入输出、执行时长。英伟达把它定位为"合规与调试利器",支持导出到SIEM(安全信息和事件管理)系统做分析。

日志本身没问题,但审计规则的设计暴露了产品思维的局限。NemoClaw默认只标记"高频异常调用"——比如5分钟内调了100次API。但对于"低频精准攻击",比如Agent被诱导缓慢窃取数据(每次只读10条记录,间隔随机),审计系统完全静默。Unit 42的测试显示,这种"慢速渗漏"模式可以持续数周而不触发任何告警。

更深层的问题是语义盲区。日志记录了"Agent调用了getCustomerData工具",但不记录"Agent为什么调用、返回数据里有没有隐藏指令、最终输出是否被污染"。安全团队拿到日志后,依然无法回答核心问题:这次Agent的执行,到底是用户想要的,还是被劫持的?

真正的漏洞:Agent没有"怀疑能力"

真正的漏洞:Agent没有"怀疑能力"

三层防护全部失效,根源不在技术实现,而在架构假设。NemoClaw的设计者把Agent当成"执行者"而非"决策者"来保护,但现代AI Agent的核心价值恰恰是自主决策——根据环境反馈调整策略。

打开网易新闻 查看精彩图片

这种矛盾体现在一个细节:NemoClaw的Agent接收到API返回后,会立即将数据送入推理上下文,没有任何"校验层"评估数据可信度。人类员工收到可疑邮件会多瞄一眼发件人,但Agent不会。它缺乏对信息源的元认知能力,这是当前所有Agent框架的通病,只是英伟达的包装让问题更难被察觉。

Google DeepMind的安全研究员Nicholas Carlini在2024年的一篇论文中指出,"对抗性数据注入"对LLM(大语言模型)驱动的系统构成系统性风险。他的实验显示,即使在训练时加入大量安全对齐,模型面对精心构造的对抗样本时,服从恶意指令的概率仍超过30%。NemoClaw的三层防护,没有一层针对这种"认知劫持"场景。

英伟达并非没有意识到风险。NemoClaw的文档里有一行小字:"建议在生产环境中配合人工审核节点使用"。但这句建议被埋在配置指南的第47页,大多数开发者根本不会翻到。产品营销的声量,压过了安全实践的复杂性。

一个值得对比的案例是Anthropic的Claude计算机使用功能。同样允许AI控制浏览器、操作文件,但Claude每次执行敏感操作前会主动截图确认,且内置"拒绝执行模糊指令"的硬规则。这种"保守型设计"牺牲了部分自动化效率,但把不可控风险降到了更低。

NemoClaw的选择则相反:优先演示效果,安全作为可选项。这种策略在企业软件市场常见,但在Agent这个"AI直接连接现实世界"的领域,后果会被放大。

HiddenLayer的CEO Chris Sestito在采访中直言:"客户问我们能不能审计NemoClaw Agent的行为,我们的回答是——可以记录它做了什么,但无法判断它为什么这么做。Agent的'意图'是个黑箱,而黑箱审计本身就是伪命题。"

英伟达尚未对具体批评做出回应,但GTC 2025的问答环节中,一位工程师承认"数据供应链安全是下一代重点"。这句话的潜台词很清晰:现在的NemoClaw,还没准备好面对真实的攻击者。

当Agent从"回答问题"进化到"执行任务",安全模型的迭代速度能否跟上?NemoClaw的三层防护给出了一个警示性答案——堆叠防御层不等于堆叠安全性,如果每一层都盯着错误的问题。开发者现在面临的选择是:先上线再补洞,还是等安全架构成熟?这个权衡,可能比技术本身更能决定Agent时代的信任基础。