想象这样一个场景:你让AI助手帮忙整理邮箱,它却偷偷把你的银行密码发给了陌生人。这不是科幻片里的情节,而是真实存在的安全漏洞——"提示词注入攻击"。一位17岁的高中生花了整整一年多时间,独自开发出一套防御系统,试图堵住这个缺口。
他的名字叫Kevin Lu,目前就读于加州圣何塞的Bellarmine College Preparatory School。他的研究让他入围了2026年Regeneron科学天才奖决赛——这项竞赛由Society for Science主办,也正是《Science News Explores》的出版方。
但比起奖项,Kevin更在意的是实际问题:当AI代理被越来越多地用于处理邮件、管理文件、甚至操作网银时,谁来保证它们不会被人"拐跑"?
AI代理的"阿喀琉斯之踵"
先搞清楚一件事:什么是AI代理?简单说,就是能替你办事的AI程序。它们不只是聊天,而是真的会去执行动作——发邮件、查资料、整理文档,甚至登录你的账户操作。
问题就出在这里。这些代理接收的信息来源复杂:邮件正文、网页内容、附件里的文字,都可能藏着陷阱。黑客会把恶意指令伪装成普通文本,混在这些信息里。AI读到之后,可能毫无察觉地照做——把隐私数据外传、生成虚假信息,或者执行其他破坏操作。
这种攻击方式叫"prompt injection",提示词注入。它不像传统黑客那样需要攻破防火墙,而是直接"骗过"AI本身。更麻烦的是,目前业内公认:没有完全可靠的防御手段。
Kevin想做的,就是在这个"无解"的问题上撕开一道口子。
他的"盾牌"长什么样
Kevin的系统有两道防线。
第一道是"过滤层"——在可疑指令抵达AI模型之前,就把它截住。系统会分析输入内容,判断其中是否藏有试图操控AI的意图。第二道是"监控层"——即使某些指令绕过了过滤,系统也会持续观察AI的行为表现,捕捉它被操纵的迹象。
说白了,这套方案既不盲目信任输入内容,也不完全依赖AI的自我判断,而是在中间加了一层"安检+监控"的双重机制。
在模拟测试中,这套盾牌的表现是:零穿透。所有试图模拟的网络攻击都被挡了下来。
不过Kevin自己很谨慎。他没有用"彻底解决"这类词,而是说"希望能帮助提升AI代理的安全性"。他特别提到那些处理银行账户和敏感个人数据的AI——这些场景一旦出事,代价实实在在。
一个人的攻坚战
这个项目Kevin做了超过一年。有意思的是,他的起点和终点完全不同。
"我最开始的解决方案完全是另一个方向,"他回忆道。经过反复修改和扩展,才逐渐成型。当被问到看到测试结果时有没有"顿悟时刻",他的回答很平实:"没有那种特别大的'啊哈'瞬间,但持续投入本身就很值得。"
独自攻关的最大困难是什么?"很难知道自己是不是走对了路。"
他的线索来自两个地方。一个是技术博客——博主Simon Willison写过提示词注入攻击的原理和可能的防御思路。另一个是Google DeepMind的研究员Neel Nanda,Kevin看他的直播学习如何编写项目中的部分代码。
没有实验室,没有团队,靠着公开资源和反复试错,他把东西做了出来。
这件事为什么值得关注
Kevin的研究出现在一个微妙的时间点。AI代理正在从"好玩的新工具"变成"真正处理事务的基础设施"。OpenAI、Google、Anthropic这些公司都在推各自的代理产品,让它们能替用户操作软件、浏览网页、执行多步骤任务。
但安全研究明显滞后。提示词注入攻击的防御,至今没有被"解决",只有"缓解"。Kevin的方案也不是万能药——它针对的是特定类型的攻击向量,而且模拟测试和真实环境总有差距。
真正有价值的可能是这个方向本身:与其试图让AI变得更"聪明"以识别欺骗,不如在架构上增加隔离和监控层。这种工程思维,比任何单次突破都更可持续。
另外,这件事也暴露了AI安全领域的一个尴尬现状:一个高中生花一年时间就能做出有竞争力的防御原型,说明大厂们的投入和产出未必匹配。是资源分配的问题,还是技术路线的分歧?值得观察。
还没说完的部分
Kevin本人最享受的是编码过程和做海报展示——典型的研究者乐趣。但对于这个领域来说,挑战才刚刚开始。
提示词注入攻击和防御,本质上是一场"欺骗与反欺骗"的军备竞赛。今天的盾牌能挡住今天的矛,明天的矛会换什么形状?攻击者可能会针对过滤机制本身设计绕过策略,也可能从监控盲区寻找突破口。
更重要的是,AI代理的权限边界在哪里?如果一个AI能登录你的邮箱,理论上它也能做很多其他事。安全不只是技术问题,也是产品设计问题——哪些操作需要二次确认,哪些场景必须人工介入,这些决策比任何算法都关键。
Kevin的系统目前还是研究原型,距离实际部署有距离。但它证明了一件事:在这个快速变化的领域,个体研究者依然能做出实质性贡献。而AI安全需要的,正是这种分散的、持续的、来自不同背景的尝试。
毕竟,当AI代理真正接管我们的数字生活时,我们需要的不是某一个完美的盾牌,而是很多层、很多道、不断更新的防线。
热门跟贴