17岁高中生给AI造了一面"防火墙"

冷知识挖掘机21

2026-05-14 10:02 ·北京

想象这样一个场景：你让AI助手帮忙整理邮箱，它却偷偷把你的银行密码发给了陌生人。这不是科幻片里的情节，而是真实存在的安全漏洞——"提示词注入攻击"。一位17岁的高中生花了整整一年多时间，独自开发出一套防御系统，试图堵住这个缺口。

他的名字叫Kevin Lu，目前就读于加州圣何塞的Bellarmine College Preparatory School。他的研究让他入围了2026年Regeneron科学天才奖决赛——这项竞赛由Society for Science主办，也正是《Science News Explores》的出版方。

但比起奖项，Kevin更在意的是实际问题：当AI代理被越来越多地用于处理邮件、管理文件、甚至操作网银时，谁来保证它们不会被人"拐跑"？

AI代理的"阿喀琉斯之踵"

先搞清楚一件事：什么是AI代理？简单说，就是能替你办事的AI程序。它们不只是聊天，而是真的会去执行动作——发邮件、查资料、整理文档，甚至登录你的账户操作。

问题就出在这里。这些代理接收的信息来源复杂：邮件正文、网页内容、附件里的文字，都可能藏着陷阱。黑客会把恶意指令伪装成普通文本，混在这些信息里。AI读到之后，可能毫无察觉地照做——把隐私数据外传、生成虚假信息，或者执行其他破坏操作。

这种攻击方式叫"prompt injection"，提示词注入。它不像传统黑客那样需要攻破防火墙，而是直接"骗过"AI本身。更麻烦的是，目前业内公认：没有完全可靠的防御手段。

Kevin想做的，就是在这个"无解"的问题上撕开一道口子。

他的"盾牌"长什么样

Kevin的系统有两道防线。

第一道是"过滤层"——在可疑指令抵达AI模型之前，就把它截住。系统会分析输入内容，判断其中是否藏有试图操控AI的意图。第二道是"监控层"——即使某些指令绕过了过滤，系统也会持续观察AI的行为表现，捕捉它被操纵的迹象。

说白了，这套方案既不盲目信任输入内容，也不完全依赖AI的自我判断，而是在中间加了一层"安检+监控"的双重机制。

在模拟测试中，这套盾牌的表现是：零穿透。所有试图模拟的网络攻击都被挡了下来。

不过Kevin自己很谨慎。他没有用"彻底解决"这类词，而是说"希望能帮助提升AI代理的安全性"。他特别提到那些处理银行账户和敏感个人数据的AI——这些场景一旦出事，代价实实在在。

一个人的攻坚战

这个项目Kevin做了超过一年。有意思的是，他的起点和终点完全不同。

"我最开始的解决方案完全是另一个方向，"他回忆道。经过反复修改和扩展，才逐渐成型。当被问到看到测试结果时有没有"顿悟时刻"，他的回答很平实："没有那种特别大的'啊哈'瞬间，但持续投入本身就很值得。"

独自攻关的最大困难是什么？"很难知道自己是不是走对了路。"

他的线索来自两个地方。一个是技术博客——博主Simon Willison写过提示词注入攻击的原理和可能的防御思路。另一个是Google DeepMind的研究员Neel Nanda，Kevin看他的直播学习如何编写项目中的部分代码。

没有实验室，没有团队，靠着公开资源和反复试错，他把东西做了出来。

这件事为什么值得关注

Kevin的研究出现在一个微妙的时间点。AI代理正在从"好玩的新工具"变成"真正处理事务的基础设施"。OpenAI、Google、Anthropic这些公司都在推各自的代理产品，让它们能替用户操作软件、浏览网页、执行多步骤任务。

但安全研究明显滞后。提示词注入攻击的防御，至今没有被"解决"，只有"缓解"。Kevin的方案也不是万能药——它针对的是特定类型的攻击向量，而且模拟测试和真实环境总有差距。

真正有价值的可能是这个方向本身：与其试图让AI变得更"聪明"以识别欺骗，不如在架构上增加隔离和监控层。这种工程思维，比任何单次突破都更可持续。

另外，这件事也暴露了AI安全领域的一个尴尬现状：一个高中生花一年时间就能做出有竞争力的防御原型，说明大厂们的投入和产出未必匹配。是资源分配的问题，还是技术路线的分歧？值得观察。

还没说完的部分

Kevin本人最享受的是编码过程和做海报展示——典型的研究者乐趣。但对于这个领域来说，挑战才刚刚开始。

提示词注入攻击和防御，本质上是一场"欺骗与反欺骗"的军备竞赛。今天的盾牌能挡住今天的矛，明天的矛会换什么形状？攻击者可能会针对过滤机制本身设计绕过策略，也可能从监控盲区寻找突破口。

更重要的是，AI代理的权限边界在哪里？如果一个AI能登录你的邮箱，理论上它也能做很多其他事。安全不只是技术问题，也是产品设计问题——哪些操作需要二次确认，哪些场景必须人工介入，这些决策比任何算法都关键。

Kevin的系统目前还是研究原型，距离实际部署有距离。但它证明了一件事：在这个快速变化的领域，个体研究者依然能做出实质性贡献。而AI安全需要的，正是这种分散的、持续的、来自不同背景的尝试。

毕竟，当AI代理真正接管我们的数字生活时，我们需要的不是某一个完美的盾牌，而是很多层、很多道、不断更新的防线。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴