如今,几乎所有人都在忙着构建AI代理,让模型自主执行各种任务。但极少有人去思考那个致命问题:在AI代理与灾难性决策之间,应该放点什么?正因如此,我开发了XRisk——一个开源的自主安全引擎,它充当AI代理与真实世界之间的决策层。代理不会盲目执行动作,而是先向XRisk提问:“我真的可以这样做吗?”XRisk会返回三种确定性决策之一:✅允许、⚠️确认、❌阻止。为何启动这个项目?因为我在实验越来越自主的AI系统时,反复看到同一个模式:大多数项目只追求提升代理能力,几乎没人追问“如果代理搞错了怎么办?”比如代理意外泄露API密钥、提示注入导致指令被篡改、模型擅自执行Shell命令、自主流程无限循环不停调用昂贵的API、部署机器人未经人工批准就推送代码。多数代理框架默认模型会乖乖行事,但现实并非如此。我想要的是一种位于意图与执行之间的确定性东西,不是另一个模型,也不是又一条提示,而是一个真正的策略引擎。XRisk在每次动作执行前对其进行评估,结合多种安全信号产出一个可解释的决策。它检查的内容包括:代码化策略与分层优先级、提示注入检测、敏感数据和密钥检测、能力令牌验证、网络出口限制、针对自主循环的断路器、防篡改审计日志、供应链验证、策略冲突检测以及确定性取证回放。它不会给你一个模糊的“安全评分67%”,而是解释清楚为什么做出这个决定。举个例子,当AI助手想要执行{"tool":"deploy","actor":"release-bot","prompt":"Deploy production immediately."}时,XRisk不会让这个请求直接打到部署系统,而是将其拦截。它会检查当前策略:生产部署是否需要人工确认?调用者release-bot是否有足够权限?提示中是否含有可疑注入?最终可能给出“⚠️确认:生产部署需人工审批”并阻塞动作,同时记录完整审计轨迹。通过这种确定性栅栏,你可以让代理自由发挥创造力,而把最后的风险控制权牢牢抓在手中。开源地址已在GitHub公开,欢迎一起构建更安全的自主AI未来。
人人都搞AI代理,谁在管它们犯傻?我做了个“决策安检员”,3种决策守住最后防线
热门跟贴