人人都搞AI代理，谁在管它们犯傻？我做了个“决策安检员”，3种决策守住最后防线|ai代理|决策安检员|密钥|最后防线

如今，几乎所有人都在忙着构建AI代理，让模型自主执行各种任务。但极少有人去思考那个致命问题：在AI代理与灾难性决策之间，应该放点什么？正因如此，我开发了XRisk——一个开源的自主安全引擎，它充当AI代理与真实世界之间的决策层。代理不会盲目执行动作，而是先向XRisk提问：“我真的可以这样做吗？”XRisk会返回三种确定性决策之一：✅允许、⚠️确认、❌阻止。为何启动这个项目？因为我在实验越来越自主的AI系统时，反复看到同一个模式：大多数项目只追求提升代理能力，几乎没人追问“如果代理搞错了怎么办？”比如代理意外泄露API密钥、提示注入导致指令被篡改、模型擅自执行Shell命令、自主流程无限循环不停调用昂贵的API、部署机器人未经人工批准就推送代码。多数代理框架默认模型会乖乖行事，但现实并非如此。我想要的是一种位于意图与执行之间的确定性东西，不是另一个模型，也不是又一条提示，而是一个真正的策略引擎。XRisk在每次动作执行前对其进行评估，结合多种安全信号产出一个可解释的决策。它检查的内容包括：代码化策略与分层优先级、提示注入检测、敏感数据和密钥检测、能力令牌验证、网络出口限制、针对自主循环的断路器、防篡改审计日志、供应链验证、策略冲突检测以及确定性取证回放。它不会给你一个模糊的“安全评分67%”，而是解释清楚为什么做出这个决定。举个例子，当AI助手想要执行{"tool":"deploy","actor":"release-bot","prompt":"Deploy production immediately."}时，XRisk不会让这个请求直接打到部署系统，而是将其拦截。它会检查当前策略：生产部署是否需要人工确认？调用者release-bot是否有足够权限？提示中是否含有可疑注入？最终可能给出“⚠️确认：生产部署需人工审批”并阻塞动作，同时记录完整审计轨迹。通过这种确定性栅栏，你可以让代理自由发挥创造力，而把最后的风险控制权牢牢抓在手中。开源地址已在GitHub公开，欢迎一起构建更安全的自主AI未来。