一个代理防火墙能扫描什么?字节。字节穿过代理时,Pipelock的线层扫描器开始工作——HTTP请求体、MCP的JSON-RPC帧、WebSocket消息、SSE事件流。DLP模式匹配跑在URL上,注入检测跑在响应体上,SSRF防护跑在每一个带URL的传输层上。

这套机制能拦住很多东西:头部里的API密钥、JSON里的密钥格式、响应里的提示注入、工具调用里的数据泄露模式。它阻止的是代理能"看懂"的攻击形状——文本、结构化数据、可解析的协议帧。

打开网易新闻 查看精彩图片

但线层有个硬边界:它只能扫描字节,不能"感知"字节代表什么。一张PNG截图,像素里渲染着登录凭证,代理看到的只是图像字节流。一段语音备忘录,声波里编码着客户投诉内容,代理需要语音识别才能"听懂"。PDF更复杂——图像层、矢量文本、嵌入字体、形状即文本, naive提取会漏掉全部。

打开网易新闻 查看精彩图片

Pipelock理论上可以在线层叠加OCR、语音识别、PDF解析。但成本是真实的:每张上传图片都做OCR,代理CPU负载涨一个数量级。文本扫描能接受的延迟预算,在感知任务面前直接崩溃。

打开网易新闻 查看精彩图片

所以"我们扫描一切"是个分层的真相。对线层能解析的形状,它是真的;对需要感知模型才能理解的媒体,它是假的。买代理防火墙的人需要知道这个边界在哪——不是被营销话术糊弄,而是清楚哪类攻击在哪个抽象层级被拦截。