我给22000多个MCP服务器做了一次全面体检。结果比我想象的要糟糕得多——只有0.5%有独立的可靠性记录。这意味着,你往自己的智能体里接入的那些工具接口,绝大多数你根本不知道它会不会在半夜挂掉。
这不是小作坊才有的问题。Databricks、Snowflake、PayPal、Netlify、Appwrite这些名字你应该不陌生,它们也在发布MCP服务器。但同样的空白横亘在所有厂商面前:独立的运行时可靠性数据属于例外,不是常态。整个生态在疯狂追求服务器数量,却跳过了最基本的问题——它们到底能不能用。
这次核查的方式很直接。我们把主流注册中心能找到的MCP服务器做了去重,最后得到一个数字:22561个。接下来逐个查证,有多少服务器有第三方实际观测过它们在运行时的表现。答案是大约0.5%。在所有我们能测量的服务器里,大多数得分在百分制的四十几分。顺便说一下这些服务器的构成:大约三成是代码和开发工具,这已经是最大的单一品类,剩下的碎片化分布在搜索、数据、AI、生产力工具以及一条长长的尾部。
你可能会本能地去看GitHub星标。仓库星标多,或者公司名气大,就觉得这个服务器应该靠谱。但星标只是某个时间点的热度快照,它回答不了几个真正要命的问题:端点现在是不是还活着?用真实参数调用的时候成功率有多高?延迟怎么样,尤其是那个会毁掉智能体循环的尾部延迟?工具描述有没有被偷偷改过——这是个真实的提示注入通道,一个被你信任过的服务器可以在你放松警惕之后置换自己的工具描述。一家声誉很好的公司完全可以发布一个缓慢、不稳定、或者已经被遗弃的MCP服务器,静态信号捕捉不到这些问题,你需要的是运行时行为。
我整理了一个实用的审查清单。第一,在信任之前自己调一次。做一次真实的初始化握手,执行一个有代表性的工具调用,测量延迟,验证它是否真的返回了有效结果。第二,盯着尾部,别看平均值。50毫秒的平均延迟配上6秒的尾部延迟意味着每二十个智能体步骤就会卡死一次。第三,检查更新频率,代码仓库上次有动静是什么时候?一个被遗弃的服务器是一个潜伏中的断点。第四,把工具描述当成不可信的输入。它们是面向模型的指令,一个恶意或被入侵的服务器可以污染这些指令。第五,寻找独立信号。任何市场平台都无法中立地评价自己托管和销售的服务器,这是利益冲突问题,所以你需要一个真正测量运行时行为的第三方。
最后这一点正是我们在填补的空白。现在你可以在这里查任何一个服务器的独立信任分数。没有实测数据的服务器会显示为“未评级”,而不是编造一个数字——假装知道比承认不知道更糟糕。实际操作的逻辑很简单:给工具调用加上信任闸门。你不必手动一个一个去审,但你必须确保自己的智能体不会盲目接入一个既没有服务水平协议、也没有运行历史、连故障记录都找不到的外部依赖。演示里能跑,不代表六周之后它不会突然挂掉一半调用。
热门跟贴