2907个测试自证清白：这个工具要给AI Agent做"体检"|agent|tool|yaml|代码|体检|插件|测试|调用

你的API有单元测试，UI有E2E测试，连数据库迁移都有回滚验证。但那个每天处理用户请求、调用外部工具、自主决策的AI Agent呢？它在生产环境裸奔。

这不是危言耸听。AgentProbe的开发者做过一个内部统计：接入该工具的127个Agent项目中，94%在首次混沌测试（Chaos Testing）中暴露了未处理的工具超时场景。换句话说，你的Agent可能正在用户看不见的地方反复崩溃，只是日志没告诉你。

为什么现有测试工具不够用

Promptfoo测的是提示词，DeepEval测的是输出质量。但Agent的行为——从接收请求到返回响应之间的决策链条——一直是黑箱。

AgentProbe的创建者打了个比方：「传统测试像是检查汽车的外观和尾气，但我们关心的是发动机在不同路况下的表现。」当LLM幻觉出一个不存在的函数名，当两个Agent在管道里传递消息时发生分歧，当工具返回格式错乱的数据，你的系统会怎么处理？

这些问题在生产环境每天都在发生。AgentProbe的解决方案是把测试逻辑写成YAML，塞进CI流程，让每次代码提交都触发确定性验证。

5分钟能搭起来的测试框架

安装只需要一行命令：

npm install @neuzhou/agentprobe

然后写一个YAML文件：

name: weather-tool-selection

description: Agent should pick the weather tool for forecast queries

steps:

- send:

message: "What's the weather in Tokyo tomorrow?"

assert:

- tool_called: get_weather

- tool_args:

location: "Tokyo"

- response_contains: "forecast"

- no_pii_leaked: true

运行测试：

npx agentprobe run agent.test.yaml

没有SDK要学，没有测试框架要对抗。这个设计明显是针对那些「想测但没时间造轮子」的团队——AgentProbe的GitHub星标增长曲线显示，发布后的前30天，68%的issue是关于「能不能支持某云函数的入口格式」，而不是「怎么用」。

混沌测试：专门破坏你的Agent

AgentProbe最有意思的功能是故意搞破坏。你可以在YAML里注入工具超时、返回格式错误、网络延迟，观察Agent的容错逻辑。

chaos:

- tool: get_weather

failure: timeout

after: 2 calls

这个配置的意思是：前两次调用正常，第三次开始让get_weather超时。测试断言可以检查Agent是否优雅降级、是否把原始错误暴露给用户、是否触发了备用工具。

有个电商团队的案例：他们的客服Agent在Black Friday期间因为库存API响应变慢，开始 hallucinate 库存数字，导致超卖。接入AgentProbe后，他们在CI里模拟了200ms到5000ms的随机延迟，发现Agent在超过800ms时会跳过缓存直接「编」答案。修复后增加了超时熔断和人工兜底流程。