去年,Nova AI Ops的监控账单涨到了每月3.8万美元。CEO Samson Tanimawo接到任务:砍一半。最终他们降到了1.5万,且没有丢失任何有用的信号。

这不是靠跟销售谈判拿折扣。Tanimawo试过这条路,对方只肯给5%到10%的降幅。真正见效的是五个数据清理动作。

打开网易新闻 查看精彩图片

第一,清理无效自定义指标。他们原本有2400个自定义指标,实际被图表化或用于告警的只有600个。停掉其余1800个,直接省下30%费用。

打开网易新闻 查看精彩图片

第二,给日志分级降温。热存储3天,温存储7天,之后进冷存。此前最大开销来自全量索引调试日志——24小时后根本没人查。

第三,降低标签基数。他们曾用user_id给指标打标签,产生数百万时间序列。用户级数据被移到链路追踪,指标只保留聚合维度。

第四,砍掉开发环境的合成监控。200多个API检查在开发环境空转,实际只需在生产环境运行。

打开网易新闻 查看精彩图片

第五,重构APM采样策略。不再全量采集,健康链路采10%,错误和慢请求采100%。APM数据量下降85%,信号质量无损。

Tanimawo的总结很直接:监控账单高,通常是数据卫生问题,不是定价问题。