打开网易新闻 查看精彩图片

inDrive的工程师们最近踩了个经典坑。他们花了整整24个月,把自建的Splunk监控从裸金属机房搬到AWS SmartStore,目标很实在:零停机、省成本、弹性扩容。迁移方案改了17版,压测跑了43轮,上线前全员待命。

打开网易新闻 查看精彩图片

结果切流当晚,查询延迟从200ms飙到8秒。值班工程师发现,SmartStore的冷数据调取策略和Splunk的搜索模式根本不对付——云端存了90%的历史日志,但每次检索都要从S3往回捞,比本地磁盘慢了40倍。

打开网易新闻 查看精彩图片

团队负责人事后复盘:「我们算对了容量,算错了访问模式。」迁移文档里密密麻麻的CPU和内存指标,唯独没把"搜索热区分布"写进验收清单。这个参数在裸金属时代根本不用操心,因为磁盘就在手边。

回滚花了6小时,比预计的零停机多了一整个夜班。inDrive最后把最近30天热数据留在了本地缓存层,冷数据扔去 glacier 归档,查询延迟压回300ms。账单倒是真降了,只是省下的钱刚够付那周的加班费。