2023年,日本雅虎和韩国LINE合并成LY Corporation时,没人想到他们的云架构会是一张如此疯狂的拼图:LINE那边4个OpenStack集群养着13万台虚拟机,雅虎日本这边更夸张——160多个集群、2.7万台服务器、16万虚拟机,像164个各自为政的小王国。
现在他们要把这一切,塞进一个叫"Flava"的新云里。目标数字很刺激:500台主机,9000台虚拟机,1个集群。
164:1的压缩比,不是技术炫技,是还债
LY云基础设施负责人井上隆太郎(Ryuutarou Inoue)上周在行业会议上摊牌:老系统的问题不是不够大,是"改得太狠"。
「过去对OpenStack做了太多定制修改,升级变得极其困难。」井上的原话像一份技术债的忏悔录。雅虎日本的YNW云和LINE的Verda云,各自经历了多年迭代,补丁叠补丁,到最后连安全更新都不敢随便打。
Flava的策略是反向操作:尽量贴近上游OpenStack版本,自定义补丁压到最低。需要新功能?先贡献给社区,等合并进主线再用。
这个选择意味着放弃"我能改"的快感,换取"我能升"的自由。
井上算过账:定期升级不再是噩梦,安全补丁和新功能能持续流入。对一家拥有3亿月活用户的公司来说,这比任何单点性能优化都值钱。
三支柱设计:接受机器会坏,而不是假装它不会
Flava的架构文档里有三个关键词,读起来像给基础设施做心理咨询:
第一,假设故障必然发生。不在底层硬件上过度堆砌高可用保障,把弹性往上层推。
第二,可观测性拉满。Prometheus、Grafana、内部仪表盘层层监控,发现异常就往下钻——内核追踪、抓包,直到定位根因。
第三,自动化处理日常故障。井上的团队每天 somewhere 都有硬件坏掉,手动处理不现实。现在从故障检测、报修数据中心现场、到更换硬件重新入集群,大部分流程已自动化。
「但一些任务和不规则的故障模式,仍然需要工程师手动介入。」井上留了后路,「未来我们打算用大语言模型处理这些需要决策的复杂流程。」
这句话透露的野心比技术细节更值得玩味:LLM不只是写代码的助手,他们要让它参与运维决策。
技术选型的隐藏线索:Envoy、eBPF和Ceph
Flava的技术栈清单里,有几个名字值得圈出来。
Envoy作为代理层,说明他们对服务网格或至少东西向流量管理有统一规划。eBPF和XDP(快速数据路径)的组合,暗示网络性能是重点优化对象——这对LINE这种实时通讯服务很关键。FRRouting负责路由,Ceph做存储,全是开源社区的主流项目,没有冷门赌局。
这个选型策略和OpenStack的"上游优先"一脉相承:不押宝小众方案,降低长期维护成本。
但代价也明显。从16万虚拟机砍到9000台,不是简单的"合并",是大量业务必须重构或下线。LY没有公开具体迁移进度,但井上提到的"定期升级"和"持续可用",暗示这是一场马拉松而非冲刺。
背景压力:政府盯着,用户数据不能再漏
LY Corporation有充分的紧迫感。2023年合并前后,LINE多次曝出用户信息泄露事件,日本政府直接下令整改。对一家同时运营支付、电商、即时通讯的超级平台,基础设施的可靠性和合规性不是技术问题,是生存问题。
164个集群的碎片化状态,在审计眼里就是164个潜在漏洞入口。统一成1个集群,表面是技术整合,深层是风险管控的标准化。
井上强调的"最小化自定义补丁",也有合规层面的考量:上游代码经过更广泛的审查和测试,比内部魔改的版本更容易通过安全审计。
这场迁移的终局会如何?井上在演讲结尾没有给时间表,只留了一句:「我们每天都在某处经历硬件故障。」
这句话既是现状描述,也是设计哲学的注脚——不是追求永不故障,而是追求故障时的从容。当3亿用户的消息、支付、购物请求流经这500台主机组成的单一集群时,LY赌的是:简化架构带来的可维护性,能跑赢复杂度带来的性能优势。
如果赌对了,这将是OpenStack社区近年最漂亮的规模化案例之一;如果赌错了,9000台虚拟机承载3亿用户的密度,会让每一次故障都变成头条新闻。
井上的团队现在最想知道的可能是:当LLM真的接手那些"需要决策的复杂流程"时,它面对的第一个重大故障会是什么?
热门跟贴