LINE把164个集群压成1个，日本最大云迁移玩砸了还是赚翻

碳基打工人

2026-04-07 11:34 ·北京

2023年，日本雅虎和韩国LINE合并成LY Corporation时，没人想到他们的云架构会是一张如此疯狂的拼图：LINE那边4个OpenStack集群养着13万台虚拟机，雅虎日本这边更夸张——160多个集群、2.7万台服务器、16万虚拟机，像164个各自为政的小王国。

现在他们要把这一切，塞进一个叫"Flava"的新云里。目标数字很刺激：500台主机，9000台虚拟机，1个集群。

164:1的压缩比，不是技术炫技，是还债

164:1的压缩比，不是技术炫技，是还债

LY云基础设施负责人井上隆太郎（Ryuutarou Inoue）上周在行业会议上摊牌：老系统的问题不是不够大，是"改得太狠"。

「过去对OpenStack做了太多定制修改，升级变得极其困难。」井上的原话像一份技术债的忏悔录。雅虎日本的YNW云和LINE的Verda云，各自经历了多年迭代，补丁叠补丁，到最后连安全更新都不敢随便打。

Flava的策略是反向操作：尽量贴近上游OpenStack版本，自定义补丁压到最低。需要新功能？先贡献给社区，等合并进主线再用。

这个选择意味着放弃"我能改"的快感，换取"我能升"的自由。

井上算过账：定期升级不再是噩梦，安全补丁和新功能能持续流入。对一家拥有3亿月活用户的公司来说，这比任何单点性能优化都值钱。

三支柱设计：接受机器会坏，而不是假装它不会

三支柱设计：接受机器会坏，而不是假装它不会

Flava的架构文档里有三个关键词，读起来像给基础设施做心理咨询：

第一，假设故障必然发生。不在底层硬件上过度堆砌高可用保障，把弹性往上层推。

第二，可观测性拉满。Prometheus、Grafana、内部仪表盘层层监控，发现异常就往下钻——内核追踪、抓包，直到定位根因。

第三，自动化处理日常故障。井上的团队每天 somewhere 都有硬件坏掉，手动处理不现实。现在从故障检测、报修数据中心现场、到更换硬件重新入集群，大部分流程已自动化。

「但一些任务和不规则的故障模式，仍然需要工程师手动介入。」井上留了后路，「未来我们打算用大语言模型处理这些需要决策的复杂流程。」

这句话透露的野心比技术细节更值得玩味：LLM不只是写代码的助手，他们要让它参与运维决策。

技术选型的隐藏线索：Envoy、eBPF和Ceph

技术选型的隐藏线索：Envoy、eBPF和Ceph

Flava的技术栈清单里，有几个名字值得圈出来。

Envoy作为代理层，说明他们对服务网格或至少东西向流量管理有统一规划。eBPF和XDP（快速数据路径）的组合，暗示网络性能是重点优化对象——这对LINE这种实时通讯服务很关键。FRRouting负责路由，Ceph做存储，全是开源社区的主流项目，没有冷门赌局。

这个选型策略和OpenStack的"上游优先"一脉相承：不押宝小众方案，降低长期维护成本。

但代价也明显。从16万虚拟机砍到9000台，不是简单的"合并"，是大量业务必须重构或下线。LY没有公开具体迁移进度，但井上提到的"定期升级"和"持续可用"，暗示这是一场马拉松而非冲刺。

背景压力：政府盯着，用户数据不能再漏

背景压力：政府盯着，用户数据不能再漏

LY Corporation有充分的紧迫感。2023年合并前后，LINE多次曝出用户信息泄露事件，日本政府直接下令整改。对一家同时运营支付、电商、即时通讯的超级平台，基础设施的可靠性和合规性不是技术问题，是生存问题。

164个集群的碎片化状态，在审计眼里就是164个潜在漏洞入口。统一成1个集群，表面是技术整合，深层是风险管控的标准化。

井上强调的"最小化自定义补丁"，也有合规层面的考量：上游代码经过更广泛的审查和测试，比内部魔改的版本更容易通过安全审计。

这场迁移的终局会如何？井上在演讲结尾没有给时间表，只留了一句：「我们每天都在某处经历硬件故障。」

这句话既是现状描述，也是设计哲学的注脚——不是追求永不故障，而是追求故障时的从容。当3亿用户的消息、支付、购物请求流经这500台主机组成的单一集群时，LY赌的是：简化架构带来的可维护性，能跑赢复杂度带来的性能优势。

如果赌对了，这将是OpenStack社区近年最漂亮的规模化案例之一；如果赌错了，9000台虚拟机承载3亿用户的密度，会让每一次故障都变成头条新闻。

井上的团队现在最想知道的可能是：当LLM真的接手那些"需要决策的复杂流程"时，它面对的第一个重大故障会是什么？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴