演讲嘉宾|余锋(褚霸)
编辑|Kitty
策划|QCon 全球软件开发大会
在过去近二十年,从云计算和基础设施代码化开始,到云原生和不可变基础设施的概念,IT 基础设施的可维护性和资源效能都取得了巨大的飞跃,这其中的核心系统也无一不是以开源为基础的。就在过去两三年里,随着大模型开始进入越来越多的生产环境,模型相关服务开始成为了新的基础设施,扩大了基础设施的范围,也让模型服务栈向着更加可靠、可维护、高效的基础设施化方向演进,这其中同样有大量的开源组件。
本文整理自蚂蚁集团超级计算部负责人、基础设施技术委员会主席余锋(褚霸)在 2025 年 QCon 全球软件开发大会(上海站)的分享 “从云原生到 AI 原生:模型引发的新一代基础设施构建”。他在演讲中回顾了基础设施的演进历程,介绍了当前的基础设施开源软件栈,并对未来的 AI-Ready 的基础设施架构进行了展望。
预告:将于 4 月 16 - 18 召开的 QCon 北京站设计了「AI 原生基础设施」专题,本专题重点交流探讨如何构建 AI 原生基础设施,包括业界容器 / Serverless 等云原生基础设施如何朝 AI 演进,以及如何利用一些新兴分布式技术构建 AI 原生基础设施等等。敬请关注。
以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。
我在蚂蚁集团以及阿里巴巴集团工作了十六年,可以说完整地见证了整个基础设施从云计算到云原生,再到如今的 AI 云原生的演变过程。最近两年,我专注于 AI 基础设施领域,这无疑比以往的工作强度更大。因此,我想向大家汇报一下,新的模型所引发的新一代基础设施的变化是相当显著的。
由于内容较多,我会尽量避免冗长的叙述,更多地从亲历者的角度出发,谈谈当前基础设施发生了哪些变化,我们做出了怎样的判断和决策,以及我们为何如此行动。以蚂蚁集团的基础设施为例,我们可以将其视为一个观察窗口,来了解整个行业的发展动态。
1 基础设施技术的演进
首先,我想谈谈基础设施技术的演进过程。大约十年前,也就是 2011 年或 2012 年,我开始涉足云计算领域,当时的主要任务是构建云计算设施。那时,我们的核心问题是“如何将硬件资源进行有效分配和利用”。当时,算力需求相对较小,例如支付等基础业务的算力需求并不高。
在这种背景下,我们面临的主要挑战是将有限的算力进行切割和整合。因此,虚拟化技术应运而生,成为当时最核心的技术。虚拟化技术与操作系统相结合,解决了基本的运行问题。我们通过虚拟化技术将硬件资源切割成多个小部分,同时保证了资源的隔离性,确保软件与硬件能够解耦,从而实现独立发展。
解决了硬件资源的切割问题后,我们面临的新问题是“如何管理这些被切割后的资源”。由于资源被切割后规模变得非常庞大,例如我们当时管理的实例数量至少是千万级的。因此,云计算的下一个目标是有效管理这些庞大的资源。当时,许多创业公司如 OpenStack、CloudStack、Terraform 等纷纷涌现,试图解决资源管理的问题。
除了资源管理,云计算还需要解决如何将这些资源高效交付给客户的问题。例如,客户需要在全球多个区域部署资源,这就需要一个有效的部署方案。因此,云计算的核心价值在于两方面:一是能够将硬件资源切割成小部分且互不干扰;二是能够在大规模环境下有效管理这些资源。
随着技术的发展,容器技术逐渐兴起。容器技术在云计算的基础上进一步发展,解决了云计算尚未标准化的问题。容器技术的核心在于生命周期管理,包括如何管理镜像、如何启动容器以及如何管理容器的生命周期。虽然这些问题在云计算中已经存在,但容器技术通过标准化的方式解决了这些问题。
容器技术的兴起使得开发人员能够更高效地支持系统运行,同时也使得容器成为一种标准化的载体。容器技术的标准化推动了整个生态的繁荣。因此,可以说标准化是推动技术发展的关键因素。
总结基础设施的演进方向,我认为其核心规律可以归纳为两个主要方面。
首先,每一次基础设施的出现和发展,首要目标都是解决性能和效率的问题。如果没有性能优势,比如云计算或容器服务的效率低于传统的物理机,或者成本更高,那么这些技术就无法持续发展。云计算的出现,通过集中化和集约化的方式,对硬件资源进行专门的优化和裁剪,可使性能提高数十倍甚至上百倍。因此,与传统的分散式处理相比,云计算的效能显著提高,这为其进一步发展奠定了基础。
其次,当基础设施达到一定规模后,业务负载会变得极为复杂。此时,我们需要解决的是负载复杂性以及系统稳定性的问题。随着业务规模的扩大,业务系统必须具备高度的稳定性,以确保在主业务路径上不会出现故障。因此,基础设施的发展趋势是形成一套完整的系统,以降低运维的复杂度,甚至实现免运维。以我在阿里巴巴管理数据库的经历为例,最初,一个 DBA 负责管理 50 个数据库实例。而当我们的实例数量增长到几千万时,我们只有两三个 DBA,且他们的工作重点不再是日常运维,而是系统自动完成运维任务。这表明,随着规模的扩大,基础设施会发展出一套系统来解决因规模带来的稳定性和复杂性问题。
2 GenAI 时代的应用:模型成为新的数据库
在人工智能兴起之前,我们的应用架构大多是基于 LAMP 架构。这种架构以数据库或存储为核心,再配以相应的硬件和其他辅助系统。以我过去管理 ECS 和数据库的经验为例,无论我如何努力优化,数据库与 ECS 实例的配比始终是 1:7,MySQL 与 ECS 实例的配比也始终是 1:7。这一比例多年来未曾改变。
我们在构建云计算服务时,实际上是在现实地反映这种架构比例。我们的营收和实例规模也恰好反映了这一特点。多年来,我们的系统架构都是以数据库为核心构建的。我们先设计数据库,然后考虑数据库的容灾方案。整个架构设计过程都是以数据库为中心展开的。当关系型数据库无法满足需求时,我们会引入非关系型数据库,如 NoSQL,来解决另一部分问题。如果事务处理型(TP)数据库无法解决所有问题,我们会引入分析处理型(AP)数据库。但无论怎样,核心仍然是数据库,其架构多年来并未发生本质变化。如今的分布式技术只是让集群更易于管理和维护,降低了复杂性,但本质上架构并未改变。
随着人工智能的兴起,尤其是大模型的出现,情况发生了变化。我们可以从下图这个 2025 年的大模型地图中看到,颜色较深的部分表示开源模型,而空白部分表示闭源模型。从地图中可以看出,模型的规模越来越大,参数数量不断增加,模型也越来越复杂。以蚂蚁集团最近发布的模型为例,其参数已超过 1 万亿。未来,模型规模可能会进一步扩大。开源模型的数量也在不断增加,不仅包括大语言模型,还包括多模态模型。随着参数规模不断增大,对成本的要求也越来越高。例如,代码自动生成等能力的应用越来越多,而这些模型的兴起对整个基础设施产生了巨大的牵引作用。
在人工智能领域,各种基础设施不断涌现,以解决日益复杂的技术挑战。从 AI 基础设施的底层来看,厂商通常会做到像 PyTorch 这样的框架层面。例如,百度有 Paddle,用于预训练的有 Megatron,用于强化学习的有 VERL,而蚂蚁集团则有 AReaL 等。这些基础设施不断涌现,旨在解决特定的技术问题。未来,每家厂商都会针对预训练等问题提出自己的解决方案,这些方案虽大同小异,但会使整个技术图谱不断扩展,变得越来越复杂。
随着模型规模的不断增大,单个硬件已难以满足需求,分布式计算成为必然选择。分布式计算的引入又带来了资源调度的问题,这促使了像 Ray、Spark 等调度工具的出现。而在底层,还有各种通信库等基础设施的支撑。整个 AI 技术领域呈现出深度与广度兼具的特点,其规模不断扩大,这对 AI 的基础设施以及应用开发都带来了巨大的压力。
我们的观点是,模型正在成为新的数据库。过去,我们构建应用体系是以数据库为中心进行设计的。如果关系型数据库无法满足需求,我们会引入非关系型数据库;如果关系型数据库的性能不够快,我们可能会引入内存数据库来解决。如今,情况类似。如果一个语言模型无法解决所有问题,比如需要处理音频和视频,我们就会引入多模态模型。在不同场景下,我们会根据需求引入不同的模型。
我们会不断扩展模型的能力,并为其构建各种基础设施。因为训练一个模型需要训练引擎,包括预训练和后训练等各种生命周期阶段,都需要不同的系统来支持。模型训练完成后,还需要推理引擎来支持推理过程。此外,为了提高模型效果和降低成本,我们还会探索边训边推等新的模式。这些技术和工具会随着需求的增加而不断发展。模型正在成为新的数据库,整个技术体系将围绕模型展开。
3 模型为中心的基础设施
既然模型已经成为新的核心,那么基础设施自然也会围绕模型来构建和表达。回顾过去,最早我们没有虚拟化技术,采购硬件时直接购买物理机。随着云计算和虚拟化技术的发展,我们开始采购 ECS 实例,后来又转向采购容器。如今,我们可能正走向一个新的阶段,未来在采购时,我们可能会直接问“能支持多少个模型”,这将是技术发展的新方向。
在这个过程中,我们的判断与云原生时代有所不同,但最大的区别在于技术发展的趋势。最初,数据库是集中式的,比如大型机上的 Oracle。后来,我们转向分布式架构,使用 PC 服务器和 MySQL,硬件和软件都变得分布式。如今,我们又回到了集中式的方向。我的部门被称为超算部门,因为我们把所有资源当作一台超级计算机来管理。如今,一个大型模型训练可能需要上万张 GPU 卡协同工作,这实际上就是一台超级计算机。整个趋势表明,模型训练和推理所需的资源已经远远超过了单个节点的规模。
如今,对于 1T 参数规模的模型,8 张卡的设备已经无法满足需求。我们需要更大的资源,可能需要上百张卡来支持。这在过去是难以想象的。我读书时用的 286 电脑内存只有 640K,而现在,一个超级计算节点的内存可能在明年就会超过 0.5P。过去,我们管理的是 PB 级数据的数据库,现在一个集群的内存就接近 PB 级。这带来了新的挑战,比如如何快速加载 PB 级内存中的模型和镜像,这是一项极具技术挑战的工作。
随着节点规模的扩大,算力的提升是显而易见的。我们不再关注几个数量级的提升,而是面对比以前大得多的算力需求。如今,AI 生成一句话的成本可能非常高。无论是训练还是推理,数据规模和边界都大幅增加。
过去,我们的系统是围绕 CPU 构建的,无论是硬件还是软件,都以 CPU 为中心。云原生技术的发展也是基于 CPU,将 CPU 资源切分并分布式连接。然而,到了 AI 时代,CPU 已经让位给 GPU。现在,访问本机的 CPU 内存可能比访问另一个节点的 GPU 内存还要慢,因为 GPU 的带宽足够快,而且不断优化。如今,一个 AI 超级计算中心的电力消耗中,交换机和网络通信部分已经占到 26%。这在过去是不可想象的,因为这些部分的消耗曾经是可以忽略不计的。
这些变化导致了以 CPU 为中心的设计被颠覆,现在是以 GPU 为中心。过去,我们关注数据面和计算面的分离,现在又多了一个参数面,需要专门的网络来处理参数面的问题。随着参数规模的扩大,存储需求也大幅增加,而传统的存储反而变得不那么重要。现在,我们需要将原本用于存储和硬盘的资金投入到参数面的优化中。这些硬件的变化导致了整个体系的巨变,是颠覆性的。
下图展示的是两个开源引擎的图表,其发展速度之快令人瞩目。这种快速发展的趋势,大家应该都有所体会。我更愿意通过这个图表来呈现整个问题解决的时间——可以看到,一般的 Issue 通常在几分钟内就能得到解决,而稍微复杂一些的可能在两三天内就能完成。这个社区有上千人在持续工作,而且是全球不间断的,24 小时都在推进项目。整个基础设施的开发模式,或者说基础软件的开发方式,正在发生翻天覆地的变化。
如果要将 AI 推理等技术整合成一个完整的系统,仅仅依靠引擎是不够的。你还得有网关,这很容易理解,因为这些组件可以负责路由和容灾等功能。然后是推理引擎,其中会遇到诸如 PD 分离等问题。这实际上不仅仅是 GPU 上的算力问题,还包括 CPU 内存以及存储等资源的利用——如何将每一分钱都花在刀刃上?因此,这里会发展出一整套技术体系。以我们内部开发的一个系统为例,从第一天只有几个组件,到如今大约七八个月的时间,组件数量已经增长了 10 倍。因为最初可能只是解决了最基本的问题,只要能进行推理就行。后来,我们开始追求更便宜、效能更高、性能更强的推理方式,所以做了大量的工作。
举个例子,年初的时候,我们开发 DeepSeek 或千问这类模型时,开箱即用的性能大概是 1,而现在,性能已经提升到了 20。在短短七八个月的时间里,性能提高了 20 倍。预计到年底达到 25 倍的性能提升。这种性能的提升并不是从某个单一引擎中抠出来的,而是整个系统协同作用的结果。我们节省下来的不仅仅是性能,还有成本。我每天都要提醒团队,我们花了那么多钱购买晶体管,是否充分利用了它们?从这个角度反推,我们今天需要考虑的是如何让这些模块和组件更好地利用这些资源。这无疑会对基础设施带来巨大的变化。
回顾技术发展的历程,我们可以清晰地看到一条演进路线:从最初的以机器为中心,到后来以虚拟机为中心,再到容器为中心,如今则转变为以模型为中心来构建整个体系。正是基于这样的背景,有了 ModelPack 这一概念。因为当以模型为中心构建体系时,必然需要一个明确的规范来组织和指导。正如之前所说,规范至关重要,它是大家共同认可的基础。只有围绕这一规范去构建体系,我的系统才能与你的系统实现互通。而且,未来的演进也需要大家能够合力推进。
我认为基础设施的演进中,最关键的是能够预判趋势。这些趋势并非一夜之间出现,它们可能早在三五年前甚至更早就已萌芽。能够提前洞察趋势,预见基础设施将发生怎样的变化,并且判断何时该顺势而为,才是最具技术含量的。
4 AI 应用的基础设施
Agent 体系的出现对基础设施产生了很大的影响。当我们谈论 AI 基础设施时,它不仅包括底层的算力,还包括对开发友好的上层结构。因此,Agent 基础设施的变化同样值得关注。
再深入观察模型层面,下一代模型的发展趋势也十分明显。以蚂蚁集团为例,我们也在训练自己的模型。过去,许多厂商没有能力自行训练模型,因为训练模型成本过高,而不是技术能力不足。因此,他们通常会选择使用像 DeepSeek 或千问这样的模型。然而,这些模型存在两个主要问题:一是模型需要不断演进,变得更智能、效果更好;二是成本需要降低。降低成本体现在两个方面:首先,训练过程的效率需要提高;其次,推理时的成本也需要降低。如果在模型训练阶段能够完成更多工作,那么推理阶段的负担就会减轻。如今,随着几家大厂的推理业务规模不断扩大,这个问题变得尤为突出,大家都需要解决。因为推理成本与业务规模成正比,例如,用户规模从 1 亿增加到 10 亿,成本就会线性增加 10 倍。而训练是一次性的,只要完成训练并支付相关成本即可。因此,未来的发展趋势是将训练过程中的智能化和成本降低因素纳入考虑。
构建 Agent 体系时,最重要的就是 Agent 的运行。Agent 需要一个像 Sandbox 这样的基础设施来支持其运行。去年大家还没有重视这个问题,但到了今天,这个问题已经不得不解决了。因为 Agent 体系的功能性非常广泛。其次,Agent 实际上就像前面提到的容器一样,是一个更轻量级的容器。回到容器的概念,就会再次涉及成本、规模和调度等问题。这些并不是新问题,为什么在这个时间点上才出现并需要解决问题呢?原因在于,如今模型的成本和规模已经达到一定程度,智能化水平也足够高,需要这样一个体系来进行标准化,以解决这些问题。
5 展望:从“通算 + 智算”向通智一体的演进
前面我大致回顾了基础设施多年来的发展历程,从通用计算时代,到虚拟机时代,再到微服务时代,直至如今的模型时代。对我们蚂蚁集团的基础设施而言,这是一个行业发展的缩影。那么,它未来将何去何从呢?实际上,如今一个非常重要的趋势是通用计算与智能计算正逐渐融为一体。在过去,通用计算与智能计算的比例可能是 9:1,但未来这一比例可能会反转,变成 2:8。尽管如此,它们始终是一体化的,因为传统的业务架构是基于以 CPU 为中心的体系,而新的 AI 业务则是基于以 GPU 为中心的体系。因此,这两个系统必须融合在一起,这是第一个要点。也就是说,从过去单纯的通用计算与智能计算分离,通过某种体系连接,未来将演进为一体化的设计。包括如今我们所倡导的通智一体、训推一体,都将对基础设施带来巨大的变革。
这些变化也带来了诸多挑战。首先,基础设施强调稳定性,一旦基础设施出现重大问题,往往意味着严重的后果。然而,模型的演进速度却非常快,这二者之间存在矛盾,如何平衡这种矛盾是一个关键问题。而且,新的 AI 智能计算体系目前还不够成熟,如何在这种不成熟的状态下实现平衡,成为一个极具挑战性的问题。其次,安全问题。AI 的伦理道德和安全问题受到高度关注,因为大家此前并未经历过类似情况,所以对此格外谨慎。这会对系统的隔离性提出更高要求。例如,MCP 面临的最大问题并非如何使用它,而是如何确保暴露的服务足够安全,不会被滥用。
挑战与机遇总是并存的。未来,随着通用计算与智能计算一体化,甚至可能发展为以 AI 为中心的全新体验,这将催生出一套全新的、完整的体系。这对所有人来说都是一个巨大的机会。我自己已经在云计算领域深耕了 10 年。我相信,只要不被这波浪潮甩下,未来 10 年依然大有可为。所以,对于从事整个基础设施相关工作的人员来说,未来既充满挑战,也蕴含着巨大的机遇。
演讲嘉宾介绍
余锋(褚霸),蚂蚁集团超级计算部负责人、蚂蚁基础设施技术委员会主席。主管蚂蚁基础软件产品和算力基础设施,研究领域包括云计算、数据库和软硬件协同设计。曾担任蚂蚁风险管理部和金融同业技术负责人、蚂蚁数字金融安全负责人、蚂蚁银行(澳门、香港、新加坡)技术负责人、浙江网商银行架构部负责人、阿里云弹性计算事业部负责人、阿里云数据库事业部负责人。
会议推荐
OpenClaw 出圈,“养虾”潮狂热,开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下,自托管 Agent 形态迅速普及:多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。
针对这一系列挑战,在 4 月 16-18 日即将举办的 QCon 北京站上,我们特别策划了「OpenClaw 生态实践」专题,将聚焦一线实践与踩坑复盘,分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系,最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。
热门跟贴