作者:毛烁

打开网易新闻 查看精彩图片

最近,黄仁勋在台北GTC上宣布了RTX Spark能够在个人电脑上运行1200亿参数大模型,一时间,AI PC行业的焦点开始发生变化。过去几年,人们习惯于把大模型性能归结为GPU能力。但当模型规模开始逼近千亿参数,本地AI系统面临的瓶颈开始从计算转向数据流动。

带宽是否够用、信号是否稳定,决定了千亿参数大模型能否在个人设备上流畅运行。尤其当DDR5速率向更高水平推进时,传统无缓冲内存架构所面临的信号衰减、时钟抖动、时序裕量压力,也随之被放大。

本地 AI负载持续攀升,PC内存系统该如何在更小的功耗、空间和成本约束下,继续向更高带宽演进?这是AI PC 进入深水区后绕不开的问题。

在这条演进路径上,Rambus是一个值得观察的样本。作为业界领先的Silicon IP 与芯片供应商,其最近推出了支持CUDIMM、CSODIMM及CQDIMM模块的完整DDR5 9600客户端芯片组,并公开了速率高达10666 MT/s的LPCAMM2内存模块芯片组方案。

打开网易新闻 查看精彩图片

01 “代理式AI”重塑PC需求,内存子系统逼近物理极限

要理解Rambus此次推出新一代客户端内存芯片组的意义,首先需要理解AI PC正在面对怎样的新负载。

过去,PC的工作流更多的是响应用户指令。用户发出请求,系统完成计算,再返回结果。而随着Agent逐渐成为AI PC的负载,计算模式开始发生变化。PC不仅需要完成多轮对话,还需要在后台持续进行任务规划、工具调用、状态维护和多步骤执行。

负载形态的变化,也让内存系统的重要性迅速提升。Rambus内存接口芯片部门产品营销副总裁John Eble指出,生成式AI工作负载具有鲜明特点,其需要处理更长的上下文,并且这些上下文必须能够被实时调用。

打开网易新闻 查看精彩图片

这意味着,大量上下文数据需要长期驻留在系统内存中,处理器与内存之间的数据交换也会变得更加频繁。而随着Agent任务链不断延长,系统需要保存的信息越来越多,数据传输也从间歇式访问演变为持续性流动。

因此,对于AI PC而言,对内存的需求也不再只是CPU和GPU之外的辅助资源,而是决定系统响应速度、推理效率和运行稳定性的关键环节。

事实上,过去几年,行业主要通过提升DDR5数据速率来满足不断增长的带宽需求。从4800 MT/s到6400 MT/s,再到更高频率,内存带宽持续提升。但当速率继续向上突破时,问题也开始出现。

原因在于,数据传输速度越快,接收端用于采样数据的时间窗口就越短。电源噪声引起的时钟抖动、阻抗不匹配带来的信号衰减和反射,以及引脚之间的串扰,都会在更高频率下被进一步放大。

与此同时,信号在主板与内存模块之间传输时产生的相位漂移和时序不确定性也在持续累积。对于同步内存接口而言,原本尚有余量的时序窗口不断收缩,满足系统稳定运行所需的时序裕量,逐渐成为涉及处理器、主板、内存模组和接口芯片的系统级挑战。

换句话说,当DDR5进入更高数据速率区间后,传统无缓冲DIMM(UDIMM/SODIMM)架构正在接近其物理极限。仅靠提升频率已经难以持续获得稳定增益,信号完整性和时钟质量开始成为制约客户端内存继续演进的核心瓶颈。

02 CKD + PMIC + SPD:Rambus 用"系统级协同"撑起 9600 MT/s

其实,当传统无缓冲DIMM逐渐接近物理极限后,行业并没有停止提升带宽的脚步。而问题在于,继续提高DDR5速率并不能自动解决高速传输带来的时序和信号问题。随着数据速率不断上升,内存系统需要的不再只是高速率的DRAM颗粒,而是能够同时处理时钟、供电和系统管理问题的新架构。

于是,客户端内存开始出现以往多见于服务器领域的设计思路。

从DDR5 6400 MT/s开始,行业逐步引入了客户端时钟驱动器(Client Clock Driver,CKD)架构,推动UDIMM和SODIMM向CUDIMM、CSODIMM,以及CQDIMM等新形态演进。其核心变化是在内存模块内部增加时钟管理能力,通过对时钟信号进行恢复和重新分配,为更高频率运行保留足够的时序裕量。

Rambus此次发布的DDR5 9600客户端芯片组,正围绕这一趋势展开。

整套方案由第二代客户端时钟驱动器CKD02、电源管理IC(PMIC)以及集成温度传感器的SPD Hub组成,分别负责时钟管理、供电调节和模块配置通信,共同支撑高频DDR5模块稳定运行。

打开网易新闻 查看精彩图片

其中,最核心的器件是第二代客户端时钟驱动器DR5CKD2Gxx(CKD02)。

相比支持最高7200 MT/s的第一代CKD01,新一代CKD02将工作范围扩展至8000 MT/s至9600 MT/s。其主要作用,是对处理器发送至DIMM模块各个DRAM颗粒的时钟信号进行恢复、重定时和重新分配,再向模块内部各个DRAM提供统一且稳定的时钟参考。John Eble表示,在高速内存系统中,控制链路中的抖动和时序不确定性,是实现更高数据速率的关键。时钟驱动器能够恢复并重新分配时钟信号,为每颗DRAM提供更加稳定的时钟参考。否则,随着数据在CPU与DRAM之间往返传输,相位漂移会不断累积,可用于数据采样的时序窗口将持续缩小,9600 MT/s级别的稳定传输也将难以实现。

这也是CKD被引入客户端内存架构的重要原因。其除了能解决的频率提升问题,更可以在更高数据速率下重新建立稳定运行所需的时钟基础。

除了时钟管理,高频内存对于供电质量也提出了更高要求。

随着数据速率不断提升,供电波动带来的影响会被进一步放大。对于运行长上下文和持续推理任务的AI PC而言,稳定的供电环境不仅关系到功耗表现,也直接影响内存系统的可靠性。

为此,Rambus在其DDR5 9600客户端芯片组中配置了两类电源管理芯片。其中,P2535Gxx(PMIC5120)主要面向DDR5模块,P2745XXGxx(PMIC5200)则针对采用LPDDR技术的LPCAMM2模块进行了优化。

两类电源管理芯片负责将系统供电转换为DRAM及其他器件所需的工作电压,并在不同负载条件下维持较高的电压精度和转换效率,从而降低供电波动对系统稳定性的影响。

CKD解决了时钟问题,PMIC解决了供电问题,那么模块配置管理和运行状态监测同样需要专门的支持。

为此,Rambus在芯片组中集成了SPD Hub。其负责模块识别、配置和遥测通信等任务,支持I2C和I3C Basic双向实时通信与重新驱动。同时,因为其集成了温度传感器,还能持续向系统反馈运行状态,为主动热管理和系统调优提供数据支持。

至此,Rambus此次发布的客户端芯片组形成了一套完整的协同架构,三类器件分别解决不同问题,但共同目标是在更高数据速率下维持内存系统的稳定运行。

这种设计思路也反映出客户端内存正在发生的变化。内存竞争正在从单颗DRAM颗粒的性能竞争,转向系统级工程能力竞争。

这一趋势同样延伸到了新的内存形态中。

除了CUDIMM、CSODIMM和CQDIMM之外,Rambus还将这套架构扩展至LPCAMM2。作为近年来受到行业关注的新一代内存模块方案,LPCAMM2兼具高带宽、低功耗和更高空间利用率等优势。

针对这一形态,Rambus已经实现支持最高10666 MT/s的数据速率,为未来AI PC和高性能移动平台预留了进一步的提升空间。

03 Rambus把历史经验,变成客户端的竞争壁垒

对于Rambus而言,这恰恰是其长期积累开始发挥价值的领域。作为一家拥有30多年历史的底层IP和芯片企业,Rambus超过75%的收入来自数据中心市场,长期在服务器领域为DDR4、DDR5内存模块提供寄存时钟驱动器(RCD)、数据缓冲器(DB)等关键器件。过去五年,其芯片产品收入实现了25%的复合年增长率。

打开网易新闻 查看精彩图片

正是这段长期服务数据中心的经历,让Rambus形成了一套区别于传统客户端供应商的能力体系。John Eble表示,服务器平台通常更关注容量扩展、全天候可靠性和系统可用性,而传统客户端平台则更强调每瓦带宽、热效率、紧凑设计以及成本控制。两类平台的关注点虽然不同,但随着数据速率不断提升,工程挑战正变得越来越相似。

这也意味着,Rambus在服务器侧积累的系统级能力,开始具备迁移到客户端市场的价值。

不过,对于OEM厂商而言,眼下真正棘手的并不只是产品技术创新,还有越来越沉重的成本压力。

当前,内存市场正处于明显的涨价周期。根据Gartner数据,PC内存成本在整机BOM(物料清单)中的占比已经从此前的16%上升至23%。对于AI PC、尤其是主流和入门级产品而言,内存已经成为影响整机成本结构的重要变量。

与此同时,高速内存模块的认证和验证复杂度也在持续增加。从模块设计、信号调优到平台认证,任何一个环节反复修改,都会拉长产品开发周期,并进一步推高成本。

成本与复杂度的双重压力下,客户需要采购的一整套经过验证的解决方案。

Rambus大中华区总经理苏雷表示,近期Rambus已经中国多家PC及笔记本厂商讨论过内存涨价带来的压力。在他看来,除了提供具有竞争力的芯片产品,更重要的是通过完整方案,帮助客户降低供应链管理和产品开发过程中的复杂度。

打开网易新闻 查看精彩图片

这种价值会贯穿产品开发的多个环节。从设计评审、信号完整性分析,到模块验证和系统调试,Rambus与PC厂商、DRAM厂商,以及模组厂商共同参与开发流程。当客户在设计或验证阶段遇到问题时,相关团队能够利用长期积累的内存设计经验协助优化方案,从而减少反复调试带来的时间和成本消耗。

供应链同样是这套方案的一部分。John Eble透露,Rambus与OSAT(外包半导体封装测试)厂商保持长期合作,通过构建多元化供应链体系,来降低产能波动带来的风险。在需求快速增长或供应链紧张时期,这种能力能够帮助客户获得更稳定的供货保障。

从这个角度看,这也预示着内存行业竞争维度的迁移。过去比拼的是单颗芯片的参数,如今随着本地AI负载攀升、系统复杂度提高,客户更在意产品能否能稳定落地、快速上市、并且控制住成本。

这是从产品能力,转向系统能力和生态能力的价值迁徙。

DDR5 9600并非是终点,John Eble强调,内存性能的每一步提升,都越来越依赖系统级协同,而非单颗器件的升级。

这显现出是Rambus提前布局的逻辑:当本地大模型、多智能体协同与持续推理成为常态,内存就变成了决定整个平台体验的基础设施。