Meta传出要开放AI算力租赁业务。消息出来后,市场第一反应是:Meta要和AWS、Azure、Google Cloud正面竞争。也有人解读为——AI算力开始过剩,但这个判断,可能看错了方向。

Meta股票在短暂下跌后迅速修复,随后大涨10%。市场很快意识到:Meta的动作,不是算力过剩,是AI算力有生意可做。

过去,GPU是用来“训练自己的模型”的。未来,GPU也可以像云服务器一样“对外出租”。

变化的核心不是算力多了,而是算力开始变成现金流资产。

打开网易新闻 查看精彩图片

01 AI算力从“自用”走向“运营”

Meta长期在建设超大规模GPU集群,用于训练Llama等模型。问题在于,模型训练是周期性的,并非持续满负荷运行。

当训练进入间歇期,大量算力会处于闲置状态。与其空置,不如对外提供服务。这本质上和AWS早期做的事情一样——把内部基础设施变成云服务。

但AI云和传统云的不同在于,它卖的不只是计算资源,而是稳定交付能力。自用场景中,偶尔宕机可以内部消化。但一旦变成租赁业务,就进入SLA体系。

客户不会接受“我们正在排查网络抖动”这种解释。停一分钟,就是成本损失。因此,AI云竞争的核心,已经从“谁有更多GPU”变成“谁能稳定跑满GPU”。

02 GPU越多,越依赖“同步能力”

当训练规模扩大到几千甚至上万张GPU时,性能瓶颈往往不在算力,而在同步。

模型训练需要GPU之间持续交换参数,PCIe、NVLink、高速以太网、SerDes、交换芯片,都在高频参与通信。

只要系统中出现轻微时序偏差,就可能导致数据重传增加、链路等待和整体效率下降。

结果就是:GPU没有坏,但在“等”。而等待,本质上就是算力浪费。

因此,大规模AI训练真正追求的不是峰值算力,而是长期稳定同步运行能力。

03 为什么参考时钟开始变得关键?

在高速AI服务器中,有一个容易被忽略的基础器件——参考时钟。它决定整个系统的时间基准。

当系统规模扩大后,工程师开始面对几个现实问题:

不同芯片之间是否同步?

长时间运行后频率是否漂移?

高温环境下是否稳定?

多板卡之间是否一致?

这些问题最终都会影响高速链路的误码率和训练效率。

因此,在800G、1.6T高速互连系统中,越来越多通信控制器和信号处理器开始采用LVDS差分参考时钟方案,用于提升抗干扰能力和时钟稳定性。

04 为什么300MHz LVDS开始变多?

在高速通信系统中,参考时钟正在向更高频率演进。尤其在通信控制器、交换芯片、DSP等器件中,300MHz级别的LVDS差分有源时钟开始变得常见。

原因很直接:

高速接口对时序要求更严格

差分结构比单端更抗干扰

服务器内部EMI环境更复杂

高频系统更依赖低抖动时钟源

相比传统CMOS输出,LVDS差分结构在高速PCB环境中更稳定,也更适合多芯片同步场景。

同时,3225封装在布局布线中具备更好的空间和阻抗控制能力,因此在高速通信系统中应用越来越广泛。

打开网易新闻 查看精彩图片

05 它从能用到长期稳定

AI基础设施正在经历一个隐性升级。过去,客户关心的是:有没有这个频率?价格是多少?多久能交货?

而现在,问题变成:长时间运行是否漂移,高低温下是否一致?多颗器件是否匹配?相位噪声是否足够低?

这几个参数,决定的是AI系统能不能连续跑几个月不掉链。Meta卖AI算力,并不意味着算力过剩。

它更像是一个信号:AI正在从“模型竞争”进入“基础设施运营竞争”。

GPU仍然重要,但真正决定系统效率的,已经不只是GPU本身,而是整套基础设施能否稳定协同运行。在这套系统里,交换机、网络、存储、电源、散热都很关键。

但最底层的一件事,是所有设备必须在同一个时间基准下运行。当AI开始变成一种“持续运行的服务”,真正被重新定义价值的,不只是GPU,还有那些一直在默默维持节奏的参考时钟。