打开网易新闻 查看精彩图片

你能想象吗?

一块AI芯片,做到接近一台iPad的大小。

这不是概念设计,而是一家正在冲刺上市的AI芯片公司,给出的答案就在不久前,Cerebras披露了招股书,这家公司开始正式走向台前。

从数据看,它的增长几乎是“跳跃式”的。

2022年营收只有2460万美元,到2025年已经达到5.10亿美元,三年增长超过19倍。

更关键的是,盈利也在同步发生变化。2024年还亏损4.82亿美元,到2025年已经转正,实现2.38亿美元净利润。

今年以来,Cerebras更是连续拿下两个关键客户。一边是OpenAI,签下超过百亿美元级别的算力协议;另一边是亚马逊,开始在云侧引入其芯片做推理加速。

这意味着,它开始逐渐进入主流算力体系。

资本市场的预期也在抬高。据外媒报道,Cerebras计划募资超过30亿美元,对应估值至少350亿美元。

所以问题来了,一家把芯片做到“iPad大小”的公司,到底在解决什么问题?

今天,我们就来聊聊Cerebras。


GPU,不是AI计算的答案

先来说说 Cerebras 为什么会存在。很多人可能不知道,过去40年,计算行业始终在印证一个铁律:

新的计算需求,终将催生新的计算架构。

PC时代是 x86,移动时代是 ARM,图形时代是 GPU。每当新的计算范式出现,行业最初总是试图用旧架构“凑合”,但当技术演进到一定阶段,就会不可避免地发现——旧架构已达到极限,必须重构底层系统。

现在,这件事正在AI 身上重演。

AI 的计算方式,和过去完全不同。简单来说,过去的计算,大多是“局部、独立”的,比如图形渲染,每个像素可以各算各的,互不影响。

但AI 模型不一样,它本质上是一个高度耦合的计算网络。在这个网络中,数据、参数和计算过程之间需要进行极其频繁的信息交换。

这就导致了一个根本性的转变:AI本质上是一个“通信密集型”的计算问题,而不仅仅是一个单纯的“算力”问题。

这也是GPU 开始遇到瓶颈的根本原因。

GPU 的优势在于并行计算,但前提是“任务彼此独立”。而在 AI 里,每一步计算都依赖前一步结果,大量时间花在“等数据”。

这种架构上的不匹配,在AI模型的训练和推理阶段暴露无遗。

在训练阶段,单卡不够强,只能把模型拆开,分布到上千张GPU上。但一旦拆开,就必须频繁通信,效率迅速下降,同时系统复杂度和成本飙升。

简单说就是,单卡不够,多卡低效。

到了推理阶段,问题就更加直观了。

模型在生成每一个词(Token)时,都需要完整地运行一遍整个模型。但由于模型体积过于庞大,无法完整加载到芯片内部的缓存中,计算单元只能不断地从外部内存中搬运数据。

问题在于,这个“搬数据”的过程,远比“算数据”慢。目前,高端GPU普遍采用了HBM(高带宽内存)技术,但HBM的特点是“容量大而速度相对较慢”。

Cerebras创始人Andrew Feldman曾提供过一组直观的数据:以一个相对较小的70亿参数(7B)模型为例,假设每个权重占用16位(16-bit),那么生成一个词,就需要从内存中搬运约140GB的数据。

而为了生成下一个词,系统必须再次搬运这140GB的数据,如此周而复始。这种计算模式对内存带宽的消耗是极其惊人的。

结果就是,在某些场景下,GPU的实际利用率甚至可能跌至5%以下。这种高成本、高延迟的破架构,怎么可能撑得起未来那些要求毫秒级响应的实时AI应用?

一块接近iPad大小的芯片

对于这些问题,Cerebras给出的解法,不仅很直接,也很极端:

把芯片做到足够大,大到可以把“算力、内存、带宽”都放进同一块硅片里。

就这样,Cererbas打造了全球首创且唯一的商业化晶圆级处理器——晶圆级引擎(WSE),并声称其第三代AI芯片WSE-3是“史上大批量推向市场的最大、最快AI芯片”。

与GPU相比,WSE-3的最大特点就是,大。

WSE-3的面积是4.6万平方毫米,接近一块iPad屏幕;而H100只有814平方毫米,两者相差整整57倍。

用Feldman自己的比喻来说:

“想象一个玻璃杯就是内存,里面装的可乐是数据,而你的嘴巴代表算力。你能喝到可乐的速度,完全取决于吸管的粗细。英伟达GPU的根本问题,就在于这根吸管太细了。而我们的破局之道是——直接把吸管扔掉,端起杯子往嘴里倒。

这疯狂的尺寸,直接砸出了三个颠覆性的结果:

第一,计算被暴力“集中”了。

WSE-3丧心病狂地塞进了90万个计算核心,是H100的52倍!更恐怖的是,这90万个核心全在一块硅片上,紧紧挨着,压根不需要跨芯片通信。

第二,是内存被“拉近”了。

传统GPU依赖HBM(本质是DRAM),容量大,但访问慢;SRAM速度极快,但容量小。

Cerebras的做法,是直接把芯片做大到可以放下足够多的SRAM——WSE-3集成了44GB片上SRAM,而H100只有约0.05GB,相差880倍。

这意味着,大模型的参数可以直接“贴脸”放在计算单元旁边,再也不用来回倒腾了。

第三,也是最关键的,是带宽问题被“消掉”了。

WSE-3的片上内存带宽达到21 PB/s,而H100大约是0.003 PB/s,相差7000倍;片上互连带宽也高出3700倍以上。

在GPU体系里,大量时间花在“搬数据”上。而在WSE里,数据基本不需要离开芯片。

总结起来,其实Cerebras就做了一件事:让数据不再流动,让计算围绕数据发生。

谁在为这个疯狂的故事买单?

技术再牛,卖不出去也是白搭。Cerebras面临的现实拷问是:谁来掏钱?

答案是,中东土豪。

2022到2025年,公司收入从2460万美元一路增长到5.1亿美元,三年翻了超过20倍;净利润也在2025年首次转正,达到2.38亿美元。

但这钱,几乎全是中东老铁砸的。

2024年,阿布扎比的G42贡献了85%的营收;2025年,阿联酋人工智能大学(MBZUAI)和G42联手包揽了87%的收入。

这家公司赚的钱,几乎都来自中东。

换句话说,Cerebras的命脉,全捏在两个中东大客户手里。 这种走钢丝般的营收结构,自然成了IPO时投资人最忌惮的定时炸弹。

为了自救,Cerebras开始疯狂拉客。真正的转折点,来自OpenAI。

2026年1月,Cerebras拿下了史诗级大单:2026到2028年,为OpenAI提供高达750兆瓦的算力,总金额超过100亿美元!

不仅如此,OpenAI还倒贴10亿美元(约合人民币68亿元),帮Cerebras建数据中心。

这背后的水很深。OpenAI的掌门人Sam Altman,本身就是Cerebras的早期投资人,而且早在2017年,OpenAI就已经盯上了Cerebras的技术。

巨头入场,风向彻底变了。

2026年3月,AWS(亚马逊云)也坐不住了,成为首家吃螃蟹的超大规模云厂商。

AWS的玩法很鸡贼:在推理任务里,用自家的Trainium芯片搞定“理解输入”,然后把“生成输出”这种脏活累活扔给Cerebras的CS-3芯片。两者高速互联,双剑合璧。

据说,这套组合拳的速度,是现有方案的5倍以上!

/ 04 /

决战英伟达,护城河到底在哪?

只要在这个圈子里混,就绕不开那个终极灵魂拷问:

你凭什么干掉英伟达的护城河?

所有整个AI算力行业都相信一个故事:CUDA生态,就是英伟达坚不可摧的护城河。

黄仁勋在GTC 2026上也是这么放话的:“CUDA搞了20年,早就长在每一朵云、每一台电脑里了。我们的护城河,是整个软件生态!”

但在挑战者Feldman眼里,CUDA的神话,被严重夸大了。

原因是,CUDA在训练侧确实有价值,但在推理侧,几乎不存在锁定。

现在的AI开发,早就被PyTorch统领了,应用层和底层硬件已经脱钩。只要编译器给力,模型在不同硬件之间横跳,根本不是难事。

“从NVIDIA切到Cerebras,再切到别人家,这件事情在推理端并不难。”

相比虚无缥缈的CUDA生态,Feldman看得很透:英伟达真正的护城河,是它那令人绝望的市场份额。

比起CUDA建立的生态,Feldman认为英伟达真正的护城河在市场份额。

市场份额本身,就是最无解的护城河。

他举了Intel的例子,即便连续犯错,依然能长期占据70%+的市场份额,AMD花了十年,也只拿到20%多。

这意味着,一旦成为默认选项,后来者即使更好,也需要极长时间才能撬动。

放在今天的英伟达身上,这个优势更明显:所有人都在它的体系里学习AI、构建AI,它就是采购的起点。现在的英伟达就是那个“默认起点”,所有人都在它的体系里学AI、做AI。

但Feldman并不绝望。他预测,五年后,英伟达接近100%的垄断份额,可能会跌到50%–60%。

理由很简单:训练市场依然是英伟达的天下,但真正庞大的推理市场正在井喷,而这个市场,对新架构极其渴望!

同时,Feldman也相信另一个暴论:

即使在未来,芯片公司的价值,也将彻底碾压模型公司!

他的逻辑来自一个很经典的比喻,短期市场是“投票机”,长期是“称重机”。

模型公司的优势周期很短,可能只有几个月,领先与被超越在不断切换,很难沉淀长期壁垒。

而芯片不同,它的壁垒在物理层,制造、工艺、供应链、工程能力,这些东西一旦建立,很难被快速复制。

过去几十年,真正长期伟大的公司,大多来自这一层。

文/林白

PS:如果你也在寻找投资AI资产的机会,欢迎扫码加入我们的交流群。