全球最大芯片要上市了！先后拿下OpenAI、亚马逊，Cerebras赌对了什么？

硅基观察Pro

2026-04-21 19:48 ·北京 ·优质互联网领域创作者

你能想象吗？

一块AI芯片，做到接近一台iPad的大小。

这不是概念设计，而是一家正在冲刺上市的AI芯片公司，给出的答案就在不久前，Cerebras披露了招股书，这家公司开始正式走向台前。

从数据看，它的增长几乎是“跳跃式”的。

2022年营收只有2460万美元，到2025年已经达到5.10亿美元，三年增长超过19倍。

更关键的是，盈利也在同步发生变化。2024年还亏损4.82亿美元，到2025年已经转正，实现2.38亿美元净利润。

今年以来，Cerebras更是连续拿下两个关键客户。一边是OpenAI，签下超过百亿美元级别的算力协议；另一边是亚马逊，开始在云侧引入其芯片做推理加速。

这意味着，它开始逐渐进入主流算力体系。

资本市场的预期也在抬高。据外媒报道，Cerebras计划募资超过30亿美元，对应估值至少350亿美元。

所以问题来了，一家把芯片做到“iPad大小”的公司，到底在解决什么问题？

今天，我们就来聊聊Cerebras。

GPU，不是AI计算的答案

先来说说 Cerebras 为什么会存在。很多人可能不知道，过去40年，计算行业始终在印证一个铁律：

新的计算需求，终将催生新的计算架构。

PC时代是 x86，移动时代是 ARM，图形时代是 GPU。每当新的计算范式出现，行业最初总是试图用旧架构“凑合”，但当技术演进到一定阶段，就会不可避免地发现——旧架构已达到极限，必须重构底层系统。

现在，这件事正在AI 身上重演。

AI 的计算方式，和过去完全不同。简单来说，过去的计算，大多是“局部、独立”的，比如图形渲染，每个像素可以各算各的，互不影响。

但AI 模型不一样，它本质上是一个高度耦合的计算网络。在这个网络中，数据、参数和计算过程之间需要进行极其频繁的信息交换。

这就导致了一个根本性的转变：AI本质上是一个“通信密集型”的计算问题，而不仅仅是一个单纯的“算力”问题。

这也是GPU 开始遇到瓶颈的根本原因。

GPU 的优势在于并行计算，但前提是“任务彼此独立”。而在 AI 里，每一步计算都依赖前一步结果，大量时间花在“等数据”。

这种架构上的不匹配，在AI模型的训练和推理阶段暴露无遗。

在训练阶段，单卡不够强，只能把模型拆开，分布到上千张GPU上。但一旦拆开，就必须频繁通信，效率迅速下降，同时系统复杂度和成本飙升。

简单说就是，单卡不够，多卡低效。

到了推理阶段，问题就更加直观了。

模型在生成每一个词（Token）时，都需要完整地运行一遍整个模型。但由于模型体积过于庞大，无法完整加载到芯片内部的缓存中，计算单元只能不断地从外部内存中搬运数据。

问题在于，这个“搬数据”的过程，远比“算数据”慢。目前，高端GPU普遍采用了HBM（高带宽内存）技术，但HBM的特点是“容量大而速度相对较慢”。

Cerebras创始人Andrew Feldman曾提供过一组直观的数据：以一个相对较小的70亿参数（7B）模型为例，假设每个权重占用16位（16-bit），那么生成一个词，就需要从内存中搬运约140GB的数据。

而为了生成下一个词，系统必须再次搬运这140GB的数据，如此周而复始。这种计算模式对内存带宽的消耗是极其惊人的。

结果就是，在某些场景下，GPU的实际利用率甚至可能跌至5%以下。这种高成本、高延迟的破架构，怎么可能撑得起未来那些要求毫秒级响应的实时AI应用？

一块接近iPad大小的芯片

对于这些问题，Cerebras给出的解法，不仅很直接，也很极端：

把芯片做到足够大，大到可以把“算力、内存、带宽”都放进同一块硅片里。

就这样，Cererbas打造了全球首创且唯一的商业化晶圆级处理器——晶圆级引擎（WSE），并声称其第三代AI芯片WSE-3是“史上大批量推向市场的最大、最快AI芯片”。

与GPU相比，WSE-3的最大特点就是，大。

WSE-3的面积是4.6万平方毫米，接近一块iPad屏幕；而H100只有814平方毫米，两者相差整整57倍。

用Feldman自己的比喻来说：

“想象一个玻璃杯就是内存，里面装的可乐是数据，而你的嘴巴代表算力。你能喝到可乐的速度，完全取决于吸管的粗细。英伟达GPU的根本问题，就在于这根吸管太细了。而我们的破局之道是——直接把吸管扔掉，端起杯子往嘴里倒。

这疯狂的尺寸，直接砸出了三个颠覆性的结果：

第一，计算被暴力“集中”了。

WSE-3丧心病狂地塞进了90万个计算核心，是H100的52倍！更恐怖的是，这90万个核心全在一块硅片上，紧紧挨着，压根不需要跨芯片通信。

第二，是内存被“拉近”了。

传统GPU依赖HBM（本质是DRAM），容量大，但访问慢；SRAM速度极快，但容量小。

Cerebras的做法，是直接把芯片做大到可以放下足够多的SRAM——WSE-3集成了44GB片上SRAM，而H100只有约0.05GB，相差880倍。

这意味着，大模型的参数可以直接“贴脸”放在计算单元旁边，再也不用来回倒腾了。

第三，也是最关键的，是带宽问题被“消掉”了。

WSE-3的片上内存带宽达到21 PB/s，而H100大约是0.003 PB/s，相差7000倍；片上互连带宽也高出3700倍以上。

在GPU体系里，大量时间花在“搬数据”上。而在WSE里，数据基本不需要离开芯片。

总结起来，其实Cerebras就做了一件事：让数据不再流动，让计算围绕数据发生。

谁在为这个疯狂的故事买单？

技术再牛，卖不出去也是白搭。Cerebras面临的现实拷问是：谁来掏钱？

答案是，中东土豪。

2022到2025年，公司收入从2460万美元一路增长到5.1亿美元，三年翻了超过20倍；净利润也在2025年首次转正，达到2.38亿美元。

但这钱，几乎全是中东老铁砸的。

2024年，阿布扎比的G42贡献了85%的营收；2025年，阿联酋人工智能大学（MBZUAI）和G42联手包揽了87%的收入。

这家公司赚的钱，几乎都来自中东。

换句话说，Cerebras的命脉，全捏在两个中东大客户手里。这种走钢丝般的营收结构，自然成了IPO时投资人最忌惮的定时炸弹。

为了自救，Cerebras开始疯狂拉客。真正的转折点，来自OpenAI。

2026年1月，Cerebras拿下了史诗级大单：2026到2028年，为OpenAI提供高达750兆瓦的算力，总金额超过100亿美元！

不仅如此，OpenAI还倒贴10亿美元（约合人民币68亿元），帮Cerebras建数据中心。

这背后的水很深。OpenAI的掌门人Sam Altman，本身就是Cerebras的早期投资人，而且早在2017年，OpenAI就已经盯上了Cerebras的技术。

巨头入场，风向彻底变了。

2026年3月，AWS（亚马逊云）也坐不住了，成为首家吃螃蟹的超大规模云厂商。

AWS的玩法很鸡贼：在推理任务里，用自家的Trainium芯片搞定“理解输入”，然后把“生成输出”这种脏活累活扔给Cerebras的CS-3芯片。两者高速互联，双剑合璧。

据说，这套组合拳的速度，是现有方案的5倍以上！

/ 04 /

决战英伟达，护城河到底在哪？

只要在这个圈子里混，就绕不开那个终极灵魂拷问：

你凭什么干掉英伟达的护城河？

所有整个AI算力行业都相信一个故事：CUDA生态，就是英伟达坚不可摧的护城河。

黄仁勋在GTC 2026上也是这么放话的：“CUDA搞了20年，早就长在每一朵云、每一台电脑里了。我们的护城河，是整个软件生态！”

但在挑战者Feldman眼里，CUDA的神话，被严重夸大了。

原因是，CUDA在训练侧确实有价值，但在推理侧，几乎不存在锁定。

现在的AI开发，早就被PyTorch统领了，应用层和底层硬件已经脱钩。只要编译器给力，模型在不同硬件之间横跳，根本不是难事。

“从NVIDIA切到Cerebras，再切到别人家，这件事情在推理端并不难。”

相比虚无缥缈的CUDA生态，Feldman看得很透：英伟达真正的护城河，是它那令人绝望的市场份额。

比起CUDA建立的生态，Feldman认为英伟达真正的护城河在市场份额。

市场份额本身，就是最无解的护城河。

他举了Intel的例子，即便连续犯错，依然能长期占据70%+的市场份额，AMD花了十年，也只拿到20%多。

这意味着，一旦成为默认选项，后来者即使更好，也需要极长时间才能撬动。

放在今天的英伟达身上，这个优势更明显：所有人都在它的体系里学习AI、构建AI，它就是采购的起点。现在的英伟达就是那个“默认起点”，所有人都在它的体系里学AI、做AI。

但Feldman并不绝望。他预测，五年后，英伟达接近100%的垄断份额，可能会跌到50%–60%。

理由很简单：训练市场依然是英伟达的天下，但真正庞大的推理市场正在井喷，而这个市场，对新架构极其渴望！

同时，Feldman也相信另一个暴论：

即使在未来，芯片公司的价值，也将彻底碾压模型公司！

他的逻辑来自一个很经典的比喻，短期市场是“投票机”，长期是“称重机”。

模型公司的优势周期很短，可能只有几个月，领先与被超越在不断切换，很难沉淀长期壁垒。

而芯片不同，它的壁垒在物理层，制造、工艺、供应链、工程能力，这些东西一旦建立，很难被快速复制。

过去几十年，真正长期伟大的公司，大多来自这一层。

文/林白

PS：如果你也在寻找投资AI资产的机会，欢迎扫码加入我们的交流群。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴