打开网易新闻 查看精彩图片

SK电信支持的AI芯片初创公司Rebellions在IPO前融资中筹集了4亿美元,用于支持其全球扩张,推出针对企业和主权云的新型机架级计算平台。

公司背景与发展历程

Rebellions成立于2020年末,专注于生产AI加速器,这些产品已在韩国国内市场的众多应用中部署。

公司首席商务官Marshall Choy表示:"最初,我们在韩国市场主要专注于电信运营商、服务提供商和企业终端用户。我们围绕呼叫中心、客户服务到国家高速公路系统的监控摄像头等各种场景构建了用例。"

他补充说:"我们现在处于非常有利的位置,能够将这些年积累的经验、能力和改进带到韩国以外的其他地区,这不是重新开始,而更像是一个成熟模式的复制推广。"

产品技术特性

在推出Rebel Quad加速器(现已更名为Rebel100)之后,公司将注意力转向了全球市场。过去几个月,Rebellions在日本、沙特阿拉伯、台湾和美国开设了办事处,希望通过新的RebelRack和RebelPods产品赢得企业客户。

从芯片本身来看,Rebel100在高层面上与英伟达2023年末的H200加速器非常相似。根据Rebellions的数据,该处理器能够实现1 petaFLOP的密集16位浮点运算,或在FP8格式下达到双倍性能。

与使用台积电制造的单片计算芯片的H200不同,Rebellions的最新处理器采用了小芯片架构,包含四个由三星制造和封装的计算芯片。该处理器配备四个HBM3e堆栈,总容量为144 GB,聚合带宽为4.8 TB/s。

较小的计算芯片和对三星的依赖不仅有助于提高良品率,避免与台积电有限的制造和封装产能竞争,但仍需要从某处采购HBM。内存已经供不应求,HBM是其中最稀缺的。

作为与SK集团和三星都有密切联系的韩国公司,这一点显得尤为重要。SK海力士和三星是世界上最大的HBM供应商。据了解,Rebellions目前从三星采购HBM,但在紧急情况下,获得SK海力士的产能支持应该不会太困难。

系统架构设计

该芯片目前被封装为PCIe卡,TDP为600瓦,而不是我们已经习惯的OAM或SXM模块。Rebellions的参考设计要求将八张这样的卡塞进单个风冷节点中。

高效率、标准外形规格(如19英寸机箱)和风冷是Rebellions的关键设计要点,因为这意味着系统可以部署到现有的企业数据中心,这是英伟达最新一代液冷Rubin GPU无法做到的。

RebelRack将包含四个这样的节点,每个节点通过四路400 Gbps网络连接,总共32个加速器,64 petaFLOPS的FP8计算能力,4.6 TB的HBM3e内存和153.6 TB/s的聚合内存带宽。

对于更大规模的部署,Rebellions还在开发名为RebelPod的产品,可以从8个节点扩展到128个节点,每个节点有8个Rebel100加速器,通过800 Gbps以太网互连。

Choy说:"现在,人们考虑的是机架级别。我认为从现在开始几天内,我们将考虑行级别和数据中心级别。"

软件生态系统

与GPU系统相比,这样的网络配置并不算多。大多数HGX系统现在每个GPU至少配备一个800 Gbps网卡。Choy告诉我们,网络结构将是公司未来的重点关注领域。

正如我们在AMD和英伟达的其他机架级系统中看到的那样,计算和网络只是拼图的两块;还需要能够将所有内容协调整合的软件。

Rebellions的软件栈并不复杂。据了解,该平台运行在vLLM、PyTorch和Triton等开源框架上。对于分解推理,它使用llm-d,这是另一个开源框架,能够在一组加速器上执行计算密集型的预填充操作,在另一组上执行内存带宽密集型的解码操作。

Choy说:"从vLLM编译器一直到最高级别的堆栈,Red Hat、OpenShift以及两者之间的一切,全都是开源的。如果你在任何其他环境中使用过这些技术,你就已经知道如何使用Rebellions了。"

虽然我们之前听过芯片制造商类似的声明,但最终并不总是那么容易使用。不过,Rebellions是PyTorch基金会的成员,这是许多AI芯片初创公司无法做到的。

融资与IPO计划

Rebellions的最新一轮融资由未来资产金融集团和韩国国家成长基金领投,这发生在公司准备首次公开募股之际,这是很少有其他AI芯片制造商undertake的壮举。

根据最近的报道,该公司最早可能在今年或明年初申请IPO。

Q&A

Q1:Rebellions的Rebel100芯片有什么特点?

A:Rebel100处理器能够实现1 petaFLOP的密集16位浮点运算,在FP8格式下可达到双倍性能。与英伟达H200不同,它采用小芯片架构,包含四个由三星制造的计算芯片,配备四个HBM3e堆栈,总容量144 GB,聚合带宽4.8 TB/s。

Q2:RebelRack和RebelPod产品有什么区别?

A:RebelRack包含四个节点,每个节点8张加速器卡,通过四路400 Gbps网络连接,总共32个加速器。RebelPod适用于更大规模部署,可从8个节点扩展到128个节点,每个节点有8个Rebel100加速器,通过800 Gbps以太网互连。

Q3:Rebellions的软件生态系统如何?

A:Rebellions采用完全开源的软件栈,包括vLLM、PyTorch和Triton等框架。对于分解推理使用llm-d框架,从vLLM编译器到Red Hat、OpenShift都是开源的。公司还是PyTorch基金会成员,用户如果使用过这些技术就能直接上手。