从单一的图形渲染工具,再到如今通用计算的澎湃核心,GPU已毫无悬念的成为近几年来半导体产业最火热的增量市场,也正是在这样的狂潮之下,英伟达才得以创造一个不可思议的商业神话。

过去3年,中国本土冒出的GPU企业中,几乎每一家都拿产品性能与英伟达的GPU公开比较,这种对比帮助中国公司在行业鼎盛时期吸引了大量资金的青睐,动辄数十亿。然而,在经过行业震荡和地缘政治因素夹击之后,现如今再评估中国公司的GPU产品时,各界的眼光与视角显得格外冷静,如场外资金一般克制。

抛开现象看本质,当海外先进制造工艺关闭了绿灯,本土GPU行业无法继续在产品层面展开讨巧的数据对比,这时就需要聚焦到技术本身的发展过程之中。但本土GPU公司大多成立不久,技术发展史也只能从团队成员的履历里管中窥豹,要观察完整的GPU技术发展过程,就不得不提到一家从来没有过“产品”的公司——芯原股份。

无形之刃,芯原GPU成色几何

芯原股份正式拥有自研的GPU核心技术是在2016年,依靠收购嵌入式GPU公司图芯(Vivante)才开始进军GPU研发领域。被收购的Vivante属于GPU领域的老牌劲旅,此桩收购案当时有两大看点,一是芯原股份创始人戴伟民与Vivante CEO 戴伟进之间的兄弟关系,二是Vivante深厚的GPU技术造诣对芯原IP版图如全球领先的视频处理器VPU和数字信号处理器ZSP的重要补强。

成立于2004年的Vivante,很早就奠定了嵌入式GPU行业的领先地位,尤其是在移动GPU领域。根据2012年JPR公布的移动GPU市场份额排名,Vivante排在Imagination和高通Adreno之后,位列第三;在GPU IP领域则更是仅次于Imagination,排在第二。

如今担任芯原GPU产品副总裁的张慧明,也曾是Vivante研发团队中的核心人员。在接受集微网专访时,张慧明介绍称,芯原的GPU IP研发团队经历了GPU产业完整的发展过程,从早期电脑中对图形显示的驱动、到个人电脑普及后对游戏画面的渲染、再到区块链时期和弱人工智能时期开始涉及一些通用的计算,最后到如今的生成式AI爆发期,芯原的GPU IP一直追逐最前沿的技术和市场,其GPU IP和GPGPU IP如今均已在业内获得了头部客户的广泛应用和关注。

图示:芯原GPU产品副总裁的张慧明
打开网易新闻 查看精彩图片
图示:芯原GPU产品副总裁的张慧明

张慧明表示,芯原的GPU IP基于统一的架构,由固定的图形处理单元,GPGPU通用计算,以及针对AI加速的含Tensor Core在内的张量处理三大部分构成,可打造出支持异构计算的GPGPU-AI IP。

如果将三个部分组合在一起,这种解决方案就类似于英伟达的RTX4090和3090这种带AI功能的显卡,满足类似AI PC等新的应用场景;如果将GPGPU和AI加速这两个部分组合在一起,就能组成算力卡;如果仅仅采用AI加速这部分,则是专用的AI处理器。

在保证通用性的基础上,芯原还对AI应用场景进行了针对性优化。在提供更密集的计算资源的同时,芯原GPGPU-AI IP提升了单核架构的算力,从一个并行处理单元扩展到8-10个并行处理单元,使得算力提升8-10倍。另外,芯原还研发了并行处理单元任务分发算法和控制器,以及高带宽二级及三级缓存,打造出可以用于服务器和数据中心的高性能GPGPU-AI处理器IP。

此外,张慧明还特地强调了芯原GPGPU-AI IP的可扩展能力,通过多核扩展、单核内多簇扩展和单核内多处理单元扩展的三级扩展模式,芯原能够满足不同客户的不同应用场景,为人工智能时代的AI芯片定制提供灵活的算力方案。

在芯原过去基于GPGPU-AI IP为客户打造的定制解决方案中,与之搭配需求最多的是视频处理器IP。张慧明指出,视频早已经成为一个重要的媒介。随着视频转码服务器、AI服务器、云桌面和云游戏等在内的下一代数据中心的需求不断提升,大算力服务器芯片普遍都需要具备一定的视频处理能力,且这种处理能力在性能、吞吐量、功耗和面积等方面,比过去专用视频编解码芯片的要求更高。其次,用于自然语言处理的NPU IP也是GPGPU-AI IP的另一个重要组合。

芯原拥有丰富的处理器IP,可以提供这些自研处理器IP定制化组合的完整解决方案。通过内部流水线级别的原生耦合,相比单独的各类IP拼接更具优势。张慧明强调,芯原的不同种处理器之间不仅能做到数据互通,还重点开发了独有的数据压缩技术,在每个IP之间都能通过压缩技术来减少带宽,从而在有限带宽上发挥出更大的算力。加上芯原创新的FLEXA低功耗低延迟同步接口通信技术,可极大程度地提升IP间的交互性能。

现状与出路

当下,AI时代加速到来催生了巨大的算力需求,我国GPU产业却因种种原因发展受限。在此背景下,用有限资源来跨越算力鸿沟是主旋律。

正如张慧明所言,芯原的带宽压缩技术便是其中的一种解决方案。在目前的工艺和技术限制下,国产芯片虽无法完全匹配国际领先的算力,但如果能在功耗层面明显大幅度降低,则能使产品同样具有竞争力。尤其在需要大量GPGPU做算力集群的场景下,如果能耗可以明显降低,既能为企业大幅节省成本,又符合全球绿色低碳的发展趋势。

另外,芯原近两年力推的Chiplet技术也是当前工艺受限的另一种解。用芯片做堆叠和集联,打造更大算力的单卡,替代过去低算力的多卡方案,进而获得更优秀的整体算力和功耗表现。

除了功耗和算力,软件生态也是国产GPU多年以来的发展痛点。在张慧明看来,本土生态近几年已经取得了长足的进步,尤其是一些大公司在生态上的投入和布局。随着生态短板被逐渐弥补,国产GPU与国际领先企业的正面比拼才刚刚开始。

在AI时代催生的GPU发展大潮中,谈及芯原的定位时,张慧明强调:“芯原一直秉持不做产品只提供IP授权和芯片定制服务的商业模式,以中立地位助力客户发展。基于GPGPU-AI、VPU、DSP以及NPU等一系列IP的参考设计,为客户提供全方位AI IP的平台方案和一站式AI芯片的定制服务。”

长远来看,大模型的发展会催生大量专用处理器需求,以提升整体计算能力,并降低整个算力集群的功耗,这便是芯原GPGPU-AI与其他多种处理器IP灵活组合定制的未来。