无形之刃，芯原GPGPU IP成色几何|gpgpu|ip|处理器|芯原

从单一的图形渲染工具，再到如今通用计算的澎湃核心，GPU已毫无悬念的成为近几年来半导体产业最火热的增量市场，也正是在这样的狂潮之下，英伟达才得以创造一个不可思议的商业神话。

过去3年，中国本土冒出的GPU企业中，几乎每一家都拿产品性能与英伟达的GPU公开比较，这种对比帮助中国公司在行业鼎盛时期吸引了大量资金的青睐，动辄数十亿。然而，在经过行业震荡和地缘政治因素夹击之后，现如今再评估中国公司的GPU产品时，各界的眼光与视角显得格外冷静，如场外资金一般克制。

抛开现象看本质，当海外先进制造工艺关闭了绿灯，本土GPU行业无法继续在产品层面展开讨巧的数据对比，这时就需要聚焦到技术本身的发展过程之中。但本土GPU公司大多成立不久，技术发展史也只能从团队成员的履历里管中窥豹，要观察完整的GPU技术发展过程，就不得不提到一家从来没有过“产品”的公司——芯原股份。

无形之刃，芯原GPU成色几何

芯原股份正式拥有自研的GPU核心技术是在2016年，依靠收购嵌入式GPU公司图芯（Vivante）才开始进军GPU研发领域。被收购的Vivante属于GPU领域的老牌劲旅，此桩收购案当时有两大看点，一是芯原股份创始人戴伟民与Vivante CEO 戴伟进之间的兄弟关系，二是Vivante深厚的GPU技术造诣对芯原IP版图如全球领先的视频处理器VPU和数字信号处理器ZSP的重要补强。

成立于2004年的Vivante，很早就奠定了嵌入式GPU行业的领先地位，尤其是在移动GPU领域。根据2012年JPR公布的移动GPU市场份额排名，Vivante排在Imagination和高通Adreno之后，位列第三；在GPU IP领域则更是仅次于Imagination，排在第二。

如今担任芯原GPU产品副总裁的张慧明，也曾是Vivante研发团队中的核心人员。在接受集微网专访时，张慧明介绍称，芯原的GPU IP研发团队经历了GPU产业完整的发展过程，从早期电脑中对图形显示的驱动、到个人电脑普及后对游戏画面的渲染、再到区块链时期和弱人工智能时期开始涉及一些通用的计算，最后到如今的生成式AI爆发期，芯原的GPU IP一直追逐最前沿的技术和市场，其GPU IP和GPGPU IP如今均已在业内获得了头部客户的广泛应用和关注。

张慧明表示，芯原的GPU IP基于统一的架构，由固定的图形处理单元，GPGPU通用计算，以及针对AI加速的含Tensor Core在内的张量处理三大部分构成，可打造出支持异构计算的GPGPU-AI IP。

如果将三个部分组合在一起，这种解决方案就类似于英伟达的RTX4090和3090这种带AI功能的显卡，满足类似AI PC等新的应用场景；如果将GPGPU和AI加速这两个部分组合在一起，就能组成算力卡；如果仅仅采用AI加速这部分，则是专用的AI处理器。

在保证通用性的基础上，芯原还对AI应用场景进行了针对性优化。在提供更密集的计算资源的同时，芯原GPGPU-AI IP提升了单核架构的算力，从一个并行处理单元扩展到8-10个并行处理单元，使得算力提升8-10倍。另外，芯原还研发了并行处理单元任务分发算法和控制器，以及高带宽二级及三级缓存，打造出可以用于服务器和数据中心的高性能GPGPU-AI处理器IP。

此外，张慧明还特地强调了芯原GPGPU-AI IP的可扩展能力，通过多核扩展、单核内多簇扩展和单核内多处理单元扩展的三级扩展模式，芯原能够满足不同客户的不同应用场景，为人工智能时代的AI芯片定制提供灵活的算力方案。

在芯原过去基于GPGPU-AI IP为客户打造的定制解决方案中，与之搭配需求最多的是视频处理器IP。张慧明指出，视频早已经成为一个重要的媒介。随着视频转码服务器、AI服务器、云桌面和云游戏等在内的下一代数据中心的需求不断提升，大算力服务器芯片普遍都需要具备一定的视频处理能力，且这种处理能力在性能、吞吐量、功耗和面积等方面，比过去专用视频编解码芯片的要求更高。其次，用于自然语言处理的NPU IP也是GPGPU-AI IP的另一个重要组合。

芯原拥有丰富的处理器IP，可以提供这些自研处理器IP定制化组合的完整解决方案。通过内部流水线级别的原生耦合，相比单独的各类IP拼接更具优势。张慧明强调，芯原的不同种处理器之间不仅能做到数据互通，还重点开发了独有的数据压缩技术，在每个IP之间都能通过压缩技术来减少带宽，从而在有限带宽上发挥出更大的算力。加上芯原创新的FLEXA低功耗低延迟同步接口通信技术，可极大程度地提升IP间的交互性能。

现状与出路

当下，AI时代加速到来催生了巨大的算力需求，我国GPU产业却因种种原因发展受限。在此背景下，用有限资源来跨越算力鸿沟是主旋律。

正如张慧明所言，芯原的带宽压缩技术便是其中的一种解决方案。在目前的工艺和技术限制下，国产芯片虽无法完全匹配国际领先的算力，但如果能在功耗层面明显大幅度降低，则能使产品同样具有竞争力。尤其在需要大量GPGPU做算力集群的场景下，如果能耗可以明显降低，既能为企业大幅节省成本，又符合全球绿色低碳的发展趋势。

另外，芯原近两年力推的Chiplet技术也是当前工艺受限的另一种解。用芯片做堆叠和集联，打造更大算力的单卡，替代过去低算力的多卡方案，进而获得更优秀的整体算力和功耗表现。

除了功耗和算力，软件生态也是国产GPU多年以来的发展痛点。在张慧明看来，本土生态近几年已经取得了长足的进步，尤其是一些大公司在生态上的投入和布局。随着生态短板被逐渐弥补，国产GPU与国际领先企业的正面比拼才刚刚开始。

在AI时代催生的GPU发展大潮中，谈及芯原的定位时，张慧明强调：“芯原一直秉持不做产品只提供IP授权和芯片定制服务的商业模式，以中立地位助力客户发展。基于GPGPU-AI、VPU、DSP以及NPU等一系列IP的参考设计，为客户提供全方位AI IP的平台方案和一站式AI芯片的定制服务。”

长远来看，大模型的发展会催生大量专用处理器需求，以提升整体计算能力，并降低整个算力集群的功耗，这便是芯原GPGPU-AI与其他多种处理器IP灵活组合定制的未来。