2022年岁末,中科驭数对外宣布其自主研发的第二代DPU芯片K2成功点亮,几个月前,中科驭数刚刚完成了数亿元B轮融资,在过去的一年里,中科驭数已完成三轮融资,而第三代DPU也已经进入研发状态。

中科驭数是众多DPU初创公司的一个代表,过去的一年DPU市场可谓热闹非凡,融资、并购、新品等相关新闻频频爆出:在国际市场两家代表性的DPU初创公司Pensando、Fungible先后分别被AMD和微软收购,在中国市场则有芯启源、云豹智能、云脉芯联等多家DPU初创公司分别宣布完成融资,其中云豹智能融资后的估值更是高达90亿元。

毫无疑问,DPU已经成为最受投资者关注的赛道之一,被认为将开启一个比GPU更大的市场。乐观者说,“不一定每台服务器都有GPU,但都会DPU”。而另一方面,DPU市场前景仍然扑朔迷离,虽然有AWS的Nitro系统和阿里云的CIPU的商业化应用成功在前,但DPU多种技术路线并存、难以做到通用化、盈利难等问题仍然困扰着DPU的创业者。

01 向以数据为中心的架构演进

DPU(DataProcessing Unit)是近年来出现的一种专用处理器。这个名字最早被硅谷的创业公司Fungible使用。Fungible成立于2016年,2022年12月被微软收购。Fungible提出一种以数据为中心的架构,并通过DPU来卸载CPU对流量处理的开销,从而提升系统整体性价比。

今天数据中心的主流架构是以计算为中心的,在这种架构中CPU居于中心地位,CPU相当于大管家,负责统一调度所有基础资源,网络数据包收发过程中需要CPU参与协议栈的处理,GPU所处理的数据也需要CPU来协调。但这并不总是效率最高的方式。CPU的定位是通用计算,它具备完备的指令集,通过编程执行指令来完成计算任务。在一些特定领域CPU的效率远不及一些专用芯片,比如在I/O密集的应用场景中,智能网卡的数据传输效率更高。

而在以数据为中心的架构下,由DPU负责所有计算单元的数据输入输出,它与CPU、GPU这些计算单元地位平等,相互交互、相互协调来完成计算任务。DPU专门负责IO的处理和数据传输,这些以前由CPU处理的工作被卸载,让CPU可以专注于业务的计算,从而提升系统的整体效率。

以数据为中心架构出现大的背景是数据处理需求的高速增长。近年来,I/O性能快速提升,网络带宽从10Gbps提升到25Gbps、100Gbps,存储从SATA磁盘过渡到NVMe SSD,快速提升的I/O性能需要投入更多的CPU资源来处理I/O交互和进行相应的数据处理,而CPU的性能提升逐渐遇到瓶颈。

相关研究数据显示,2010年前网络的带宽年化增长大约是30%,近年已经达到45%。相对应的,CPU的性能增长从10年前的23%降低到近年来的3%。普遍存在的虚拟化技术让情况更糟,当CPU已经无法直接应对这些挑战时,DPU应运而生。

DPU专为数据的移动和安全而设计,它以数据为中心,通过专用的系统架构以及新的互联方式高效地处理虚拟化、存储、安全、网络等CPU并不擅长的负载,从而释放出更多的CPU算力,帮助建立起一个更加高效的算力平台。

其实,DPU并非突然出现的。在DPU出现之前,为了应对不断增长的基础设施管理工作,人们想出了不少办法来给CPU减负。比如,早期的TOE(TCP/IPOffloading Engine)就是将CPU处理TCP协议的任务“卸载”到网卡上,后来人们将更多的计算任务卸载至网卡侧来处理,这就有了智能网卡(SmartNIC)技术的发展。今天,不少DPU的关键技术正是从智能网卡演进而来。只不过,相比智能网卡,DPU的功能要丰富得多,更为重要的是,其定位也从辅助性的、为CPU减负的加速卡变成了在计算架构中与CPU并列的核心组件。

02 火爆的DPU市场

虽然DPU已经存在多年,但之前在市场上存在感其实并不强,直到英伟达2019年以69亿美元的价格收购以色列网络芯片公司Mellanox,并于同年推出BlueField-2 DPU,从此才拉开了DPU高速发展的序幕。

英伟达首席执行官黄仁勋的这段话被广泛传播:“DPU将是未来计算的三大支柱之一,CPU用于通用计算、GPU用于加速计算,而DPU在数据中心移动数据,进行数据处理。”

英伟达之后芯片巨头英特尔和AMD先后入局。英特尔2021年宣布联合Google推出IPU,并于2022年推出第二代IPU,包括Mount Evans(英特尔首款ASIC IPU,已经推出)和Oak Springs Canyon(英特尔第二代FPGA IPU);2023年或2024年将推出第三代IPU,包括代号为Mount Morgan和Hot Springs Canyon的400 GB IPU。在英特尔的愿景中,IPU是英特尔超异构平台的中心。

AMD出手稍晚,2022年4月份直接收购了DPU初创厂商Pensando才补上了AMD 数据中心蓝图。Pensando是与Pensando齐名的一家DPU初创公司。

除了芯片厂商之外,还活跃着一家云计算厂商VMware,它也在大力推动DPU的落地。在2020年VMware的全球技术大会VMworld上,VMware宣布将与英伟达合作利用智能网卡来完成网络管理、安全以及虚拟机管理等相关工作。

在2022年的VMware全球技术大会VMware Explore(原来的VMworld)宣布了这一项目的最新进展:推出可以在 DPU 芯片上运行的新版本虚拟化平台vSphere 8,AMD Pensando和NVIDIA BlueField成为首批支持的DPU。VMware是私有云平台的霸主,vSphere是其旗舰产品,vSphere 8的推出对DPU在企业级市场的推广重要性不言而喻。

在芯片巨头们和VMware等大公司的带领下,众多公司纷纷入局。在中国市场也涌现了一大批中国初创公司,如芯启源、云豹智能、星云智联、大禹智芯、中科驭数等,很多公司还取得了不错的进展。除了前面提到的中科驭数已经推出第二代DPU芯片并已着手研发第三代产品外,云豹智能也正在开发自己的首款 DPU SoC,此前已发布基于 FPGA 的 DPU 云霄,云脉芯联和大禹智芯也都推出了基于FPGA的DPU。特别值得一提的是,与CPU和GPU领域不同,在这场围绕DPU的变革浪潮中,中国和国际厂商在技术上没有明显代差。

03 积极的云计算厂商

DPU发端于云计算,在DPU技术的演进中,云计算厂商也是最为重要的推动力量。

在现代数据中心中,CPU的一部分计算能力要被用于处理网络连接、存储、安全等基础设施管理任务,例如处理网络数据、扫描网络流量中是否存在恶意软件、管理虚拟机。据估计,这些基础设施管理任务占用了CPU处理能力的20%至30%,而无法对外售卖,这部分“浪费”的算力被称为“数据中心税”。

对于动辄拥有数十万甚至上百万台服务器的云服务商而言,“数据中心税”意味着巨额的收入损失,云计算厂商研发DPU的一大驱动力就是要解决“数据中心税”的问题,通过将网络、安全、存储、管理等业务都卸载到DPU,从而把CPU解脱出来。同时,云服务商也希望借助DPU,把自己的运营管理软件和租户的应用软件分离,提升管理的方便性和安全性。

因此,云厂商的DPU功能较为全面,更偏基础设施的管理,从这个意义上说,用IPU来定义此类产品似乎更为贴切。这一点与DPU初创公司有所不同,DPU初创公司主要面向普通用户,这些用户往往侧重于某一些功能。比如,一些用户对虚拟机的管理需求并不迫切,而更关注数据传输的延迟,有些可能更关注的存储和安全。

在DPU的研发上,云计算厂商是最早开始的,也最为积极。AWS早在2013年就开始探索智能网卡模式,2015收购了芯片厂商 Annapurna Labs,并于 2017年正式推出Nitro系统。这一年,阿里云也官宣了有类似功能的神龙(X-Dragon)架构(最早称MOC卡)。

2022年年底,AWS在re:Invent 2022全球技术大会上发布了第五代Nitro系统。第五代Nitro 晶体管数量大约是上一代Nitro芯片的两倍,数据包能力提高了60%,延迟减少30%,每瓦特性能提升40%。

有必要指出的是,AWS的Nitro系统并不是一个单一的专用硬件设备,而是一套完整的软硬件融合协同系统,它包括三个主要部分:Nitro虚拟化、Nitro I/O加速卡和Nitro安全芯片。2022年发布的第五代Nitro还加入了Nitro Enclaves和Nitro TPM等功能。

阿里云于2022年6月对外发布一款为新型云数据中心设计的专用处理器CIPU(Cloud infrastructure Processing Units),取代了之前的神龙架构。阿里云提供的数据:基于CIPU和飞天的新一代云计算架构体系,在通用分布式计算领域,MySQL提升了60%;高吞吐类的互联网业务上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;云原生方面,容器启动速度快了350%,在Serverless 场景下6秒可拉起3000个弹性容器实例。

AWS和阿里云也是目前为止DPU应用最为成功的两家公司。在AWS和阿里云的示范下,有一大波的云厂商,包括华为、腾讯、百度都在积极跟进、研发DPU。

04 不确定的未来

近年来,DPU市场备受资本市场追捧,过去的一年就有不少DPU初创企业实现了融资。根据公开的资料,除了前面提到的中科驭数完成B轮融资,2022年3月芯启源完成数亿元超亿元战略投资;2022年4月,云脉芯联宣布获得数亿元人民币PreA轮投资;2022年6月,益思芯科技宣布完成新一轮数亿元人民币的融资。目前,DPU赛道估值最高的公司云豹智能估值创出90亿元的记录。

研究机构也纷纷看好DPU,认为其将开启一个新的芯片市场。根据赛迪顾问的数据,从2023年开始,全球DPU市场规模将突破百亿美元,并进入年增长率超过50%的高速快车道。其中,中国DPU市场规模在2023年将超过300亿元,有望实现跳跃式增长。

与此同时,迷雾始终笼罩着DPU创业者。DPU厂商必须面对的首要问题是用户在哪里?毫无疑问,云计算是DPU玩家最为看重的市场,然而头部的云计算厂商几乎都选择自研。目前AWS和阿里云都拥有了自研的DPU,谷歌云则与英特尔合作开发IPU,微软也有Catapuls,百度云、字节跳动、京东云也都在自研DPU,不久前中国电信天翼云也推出完全自研的紫金DPU芯片。

市场上如今没有自研的大中型云厂商并不多,而面对为数不多的云厂商要赢得它们的青睐并不容易。云计算是一个复杂的系统,如果没有与软件充分融合,强大的硬件性能就很难发挥出来。然而,每家云厂商都有一套自己的云计算系统,即使采用同样的开源软件栈也都根据自己的业务特点做了非常多的定制化,这些定制化就是它们的“独门秘笈”,很少被公开。而DPU终究是一个软硬协同的系统,没有对这些软件和业务的理解外部厂商要做出一个好用的产品是非常困难的。

阿里云神龙架构的负责人张献涛就表示,DPU是一个软硬件技术栈结合极其密切的工作,是软件定义的计算架构,通用DPU很难满足云厂商的需求,云服务商的DPU必须自研,这样才能做到相关软硬件技术栈完全可控。

不过,对此中科驭数创始人兼CEO鄢贵海有不同观点。他认为,DPU终将会成为一颗相对标准的芯片,会和CPU、GPU一样变成是整个计算基础设施的一部分,第三方的芯片厂商可能更合适,毕竟术业有专攻。

“DPU是一件很复杂的事情,但研发一款DPU本身还不是最困难的,难的是要保证DPU的技术迭代一直跟上整个基础设施的演进步伐。”鄢贵海说。

DPU创业者必须面对的另一个问题是要不要标准化以及如何标准化?芯片的研发是一个重资产的行为,一款DPU从设计到最终流片成功,一般需要1-2年,研发投资以亿元计。以中科驾驭数的第二代DPU芯片K2为例,2020年10月份开始规划,2021年年初正式立项,到2022年年底点亮,投入研发工程师近200人,历时近2年。接下来的K2增强版K2Pro投入的研发人员还要更多。

这些研发都需要雄厚的资金支持。大手笔的投资,如果后期没有一定的用户规模来摊薄成本显然是无法持续的。而要上量就要求芯片具有一定的通用性,这正是DPU创业者当下面临的挑战之一。

没有了DPU的最大市场——云大厂之后,DPU不得不面对细分的市场。面对不同的市场需求,不同DPU公司研发出来的DPU架构和功能都不一样,也没有统一的标准。比如,有的厂商强化I/O能力、有的关注路由转发、有的重视存储卸载、有的关注安全加密。

实际上,不同的业务场景必然对底层架构有各异的需求,导致不同的技术路线,产品也很难通用。目前,在DPU技术路线上主要有三种:一种是基于通用核,比如基于Arm和MIPS多核;一种是基于FPGA;第三种是基于ASIC芯片的异构核。其中ASIC技术路线性能最好、耗电最低但研发成本最高,而基于通用芯片的解决方案灵活性好,但性能不如FPGA和ASIC,哪种最后能成为主流还有待市场验证。

另外,DPU还面临应用环境的异构问题。众所周知,英伟达在推广GPU的过程中,CUDA发挥了非常重要的作用,而DPU显然缺乏像CUDA这样的软件平台。技术路线的多样化、应用场景的多样化决定了软件栈的多样化。复杂的应用环境让DPU公司不得不投入大量精力在解决软件适配问题,导致DPU落地时的应用开发和部署的成本都非常高,阻碍了DPU的普及。

05 结束语

尽管在DPU成长的道路上困难重重,但DPU已经被市场证明了它在数据中心的存在价值,其应用前景是毋庸置疑的。但DPU最终能成就多大的市场,它是否真的能成为一款能与GPU、CPU并列的第三颗芯片,还需要时间来证明。

最后,值得一提的是,对于中国DPU还有一层特别的含义。众所周知,在CPU和GPU上我们出发较晚,技术上差距比较大。但在DPU上我们的技术差距远没有GPU和CPU那么大,甚至可以说在DPU的研究上几乎同时起步,而且我们还拥有全球最强劲的算力需求和最丰富的应用场景,以及国家在新基建领域的宏大布局,这些都为DPU的发展提供了机遇,让我国有望引领DPU技术的发展和新一轮的数据中心架构变革。