“算力、网力和存力的全布局,让平头哥在国内AI基建竞赛中占据关键一席。”
作者丨刘伊伦
编辑丨包永刚
“在网络结构未充分优化的情况下,大规模AI集群的GPU利用率通常仅维持在30%—40%区间。”平头哥产品总监李旭慧表示。
算力集群本质上是一个强同步系统:上千张GPU需要在同一时间完成计算并交换数据。一旦某个节点通信出现延迟,整个集群的计算进程就会被迫等待,系统效率最终由最慢路径决定。
当集群规模进一步扩展,网络瓶颈被进一步放大:突发推理流量带来的数据洪峰、复杂拓扑导致的链路拥塞,以及依赖系统级PCIe总线所形成的长数据路径,都在不断侵蚀算力效率。
在这一背景下,行业正在形成一个新的共识:决定AI系统效率的关键,正在从单点算力性能,转向整个算力网络系统的协同能力。
4月28日,在2026数字中国建设峰会上,平头哥正式发布旗下首款智能网卡“磐脉920”。
磐脉920被定义为AI原生智能网卡,其搭载自主设计的智能网卡芯片,采用PCIe 5.0与112G PAM4以太网技术,最大支持400Gbps吞吐带宽,收发包率达到400Mpps。
据雷峰网了解,磐脉920已进入量产阶段,首批产品已于本月上线,相关订单正在加速交付。
随着磐脉920的发布,平头哥已完成数据中心四大核心芯片的布局:真武系列AI 芯片、倚天系列CPU、磐脉系列智能网卡,以及镇岳系列存储主控芯片,覆盖算力、网络与存力三大关键环节。
当Agent驱动的流量结构变得更加碎片化与不可预测,算力、网络与存储之间的协同边界被持续放大,智能网卡还能在多大程度上继续释放系统效率?
01
AI算力越强越浪费?
通信路径让GPU利用率「卡」在30%
“从行业趋势来看,AI算力增长很快,网络已经成为明显的短板。”李旭慧说到。
这一问题在训练与推理分化中被进一步放大。
随着智能体开始进入规模化应用,AI系统的负载结构正在发生转移:推理与训练的占比逐步从1:1向4:1演进。
在这一变化下,网络不再只是训练阶段的支撑系统,而是同时承载高频、突发、混合型的推理流量,整体负载从相对可预测的同步通信,转向高度动态的不确定性结构,对带宽与时延能力提出持续性挑战。
但现有网络体系仍存在明显代际差异。
传统TCP网卡依赖内核与软件栈完成数据搬移,本质上仍是“CPU参与型”的通信路径;RDMA虽然通过绕过内核、减少拷贝开销来降低时延,但在大规模AI集群中,仍会受到多层交换拓扑、跨节点同步机制以及全局一致性调度等因素的制约。
DPU与AI专用网卡的路径也开始分化。
DPU通常集成CPU核并支持可编程能力,同时需要挂载内存,整体更偏向通用计算场景下的资源虚拟化与云资源管理。而在AI训练与推理场景中,核心需求并不是计算扩展,而是大规模、低时延、对称通信能力,因此更轻量的专用网卡架构被认为更具针对性。
从实际效果来看,这类通信瓶颈会直接影响集群效率。
在大规模训练系统中,如果网络不匹配,GPU利用率往往只能维持在30%左右,即便优化较好也很难超过60%。其根源并不只在单点带宽,而在于整个系统的拓扑结构与通信路径难以完全对称。CPU、GPU、网卡与多级交换机共同构成复杂路径,一旦链路时延不均,就会被同步机制放大为整体性能损耗。
因此,网络优化的关键不只在于带宽提升,更在于对通信路径的调度与均衡能力。例如在相近时延条件下进行路径探测与流量分发,使系统尽可能避免“快慢不均”的资源浪费,从而提升整体算力利用效率。
02
带宽利用率提升至90%、系统成本下降30%,
磐脉920「重构」集群通信效率边界
“磐脉920搭载平头哥自研芯片架构,每秒可处理4亿个网络数据包,提供400G网络带宽,单秒传输能力相当于100部高清视频数据量。”李旭慧告诉雷峰网。
磐脉920以AI集群通信瓶颈为核心出发点,从“路径、调度与架构”三个层面重构数据流转方式。
在传输层面,磐脉920通过多路径RDMA机制,打破传统RDMA依赖单一路径的限制,使数据流量能够在多链路之间并行调度,从而降低热点拥塞概率并提升整体带宽利用率,显著缩短训练场景中的任务完成时间。
在调度层面,其集成细粒度网络感知能力与可编程拥塞控制算法,能够对链路状态与流量变化进行实时监测,并在突发流量或拥塞发生前后动态调整传输策略,实现对不同业务流的差异化调度与优先级保障,从而降低网络抖动对关键任务的影响。
同时,通过选择性重传与拥塞状态实时监控机制,进一步降低跨域长尾时延,使链路带宽利用率由约60%提升至接近90%。
这一调度能力的基础,来自其更底层的智能感知算力网络设计。磐脉920具备55种网络感知手段与最多32种拥塞控制算法组合能力,能够对链路进行细粒度检测与收发包级控制,使拥塞感知时间较传统软件方案提升约10倍,并可实现7级业务优先级保障。
更关键的变化发生在系统架构层面。
磐脉920在网卡内部引入PCIe Switch,实现直连GPU、SSD,减少对外部交换芯片与冗余数据路径的依赖,从而构建更短的数据传输链路,降低系统复杂度与通信开销。
这种“内生式网络结构”重构了数据流转路径,也直接带来整体系统成本约30%的下降。
围绕这一架构,磐脉920进一步集成可编程网络能力与硬件加速引擎,支持对数据面、控制面及网络事件的灵活编排,并具备多种网络感知手段与拥塞控制算法组合能力,使系统能够根据不同AI负载动态调整通信策略。
在实际部署中,这一设计不仅提升了网络利用效率,也显著降低了集群部署与运维复杂度,使AI系统从数小时级部署收敛至分钟级响应。
03
磐脉920面向开放市场测试
据悉,磐脉920项目早在三年前便已启动立项,平头哥团队在持续三年的工程化迭代中,逐步将其性能打磨至当前市场第一梯队水平。
在数据中心基础设施这一长周期赛道中,技术能力只是起点,真正决定产品价值的,是能否完成从“可用”到“可规模化商用”的跨越。
基于这一判断,磐脉920的设计并未局限于单一场景,而是围绕多类算力基础设施需求展开系统性布局,并在不同层级的数据流通与计算场景中形成适配能力:
在智算集群中,磐脉920主要支撑大规模AI训练的高性能互联,保障万卡级集群的低时延、高稳定通信;在通算集群中,通过网络卸载与容器化能力,降低网络开销,提升整体算力利用效率;在存储场景中,为分布式存储提供低时延、高带宽与稳定流量支撑,保障海量数据的持续读写;在数据库与大数据分析场景中,则通过优化数据传输路径,提升整体数据处理与分析效率。
“磐脉920并非定制开发的专用网卡,而是一款面向开放市场的通用型产品。”李旭慧表示。
在这一产品策略下,磐脉920的开放属性也开始进一步外溢。
磐脉将首先在阿里云数据中心实现部署。阿里云所提供的高复杂度云计算场景,作为核心训练环境,通过“标杆级负载”持续拉动产品能力上限。
在此基础上,磐脉920依托通用网卡的产品定位,已进一步向外部服务器厂商、部件厂商及多类云厂商开放测试。
从产品布局来看,磐脉920的发布,并非一次单点技术突破,而是平头哥数据中心芯片体系的一次关键补位。
至此,真武AI芯片、倚天CPU、镇岳存储主控与磐脉智能网卡分别覆盖智能计算、通用处理、数据存储和网络互联,算力、存力与网力三类核心能力在芯片层完成闭环。这意味着,平头哥已经具备从“提供单一算力器件”走向“构建完整算力基础设施能力”的底层条件。
当算力集群效率越来越取决于通信与协同能力,网络不再是附属组件,而成为决定系统上限的核心变量。
在这一逻辑下,同时掌握算、存、网三类核心芯片能力的厂商,将不再只是参与某一环节的竞争者,而是有机会重新定义AI基础设施的性能边界与成本结构。
热门跟贴