磐脉920亮相，平头哥算存网版图闭环|数据流|时延|磐脉920|算法|网卡|通信

“算力、网力和存力的全布局，让平头哥在国内AI基建竞赛中占据关键一席。”

作者丨刘伊伦

编辑丨包永刚

“在网络结构未充分优化的情况下，大规模AI集群的GPU利用率通常仅维持在30%—40%区间。”平头哥产品总监李旭慧表示。

算力集群本质上是一个强同步系统：上千张GPU需要在同一时间完成计算并交换数据。一旦某个节点通信出现延迟，整个集群的计算进程就会被迫等待，系统效率最终由最慢路径决定。

当集群规模进一步扩展，网络瓶颈被进一步放大：突发推理流量带来的数据洪峰、复杂拓扑导致的链路拥塞，以及依赖系统级PCIe总线所形成的长数据路径，都在不断侵蚀算力效率。

在这一背景下，行业正在形成一个新的共识：决定AI系统效率的关键，正在从单点算力性能，转向整个算力网络系统的协同能力。

4月28日，在2026数字中国建设峰会上，平头哥正式发布旗下首款智能网卡“磐脉920”。

磐脉920被定义为AI原生智能网卡，其搭载自主设计的智能网卡芯片，采用PCIe 5.0与112G PAM4以太网技术，最大支持400Gbps吞吐带宽，收发包率达到400Mpps。

据雷峰网了解，磐脉920已进入量产阶段，首批产品已于本月上线，相关订单正在加速交付。

随着磐脉920的发布，平头哥已完成数据中心四大核心芯片的布局：真武系列AI 芯片、倚天系列CPU、磐脉系列智能网卡，以及镇岳系列存储主控芯片，覆盖算力、网络与存力三大关键环节。

当Agent驱动的流量结构变得更加碎片化与不可预测，算力、网络与存储之间的协同边界被持续放大，智能网卡还能在多大程度上继续释放系统效率？

AI算力越强越浪费？

通信路径让GPU利用率「卡」在30%

“从行业趋势来看，AI算力增长很快，网络已经成为明显的短板。”李旭慧说到。

这一问题在训练与推理分化中被进一步放大。

随着智能体开始进入规模化应用，AI系统的负载结构正在发生转移：推理与训练的占比逐步从1:1向4:1演进。

在这一变化下，网络不再只是训练阶段的支撑系统，而是同时承载高频、突发、混合型的推理流量，整体负载从相对可预测的同步通信，转向高度动态的不确定性结构，对带宽与时延能力提出持续性挑战。

但现有网络体系仍存在明显代际差异。

传统TCP网卡依赖内核与软件栈完成数据搬移，本质上仍是“CPU参与型”的通信路径；RDMA虽然通过绕过内核、减少拷贝开销来降低时延，但在大规模AI集群中，仍会受到多层交换拓扑、跨节点同步机制以及全局一致性调度等因素的制约。

DPU与AI专用网卡的路径也开始分化。

DPU通常集成CPU核并支持可编程能力，同时需要挂载内存，整体更偏向通用计算场景下的资源虚拟化与云资源管理。而在AI训练与推理场景中，核心需求并不是计算扩展，而是大规模、低时延、对称通信能力，因此更轻量的专用网卡架构被认为更具针对性。

从实际效果来看，这类通信瓶颈会直接影响集群效率。

在大规模训练系统中，如果网络不匹配，GPU利用率往往只能维持在30%左右，即便优化较好也很难超过60%。其根源并不只在单点带宽，而在于整个系统的拓扑结构与通信路径难以完全对称。CPU、GPU、网卡与多级交换机共同构成复杂路径，一旦链路时延不均，就会被同步机制放大为整体性能损耗。

因此，网络优化的关键不只在于带宽提升，更在于对通信路径的调度与均衡能力。例如在相近时延条件下进行路径探测与流量分发，使系统尽可能避免“快慢不均”的资源浪费，从而提升整体算力利用效率。

带宽利用率提升至90%、系统成本下降30%，

磐脉920「重构」集群通信效率边界

“磐脉920搭载平头哥自研芯片架构，每秒可处理4亿个网络数据包，提供400G网络带宽，单秒传输能力相当于100部高清视频数据量。”李旭慧告诉雷峰网。

磐脉920以AI集群通信瓶颈为核心出发点，从“路径、调度与架构”三个层面重构数据流转方式。

在传输层面，磐脉920通过多路径RDMA机制，打破传统RDMA依赖单一路径的限制，使数据流量能够在多链路之间并行调度，从而降低热点拥塞概率并提升整体带宽利用率，显著缩短训练场景中的任务完成时间。

在调度层面，其集成细粒度网络感知能力与可编程拥塞控制算法，能够对链路状态与流量变化进行实时监测，并在突发流量或拥塞发生前后动态调整传输策略，实现对不同业务流的差异化调度与优先级保障，从而降低网络抖动对关键任务的影响。

同时，通过选择性重传与拥塞状态实时监控机制，进一步降低跨域长尾时延，使链路带宽利用率由约60%提升至接近90%。

这一调度能力的基础，来自其更底层的智能感知算力网络设计。磐脉920具备55种网络感知手段与最多32种拥塞控制算法组合能力，能够对链路进行细粒度检测与收发包级控制，使拥塞感知时间较传统软件方案提升约10倍，并可实现7级业务优先级保障。

更关键的变化发生在系统架构层面。

磐脉920在网卡内部引入PCIe Switch，实现直连GPU、SSD，减少对外部交换芯片与冗余数据路径的依赖，从而构建更短的数据传输链路，降低系统复杂度与通信开销。

这种“内生式网络结构”重构了数据流转路径，也直接带来整体系统成本约30%的下降。

围绕这一架构，磐脉920进一步集成可编程网络能力与硬件加速引擎，支持对数据面、控制面及网络事件的灵活编排，并具备多种网络感知手段与拥塞控制算法组合能力，使系统能够根据不同AI负载动态调整通信策略。

在实际部署中，这一设计不仅提升了网络利用效率，也显著降低了集群部署与运维复杂度，使AI系统从数小时级部署收敛至分钟级响应。

磐脉920面向开放市场测试

据悉，磐脉920项目早在三年前便已启动立项，平头哥团队在持续三年的工程化迭代中，逐步将其性能打磨至当前市场第一梯队水平。

在数据中心基础设施这一长周期赛道中，技术能力只是起点，真正决定产品价值的，是能否完成从“可用”到“可规模化商用”的跨越。

基于这一判断，磐脉920的设计并未局限于单一场景，而是围绕多类算力基础设施需求展开系统性布局，并在不同层级的数据流通与计算场景中形成适配能力：

在智算集群中，磐脉920主要支撑大规模AI训练的高性能互联，保障万卡级集群的低时延、高稳定通信；在通算集群中，通过网络卸载与容器化能力，降低网络开销，提升整体算力利用效率；在存储场景中，为分布式存储提供低时延、高带宽与稳定流量支撑，保障海量数据的持续读写；在数据库与大数据分析场景中，则通过优化数据传输路径，提升整体数据处理与分析效率。

“磐脉920并非定制开发的专用网卡，而是一款面向开放市场的通用型产品。”李旭慧表示。

在这一产品策略下，磐脉920的开放属性也开始进一步外溢。

磐脉将首先在阿里云数据中心实现部署。阿里云所提供的高复杂度云计算场景，作为核心训练环境，通过“标杆级负载”持续拉动产品能力上限。

在此基础上，磐脉920依托通用网卡的产品定位，已进一步向外部服务器厂商、部件厂商及多类云厂商开放测试。

从产品布局来看，磐脉920的发布，并非一次单点技术突破，而是平头哥数据中心芯片体系的一次关键补位。

至此，真武AI芯片、倚天CPU、镇岳存储主控与磐脉智能网卡分别覆盖智能计算、通用处理、数据存储和网络互联，算力、存力与网力三类核心能力在芯片层完成闭环。这意味着，平头哥已经具备从“提供单一算力器件”走向“构建完整算力基础设施能力”的底层条件。

当算力集群效率越来越取决于通信与协同能力，网络不再是附属组件，而成为决定系统上限的核心变量。

在这一逻辑下，同时掌握算、存、网三类核心芯片能力的厂商，将不再只是参与某一环节的竞争者，而是有机会重新定义AI基础设施的性能边界与成本结构。