进入智能体时代,CPU正重回数据中心算力基建的焦点。作为全球CPU领域的绝对龙头,英特尔在近日举行的数据中心创新日上提出,构建智能体时代的高性能计算集群需要四种支撑力——算力、存力、连接力和保障力。
(1)算力:主打通用计算负载,在通用算力的基础上,基于AMX技术的矩阵运算能力,能为机头场景中的AI数据预处理、MoE及KV Cache的卸载提供加速支持。
(2)存力:为AI就绪存储系统奠定基础,实现基于高密度全闪存储介质的超低时延、超高IOPS并发、超高读写吞吐能力。
(3)连接力:依托以太网网卡产品的迭代,以及与行业标杆客户在IPU上的探索,构建高效、安全、灵活、可扩展的网络基础设施。
(4)保障力:有领先的可信计算技术来保护AI模型、应用与数据系统,确保智算中心基础设施的高可靠、高可用和高可维护能力。
英特尔全球副总裁兼首席市场营销官Brett Hannath打了一个比方:前沿大模型训练像一场GPU独奏协奏曲,而Agentic AI(智能体)是一场涵盖多种工作负载的交响乐,需要CPU、GPU、存储、网络所有组件一起协同演奏。
CPU,就是这场交响乐的指挥。
无论是作为通用计算平台还是AI平台,CPU的核心作用都在于统筹编排、调度协调、全面把控。从AI智算中心、到企业AI私有云、部门级AI平台到家庭AI大脑,全场景的AI实践需要混合式AI部署的支持,为CPU带来新一轮增长机会。
本文围绕算力、存力、连接力、保障力,全面梳理英特尔在数据中心市场应对智能体复杂需求的产品布局与技术实力,以及与中国生态伙伴的最新合作进展。
一、单颗CPU支持超1000个智能体部署,8张GPU卡能跑DeepSeek-V4
Token的消耗呈现指数级增长,推动行业建设更高效的AI智算中心,从系统层面以优异的成本提升Token的供给。随着AI从单轮推理进化到智能体复杂任务时,CPU的重要性凸显出来。
英特尔分享了几组来自第三方研究机构的数据:
- 到2030年,新一代智能终端、智能体等应用的普及率将突破90%;到2031年,活跃智能体数量将达到3.5亿个。2025年,中国token调用总量达到21100万亿,今年第一季度中国AI算力需求爆涨417%。
- 今年全球服务器CPU市场规模大概有500亿美金,未来4-5年可能会翻两番到2070亿美金,中国在其中约占1/4-1/3。
- 据第三方机构调查,CPU和GPU的部署比例,去年还是1:8、1:4,如今已经到1:2,CPU的比例越来越高。
据英特尔数据中心集团副总裁、中国区总经理陈葆立在媒体沟通会上分享,一家国内头部大模型厂商透露,他们从去年到今年,对CPU的需求涨了5倍。
高宇总结说,如果把AI数据中心当作未来世界的超级工厂,它的产出是token,生产机器有三台——一台GPU集群,一台CPU集群,一台高性能存储集群。驱动这三台机器的,都是英特尔至强处理器。
在CPU侧,英特尔至强系列实现了从通用计算到AI智算主控平台的全覆盖,通过更高核心密度、更高内存带宽和更优能效比,为AI场景中的高并发与规模化运行提供支撑。
基于性能核的至强6处理器适用于追求极致性能的智能体CPU机架,是GPU集群的主流机头CPU,能显著提升token生成效率,从而带来更高的投资回报率。
基于能效核的至强6+处理器(代号Clearwater Forest)适用于高密度智能体CPU机架,通过提供出色的计算密度和高能效,可大幅提升AI应用并发量,同时显著降低功耗和成本。
英特尔搭建了一体化性能监控体系,基于至强6+处理器,提供沙箱的快速启动和稳定运行,每个处理器核心可运行4个智能体,单颗至强6+处理器即可支持超过1000个智能体的稳定部署。
陈葆立解释说,通过至强6+的单核架构优化,英特尔可以做到在单个CPU核心上,通过算力资源共享与切分,同时分身运行3到4个智能体,给客户更细的颗粒度。这样切分后,单个智能体的算力性能是会有所递减的,可能更适合去处理一些相对初级、简单的日常工作,比如自动调度去做一些市场调研、查询机票等。
如果智能体要去调数据库、跑SAP这种重负载任务,那还是需要至强6性能核处理器。
在GPU侧,英特尔平台已经支持从OAM模块到PCIe的硬件形态,并完成了对国内外主流GPU生态的全面适配,提供了完备的系统支持。
英特尔新一代数据中心GPU(代号Crescent Island),专为AI推理与智能体工作负载打造,基于Xe3P架构,采用LPDDR5x内存,提供最高480GB容量,风冷PCIe设计将整卡功耗控制在350WTDP,支持从FP4到FP64的广泛数据类型,8张卡可在FP8精度下运行1.6万亿个参数的DeepSeek-V4。
除了带来更优的性能/功耗与成本比、更低的TCO、更贴近真实AI工作负载的系统级优化外,这款GPU的大容量内存不仅支持更长的上下文窗口,还能在同一系统中同时承载多个模型,实现快速模型切换,而这正是Agent工作流中的核心能力。
在系统层面,支持多种拓扑架构,从8卡GPU的PCIe直连,到16卡Switch高密度扩展,再到机架级多节点互连,构建出灵活可扩展的系统形态,并进一步通过SuperPod超节点架构实现AI集群部署,提供高带宽、低延迟的规模化算力能力。
当前英特尔是全球唯一一个拥有自有产能的数据中心CPU公司。其数据中心CPU至强6和至强6+分别使用了Intel 18A、Intel 3、Intel 7等多个制程节点来制造。在当前全行业供不应求的背景下,这是一个非常实在的优势。
基于以上联合技术创新,英特尔和生态合作伙伴鼎力合作,打造了完整丰富的AI智算服务器产品体系。
例如,云尖信息为智能体时代打造了两组产品:一组是支持至强6的单机16到32卡服务器,覆盖6U、8U、10U,风冷和液冷;另一组是支持至强6+的CPU集群柜,负责数据处理和智能体调度等工作,整柜全液冷盲插设计,单柜20万瓦,1U4S可支持最高4万个核心,1U6S可支持超过6万个核心、运行超过6万个智能体。
二、高密度CPU:288核契合智能体应用需求,腾讯云、金山云实例将上线
腾讯云基于至强6+,支持288核CPU大规格虚机实例,通过搭载自研智能网卡、软硬结合深度优化、自研ROT模组等安全防护,升级高密度算力引擎。腾讯云与英特尔合作的下一代云服务器实例即将上线。
搭载英特尔至强能效核处理器的腾讯云星星海自研服务器,已成为腾讯内部业务的算力基石,平稳支撑微信、腾讯广告、QQ、QQ音乐、腾讯会议等业务的流量高峰场景,比如春节期间QQ红包扛住3倍瞬时流量冲击、腾讯会议8天扩容100万核。
金山云基于英特尔至强6+的高效型SE10实例已内测上线。其每颗vCPU与物理线程1:1强绑定,能提供很低的资源分享并降低系统调用的开销,与SE9相比,能效提升10%,单核性能提升10%,单Socket性能提升138%,单vCPU性能提升30%升,L3缓存提升约4.9倍,可大大提高缓存利用率和降低业务的响应时长。
英特尔至强6+处理器基于Intel 18A制程,最高拥有288个能效核,提供8000MT/s的DDR5内存、576MB的末级缓存,缓存容量较上一代提升了5倍以上,首次推出Intel AET应用能耗遥测技术,并有机密计算产品组合、SGX和SDX技术、支持SM3和SM4国密算法的加速计算引擎来确保可信。
该处理器由12个基于Intel 18A制程的计算模块构建而成,这12个计算模块通过全新的Foveros Direct 3D封装技术,堆叠在3个有源基底模块之上;有2个基于Intel 7制程的I/O模块,通过EMIB技术连接。
在会后与媒体交流时,陈葆立举了个例子,说有友商宣称一种CPU架构就能打天下,他们研究后发现答案是否定的,因为智能体应用以数量为优先,有很多智能体在后台做各种工作,这种应用适合像至强6+这样拥有288核、核数多但单核性能不需要太高的处理器。
而当智能体真正开始做事,它触发的下游任务不可预测,可能是数据库等极度消耗性能的应用,这就需要调用高性能核。两种需求都会存在。
至强6+可支持云基础设施、媒体处理、Web与微服务、存储、数据库等多样化的基础性工作负载。与上一代产品相比,其性能提升多达2.5倍。与竞品相比,其平均每线程性能提升30%,平均每瓦性能提升55%。
与第二代至强处理器相比,至强6+能实现9:1的服务器整合率。
也就是说,原来9台服务器干的活,现在1台就能搞定。这将显著缩减数据中心的物理空间占用,降低电力、散热需求及日常运营成本,对数据中心运营商来说是实打实的省钱。
至强6+延续了在广泛场景下出色的能效弹性调节能力,为通用计算、Java、Web服务、媒体转码、数据服务和分析、网络、风险分析等各类工作负载带来性能提升。
与同类产品的顶级型号相比,在典型40% CPU利用率下,至强6990E+平均可提供1.3倍的每线程每瓦性能。
云尖信息副总裁在媒体沟通会上分享说,至强6+吸引他们的重要一点是不需要重新设计硬件,插上去就能用。英特尔历代产品在架构上的连续性和兼容性,对硬件厂商来说非常有价值。
总体而言,至强6+处理器可为企业级AI部署提供更高的计算密度与能效,为智能体的持续执行构建稳定可靠的基础设施,针对企业工作负载优化I/O性能与数据访问效率,具备RAS特性,并内置企业级的安全保障。
英特尔CEO陈立武已经宣布超线程等功能会加回来。陈葆立把这定义为另一种维度的“弹性”,客户如果选择开启超线程,虚拟核数就可以直接翻倍,如果选择关闭超线程,则能确保每个核心发挥出更高的单核绝对性能。
三、高性能存储:“两把金钥匙”,节省闪存和内存
新华三X20000基于至强6打造AI原生存储,做到了单节点200GB/s带宽、300万IOPS,可减少30%的GPU训练等待时间。他们还在面向KV Cache数据打造一款面向AI推理加速的专用存储,将借助KV语义接口、全局HASH直存、DPU硬件加速三个关键技术,实现单节点320GB/s和微秒级时延,为KV数据打造一个“全程无收费站的高速公路”。
阿里云存储在至强6定制化算力下协同优化,在GNR的平台服务和系统优化中,使用新QAT引擎来替换以前软件加CPU压缩能力后,压缩带宽提升了400%,同时减少了75%的通用CPU核数;在数据密集场景,DSA定制化算力带来通用CPU效能提升, 单核与多核带宽提升15%-25%。
智能体需要运行海量并发、多步骤的工作流,这些任务本质上是由CPU密集驱动的,涵盖了跨域编排、工具执行和上下文处理等核心环节。
据陈葆立分享,智能体应用的需求侧承载控制面,要求尽可能高的密度与能效,供给侧从推理的应用特点出发,加速上下文处理,优化KV Cache,最终在Token的生产上做到降本增效。
在Agentic AI的驱动下,全球数据量将呈指数级增长,推动了存储业务的新一轮热潮。无论是企业级数据存储、分布式文件系统,还是大规模数据备份与恢复,都对存储服务器的性能、密度、能效以及TCO提出了更高要求。
为应对这些挑战,至强6围绕高性能存储场景进行了大量优化设计,包括更强的I/O处理能力、QAT数据压缩技术、传输加速技术,以及完整的企业级解决方案。
在高密度全NVMe存储方面,英特尔与合作伙伴一起探索24~30盘位 + 2 x 400G数据网络的高密度存储节点部署,以充分利用双路GNR-SP 176 PCIe Gen5 通道的I/O能力。其24到30盘位I/O性能测试结果如图所示,多盘并行时单盘性能可以达到NVMe SSD标称值的80%-100%,在完全线性增长、多盘高并发的场景下稳定低时延。
针对智能体场景的高并发、低延迟、海量小文件处理等存储挑战,英特尔通过软硬件优化来化解。
英特尔中国区技术部总经理高宇将Intel QAT和Intel IAA技术称作“未来打开真正普及智能体的两把金钥匙”,针对市场两大痛点——闪存贵与内存贵。
闪存方面,Intel QAT是一个英特尔做了很多年的硬件数据压缩引擎,能让KV Cache在存盘前先进行压缩。
在长上下文、大并发的场景下,该技术可减少热KV Cache的空间占用;相比纯软件方式, 带来4倍的首Token延迟(TTFT)性能提升;减少CPU处理核心占用,既可以提升数据服务应用,又能大幅提升存储的利用率;数据压缩和加解密加速存储优化。
陈葆立解释说,KV Cache的逻辑是让GPU避免重复计算,把前面的计算结果保留下来并存储,以便到下一轮变成新的数据。如今先进模型动辄百万级上下文,一个用户可能只有10G、20G显存,很容易被占满,所以现在用各种方式将显存的KV Cache搬到机头的内存或SSD中。
高宇进一步补充道,100万上下文等于10G以上的KV Cache,存下来就是一大笔闪存开销,但有了QAT,其压缩比至少能达到50%,10GB就变成5GB了,能省不少成本。
内存方面,Intel IAA(Intel In-Memory Analytic Acceleration)是对内存数据做实时性压缩。
在智能体沙盒场景测试中,对比原有不压缩的方案,集成Intel IAA技术的方案可将Sandbox Snapshot冷启动速度提升30%;能对内存数据做实时硬件级压缩,通过高速硬件Deflate算法,带来更高的压缩率;提升并发流量,降低I/O延迟高达60%;加速内存压缩分层,节省内存,释放CPU算力,降低TCO。
四、高性能网络:以太网方案支持200GbE速率,每瓦性能业界领先
英特尔的全新Ethernet E835以太网解决方案覆盖从边缘到数据中心的多样化部署需求,典型负载功耗不到12W,灵活支持2 x 25、4 x 25、2 x 100、1 x 200GbE等多种端口配置,与至强6结合提供可信的硬件级保护能力,并提供10年以上长产品生命周期。
在实际测试数据中,其集群尾部延迟成功降低了约40%,让集群整体计算效率显著提升。
同时,从存储架构入手,在当前主流的PD分离架构下,英特尔利用NVMe-oF组建了极速的存储网络方案,用闪存网络扩展了HBM的KV Cache存储,大幅降低KV Cache延迟和token成本。
传统的超大规模AI集群往往深度依赖特定厂商的专用无损交换机,推高了建设成本。而英特尔基于Falcon协议强大的硬件端到端控流与容错能力,实现了网络独立性,仅需使用标准以太网交换机,就能达到与专用网络接近的带宽与低延时性能,从而避免被技术与生态上的绑定,释放了后续大规模平滑扩容的自由度。
五、安全可信:在云上打造“数据保险箱”
火山引擎AICC与英特尔TDX机密技术深度融合,为企业的云端大模型应用构建公有云AI安全底座,通过芯片级可信、全栈安全管控、端到端机密性、可追溯审计、机密计算高效使能解决隐私数据上云的安全合规问题。
在大规模数据中心的部署中,火山引擎与英特尔合作,利用英特尔RAS能力,通过集群故障管理系统,提升监控与诊断能力。从宏观指标来看,其观测到年化宕机率降低50%以上,七天内CPU和内存的返修率较2024年降低24%。
企业非常关注数据安全和合规问题,而TDX机密计算解决方案能在CPU层面创建一个受保护的信任域,让模型参数和用户数据跟底层云基础设施隔离,相当于在云上打造一个安全的“数据保险箱”。
AI模型作为企业的核心资产,部署在TDX信任域中,可确保模型权重与参数在推理过程中免受窃取或逆向工程攻击;从模型服务用户角度,可确保用户与模型交互的敏感信息不外泄,真正实现数据“可用而不可见”。
TDX的另一大优势是应用透明,客户可将现有的AI应用无缝迁移至受TDX保护的虚拟机或容器中。
该技术经过第4代、第5代至强以及至强6的迭代,已在多家公有云实例中规模部署,并在手机等用户隐私保护的场景落地。
在AI推理和训练的CPU+GPU异构场景中,企业对于端到端的安全性更为关注。英特尔引入Intel TDX Connect,在CPU与GPU之间建立硬件加密通道,使数据和模型都可以得到基于硬件的隔离、控制和保护;搭配Intel QAT以及Intel Crypto加速技术,在保障Data in Use安全性的同时,还能满足客户对于AI推理和训练的全生命周期数据保护的需求。
结语:x86在数据中心仍具统治地位,英特尔在智能体时代厚积薄发
市研机构IDC预测,到2030年,全球新部署的服务器中,每10台有8台采用x86架构。x86在数据中心统治了将近半个世纪,是因为它身上承载的软件生态、硬件兼容性和工程化积累,这些都是新架构难以短期替代的。
重回数据中心焦点的CPU,正瞄准智能体推理爆发的增量市场。AI发展涉及包括编排、调度、存储、连接、安全在内的一整套系统能力,这些恰恰都是英特尔重点布局的领域。
英特尔通过新一代CPU、GPU、存储及网络方案,展示出的不止是应对智能体复杂需求的技术实力,还有其长期构筑的护城河——提供贴近真实业务场景、高度实用、极易部署与升级的产品。
热门跟贴