导读:面对供应链波动,AI基础设施需要新的决策框架
AI从业者最怕的不是硬件贵,而是“贵还买不到”。不少管理者都经历过这种无助:预算还没批完,价格已经涨了;合同还没签完,产能已经订完了。
当前,全球智算中心核心硬件正在经历一轮“系统性涨价”:过去半年来SSD等存储硬件涨价浪潮向全行业传导,推动智算中心核心硬件全面步入涨价周期。
TrendForce集邦咨询数据显示,2025年三季度至今DRAM与NAND闪存现货价格累计上涨超300%。2026年1月,服务器CPU两大巨头英特尔、AMD宣布产品价格上调10%-15%,且两家公司2026全年产能已基本订完。
业内普遍判断,此轮涨价的核心驱动力是AI服务器的爆发式需求,而且鉴于对AI需求持续高涨的预期,核心硬件价格短期不会回落。
面对涨价,不少人还把答案寄托在“囤货”上,希望趁便宜先把关键硬件囤起来,却忽略了一个事实:AI时代的供应链波动和需求爆发,已经把这条路彻底堵死。
涨价新常态下,智算中心拼的是确定性:谁能在价格波动、供应链不稳、负载剧烈变化之下,稳定交付算力产出。这背后是对风险管理、资源利用率、全链条优化等一系列能力的考验。
涨价周期,推动决策升维
涨价看似是成本压力,实则“危中有机”,正是管理者重新审视智算中心ROI的好时机。当价格大幅波动、供给不再稳定,智算中心的竞争就不再是“谁买得便宜”,而是“谁把外部环境的不确定性变成可管理的确定性”。
首先,从“应急响应”到“常态战略”的升维
对决策者而言,核心问题可以从“如何度过这次涨价”变为“如何建立一套抵御未来任何波动的系统”。
此轮硬件涨价揭示了AI时代长期存在的结构性供需矛盾。AI大模型这波浪潮,形成一个产业循环:大算力推动更智能的模型涌现,大模型解锁更多应用场景,从而进一步推高对算力、存储等基础设施的需求。无论是ChatGPT,还是DeepSeek、Seedance等顶尖模型,都在不断验证这一逻辑。
这样的情况下,如果还把涨价当成偶发事件来处理,会陷入一种低效循环:每一轮波动都临时加预算、临时抢货、临时改方案,而成本未必能够实现最优。
更有效的做法,是用“长效机制”替代“临时动作”。比如,提前设定必要的安全库存与弹性冗余,对关键资源建立锁定机制与多源策略。不仅对比价格,更要把交付周期、替代路径、关键部件依赖度、库存与资金占用、运维复杂度等纳入同一账本。
其次,从采购降本到提升产出的升维
如果把ROI仅理解为“买得更便宜”,就很容易掉进“表面省钱、实际浪费”的陷阱。调查显示,我国智算中心平均算力使用率仅30%左右。核心原因之一是只追求单一算力指标,忽视存储系统效能。数据是燃料,算力是发动机,存储是供能系统,存储成为产出效能卡点。
当存储系统存在瓶颈,带来的并不只是“读写慢一点”,而是训练与推理流水线被卡住、GPU等待、作业排队,最终导致宝贵的算力闲置,造成更大的浪费。因此,真正的降本不是把硬件压到最低价,而是把系统的“有效产出”拉上去:同样的硬件投入,利用率越高,ROI越好。
第三, 从单一硬件到系统全局的升维
AI时代,存储完成了价值重构:不只是存放数据,更直接参与数据预处理、过滤、特征提取、调度、近数据推理等关键环节,决定数据能否高效流动。
存储不再是配角,而是决定算力释放的“涡轮增压”。这正是为什么行业越来越形成共识:要提升智算中心的效能与ROI,不能只盯算力参数,而要走向存算网协同。用系统视角重新组织基础设施,才能在涨价潮中保持稳定交付与持续产出。
决策新框架:效能+智能+协同
硬件进入涨价周期后,真正能穿越周期的,不是更会“抢货”的人,而是更会把存量资源变成产出的人。
基于这一趋势,曙光存储提出“先进存力”三大主张:效能、智能、协同。本质上是在回答:当关键部件越来越贵、越来越难买时,如何实现更稳定、更高的算力产出。
第一,效能打磨确定性,提升每单位成本极致效率
在AI基础设施里,最贵的从来不是“单价”,而是“闲置”。一旦I/O和数据管道成为训练/推理的时间大户时,昂贵的GPU就会被迫等待。效能导向的核心不是堆更多的硬件,而是用架构创新与存算紧耦合协同,把每一分算力的效能充分释放。
这方面曙光ParaStor F9000分布式全闪存储已经有了领先的落地实践。其凭借超级隧道技术构建端到端数据通路,实现零中断、零竞争、零拷贝传输,可将推理时延降低80%、训练速度提升4倍,实现万亿参数模型训练周期缩短60%以上。
该产品搭配NVMe与RDMA技术组合,在中国移动呼市数据中心实现存储网络带宽提升2倍、延迟降低3倍,同时220GB/s单节点带宽、800万IOPS可满足十万卡集群数十TB/s访问需求。
第二,智能构建预见性,从经验运维走向自动化调优
AI负载中,训练、微调、推理、检索、向量化、数据清洗会带来截然不同的I/O形态和热点变化。靠传统的人工经验做规划已经无法应对,必须让存储系统自己学会“怎么分配资源”。
智能化的目标,是让存储系统具备理解业务的能力:预测业务负载、自动优化,从“救火”变为“预防”,从被动到主动。把原本依赖人工经验的运维,变成可持续的系统能力。
曙光StorInsight智能分析工具通过实时采集IO特征,实现热数据自动迁移至全闪层、温冷数据留存于高密介质,使存储资源利用率提升35%,同时创新的纠删码算法将存储空间利用率提升至91%以上。
第三,协同打造全局性,多元异构下的系统级最优
AI基础设施的一大特征是多元异构:多厂商、多协议、多介质、多框架并存,导致存储孤岛、调度割裂成为隐性成本的大头。如果存算网不协同,单点优化可能被“系统摩擦”吞掉。
面对这一普遍痛点,曙光存储提出“存算网强协同”理念,从系统和生态两大维度,实现存算网紧耦合。
在系统层面,通过KV Cache offload、多层数据分级等技术优化推理环节,结合向量数据库优化、AI算子加速库,打通数据清洗标注到模型部署全链路。在生态层面,通过架构解耦、标准化接口与开放合作构建生态系统,打破厂商壁垒与“存储孤岛”,让数据与资源能被统一编排和调度。
结语
涨价周期里,真正的护城河不是谁的采购单价低,而是能否在异构环境里把整个系统效能拉到最高。
此轮涨价潮本质上也是一场价值筛选:传统思路的弊端被放大,只盯硬件单价与容量,很容易忽略性能瓶颈、资源闲置、冷热数据错配、空间电力与交付周期等“看不见的成本”。
因此,智算中心的破局在于:效能为先,把单位成本的产出做到极致;以智能调度对冲波动,实现资源分配的长期最优;以存算网协同打破孤岛,让数据流动与算力释放效率最大化。
本文为「智能进化论」原创作品。
热门跟贴