环球零碳
碳中和领域的《新青年》
首图来源:Paxibay
撰文 | Bell
编辑 | 小澜
→这是《环球零碳》的1783篇原创
从流畅对话的聊天机器人到即时生成的创意图像,我们的生活如今已经离不开AI。
然而,每一次智能交互的背后,都伴随着包括电力与水资源在内的巨大能源消耗——而目前大部分数据中心的电力仍依赖化石燃料。
这不仅推高了全球碳排放,更伴随着服务器因持续高热作业而加速老化,形成了一种“效率下降—能耗上升—排放加剧”的循环。
面对这一全球性紧迫挑战,加州大学河滨分校的研究团队开发出了一套名为“联邦碳智能(FCI)”的系统。
该系统不仅有望将AI推理任务产生的碳排放大幅降低45%,还能将服务器集群的使用寿命平均延长约1.6年。
图说:面向可持续人工智能的联邦碳智能:跨异构硬件集群的实时优化
来源:https://doi.org/10.1557/s43581-025-00146-1
值得关注的是,与当前仅将计算任务转移至能源更清洁时段的方法不同,FCI更进一步。
它通过整合环境数据与每台服务器的实时物理状态信息,能够动态地将推理任务分配给最合适的硬件节点,从而实现能效与硬件健康度的双重优化。
该研究成果近期发表于权威期刊《MRS能源与可持续性》,试图勾勒出一个更聪明、更绿色的AI未来。
当前主流的数据中心智慧调度系统——“碳感知”调度系统主要关注电网碳强度,主要目标是将计算任务安排在电网清洁能源充沛(如风力、太阳能发电高峰)的时间或地区进行。
这就像在电价低的夜晚使用洗衣机,确实有效,但忽略了硬件老化对能效和碳排放的长期影响。
因为服务器并非永葆青春的机器,在持续高强度运算下,硬件性能会因热应力、老化和故障累积而逐渐下降,导致完成同样推理任务需要耗费更多电力,产生更多热量和排放。
图说:FCI系统与现有调度系统比较
来源:《环球零碳》制图
以往的系统大多忽视了这台“机器”自身的健康状况,只关心外部“电力”是否绿色。
而加州大学河滨分校的米赫里·奥兹坎和陈吉兹·奥兹坎教授夫妇领导的团队正是洞察到了这一盲点。
他们创造性地将“硬件健康”与“电网碳强度”置于同等重要的地位,设计了一套名为“联邦碳智能(FCI)”的实时大脑。
这套系统的智慧,在于其三大感知层构成的“闭环思维”。
首先,它通过一个名为“AI硬件健康状态(SoH-AI)”的指标,持续为每台服务器“把脉”,监测其因温度和负载累积导致的“衰老”程度。
其次,它可以实时接入全球电网的碳强度数据流,清晰掌握不同地区、不同时刻电力的“清洁度”。
最后,它还会深入了解每个AI任务的具体需求:如延迟容忍度、批处理大小、模型精度灵活性等工作负载数据。
图说:联邦碳智能(FCI)三层架构
来源:https://doi.org/10.1557/s43581-025-00146-1
基于这三重感知,FCI系统就可以开始扮演最高效的“调度指挥官”。
它不再仅仅寻找最绿的电力,而是综合计算:如果将这个任务分配给那台虽然地处绿电区域但已“年老体衰”的服务器,虽然电力清洁,但机器效率低下,总排放可能反而更高。
或者,另一台服务器虽地处碳排放稍高的电网,但正值“壮年”且散热良好,总体碳足迹可能更优。
通过避免使用已经超负荷运转或性能下降的机器,FCI 可以防止故障发生,并减少对高能耗、高耗水冷却的需求。
研究人员表示,FCI是首个将实时碳信号与硬件健康遥测深度融合的联邦调度框架。
其目标就是在满足任务速度要求的前提下,找到这个碳排放与硬件损耗总和最低的“最优解”。
为了验证这一构想,研究团队构建了一个高度仿真的数字世界:一个由1000台异构AI加速器(包括顶尖的Cerebras晶圆级引擎、英伟达A100/H100 GPU和谷歌TPUv5i芯片)组成的全球分布式集群,并模拟了该集群在五年部署周期内的运行情况。
他们将FCI与几种现有策略进行对比:完全无优化的静态分配、仅考虑电网碳强度的调度、以及仅考虑硬件健康的调度。
结果令人振奋:与静态基线相比,仅碳感知策略能减少约22%的碳排放,仅老化感知策略能减少约28%,而将二者深度融合的FCI框架,实现了高达45%的累计减排。
图说:四种推理调度策略在五年部署期内的累计排放量
来源:https://doi.org/10.1557/s43581-025-00146-1
更妙的是,通过避免将重负载持续压给已老化的机器,FCI将整个服务器集群的平均使用寿命延长了1.6年。
这种双管齐下的策略——更清洁的能源利用和更智能的硬件管理——弥补了当今可持续发展战略中的一个重大缺口。
虽然大多数努力都强调可再生能源,但奥兹坎夫妇指出,更换老旧服务器本身也会带来碳排放成本。
服务器制造会产生大量的隐性排放。FCI 通过延长硬件寿命,减少了生产新机器所带来的隐性环境负担。
图说:可持续性性能雷达图比较了四种人工智能推理调度策略
来源:https://doi.org/10.1557/s43581-025-00146-1
不过,该系统在现阶段也面临一定挑战:当系统过于激进地规避高碳或老旧节点时,可能会将任务发送到更远或更慢的服务器,导致响应延迟增加。
因此,FCI最适合对延迟要求不高的推理工作负载,例如LLM批量处理、图像识别等任务,这类工作负载的调度决策可以容忍亚秒级的调整。
同时研究人员也表示,FCI的强化学习大脑能够学习这种权衡,根据任务对延迟的容忍度动态调整策略。
对于那些对分秒必争的实时交互,它可以适度放宽碳约束;而对于可以排队处理的批量任务,则可以大胆追求极致低碳。
这种灵活性,使得它能够适配从要求严苛的在线推理到后台模型训练的各类AI工作负载。
研究人员表示,下一步是与云服务提供商合作,在真实的数据中心测试FCI。
日益增长的数据中心消耗的电力已经超过包括瑞典在内的一些国家的电力消耗量。
“人工智能的发展速度超过了支撑它的能源系统的发展速度,” 陈吉兹·奥兹坎说道。“FCI框架表明,实现与气候相适应的计算是可行的——而且不会牺牲工作性能。”
未来,FCI框架还可以进行扩展,集成电网碳强度预报,实现前瞻性调度;同时还可以纳入前瞻性环境目标,支持基于科学碳目标(SBTi)的碳预算管理。
FCI标志着AI基础设施从 “性能优先”向“可持续性优先” 的范式转变。
通过将碳排放和硬件健康嵌入调度核心,FCI使可持续性成为AI系统的内生行为,而非外部约束,为实现气候友好型、自优化的AI基础设施奠定了基础。
Reference:
[1]https://link.springer.com/article/10.1557/s43581-025-00146-1
[2]https://news.ucr.edu/articles/2025/11/20/smarter-ai-processing-cleaner-air
[3]https://interestingengineering.com/energy/artificial-intelligence-tool-cuts-emissions
热门阅读
(点击图片跳转阅读)
热门跟贴