众所周知,大模型训练需要巨大的数据、芯片、人力资源。但可能不那么广为人知的是,水同样是大模型训练中不可或缺的一部分,用于冷却数据中心。

近日,微软的一位高管在一次演讲中承认,其大语言模型GPT-4是在位于艾奥瓦州的数据中心训练的,而冷却用水则抽取自浣熊河和得梅因河流域。此前,微软在其《2022 年环境可持续性报告》中披露,从2021年到2022年,该公司全球用水量大幅增长了34%,接近17亿加仑(超过2500个奥运会规模的游泳池的储水量)。这一用水量的激增被外部研究者认为源于AI研究,包括生成式AI以及与OpenAl的合作。

“公平地说,大部分的用水增长是由于对人工智能的投资,”加州大学河滨分校的研究员Shaolei Ren一直试图计算生成式人工智能产品(如ChatGPT),对环境造成的影响。他对媒体表示,“人工智能”中包括“对生成式人工智能研发,以及和OpenAI合作的部分。”

9月10日,美联社报道了加州大学的一项研究,该研究表明,只需向ChatGPT提出5-10个问题,就可能导致微软在艾奥瓦州的数据中心消耗500毫升的水。这一估量包括公司没有测量的间接用水量——例如为向数据中心供电的发电厂降温。Goodle也报告其数据中心用水量增长了五分之一,也被认为与AI研究相关。

针对这些质疑,微软上周回应美联社称,该公司正在投资研究人工智能的能源和碳足迹,“同时致力于提高训练、应用大型系统的效率。”

“我们将继续监测我们的排放,同时使用更多清洁能源为数据中心供电,并购买可再生能源,以实现我们在2030年之前实现碳负、水正和零废弃的可持续发展目标。”这份声明说。

OpenAI在9月8日也回应美联社,称其正在“认真考虑”如何最好地利用计算能力。

艾奥瓦州的西得梅因是微软云计算服务的数据中心的集中地,也是它们的冷却水的主要供应地。据报道,微软在这里还将开设第四个和第五个数据中心。此外,OpenAI用户用于训练GPT-4模型的超级计算数据中心也设在这里。因此,与亚利桑那州的微软数据中心相比,艾奥瓦州的数据中心在满足相同的计算需求时,需要消耗更多的水资源。

然而,这一信息在微软和OpenAI建立数据信息时,并未广为认知。根据当时西得梅因市市长的Steve Gaer的说法,微软在“入驻”之前支付了一笔“惊人”的投资,用于支持该市彼时的公共设施建设。“但是,他们对自己在那里做什么非常保密。”Steve补充道。

根据公开资料,在一年的大部分时间里,艾奥瓦州的天气足够凉爽,微软可以使用外界空气来保持超级计算机正常运行,并将热量排出建筑物。只有当温度超过29.3摄氏度时,它才会抽取水。

这或许也是微软将GPT-4的训练地点选在艾奥瓦州的原因。相比起位于亚利桑那州的微软数据中心,西得梅因市能减少大量用水消耗。

“如果你在微软内部开发人工智能模型,你应该在艾奥瓦州而不是在亚利桑那州安排训练,”Shaolei Ren说。“在训练效率上这两个地方没有区别。但在水消耗或能源消耗方面区别很大。”

即使这样,微软的用水量仍不容小觑。2022年8月,在OpenAI表示完成了GPT-4的训练。而根据西得梅因水务局的数据,就在此前的一个月内,微软就向其艾奥瓦州数据中心的集群抽取了大约1150万加仑的水,占了该区域内所有用水量的6%。

对于这样的数字,西得梅因政府也做出了自己的回应。2022年,西得梅因水务局发布了一份文件,其中表示,未来只有在数据中心项目有证据能够降低高峰用水量的条件下,水务局和市政府才会考虑引进新的项目,以保证当地居民和其他商业的用水需求。

对此,微软则在当地时间7日表示,它正在直接与水务局合作,以解决这一问题。

采写:南都记者胡耕硕