AI模型的运行成本被直接砍掉一半,而且并不依赖新增芯片?据报道,OpenAI工程师内部透露,公司已通过一系列系统底层优化,成功将推理成本降低了超过50%。

所谓“推理成本”,指的是模型在实际响应用户请求时所消耗的计算资源。每次向AI提出问题,后台都要调用算力,降低这一成本意味着同样的任务能以更少的开销完成。

打开网易新闻 查看精彩图片

这次优化的核心不是堆砌更多硬件,而是提升现有服务器的资源利用率。通过更精细的任务调度和系统调优,运行AI系统所需的英伟达芯片数量得以减少。简单说,就是把已有的算力“挤”出了更高产出。

成本降下来之后,空间就出来了。据IT之家了解,这些节省下的资源有可能用于调低API定价,或者提高用户的使用限额。对于接入OpenAI服务的开发者和企业,这直接影响投入产出比。