随着聊天机器人用户规模达数百万,微软正押注推理效率如今比原始训练算力更为重要。
微软发布了其第二代自研AI芯片Maia 200,此时行业正围绕运行大模型的成本展开激烈竞争。与早期专注于训练环节的硬件推动不同,这款新芯片瞄准了推理环节,即持续向用户提供AI响应的过程。推理已成为AI公司日益增长的成本项。随着聊天机器人和智能副驾(Copilot)服务扩展到数百万用户,模型必须不间断运行。微软表示,Maia 200正是为这一转变而设计。
该芯片本周在微软位于爱荷华州的数据中心上线,并计划在亚利桑那州进行第二次部署。
为推理规模而设计
Maia 200基于微软2023年发布的Maia 100打造。新版芯片实现了显著的性能跃升。微软表示,该芯片集成了超过1000亿个晶体管,在4比特精度下可提供超过10千万亿次的计算性能(10 petaflops)。在8比特精度下,其算力约为5千万亿次。这些数据针对的是实际工作负载,而非训练基准测试。推理需要速度、稳定性和能效。微软称,单个Maia 200节点就能运行当今最大的AI模型,并为未来发展留出空间。
芯片设计反映了现代AI服务的运作方式。即使面对用户流量激增,聊天机器人也必须快速响应。为满足这一需求,Maia 200集成了大量SRAM(静态随机存储器),这是一种高速内存类型,可减少重复查询时的延迟。一些较新的AI硬件厂商也依赖大内存设计。微软似乎采用了这种方法来提升大规模服务时的响应能力。
Maia 200也服务于战略目的。据报道,主要云服务提供商希望减少对英伟达的依赖,后者的GPU主导着AI基础设施。尽管英伟达在性能上仍处于领先地位,但其硬件和软件堆栈影响着整个行业的价格和供应。谷歌已通过其云服务提供自研的张量处理单元。亚马逊网络服务也在推广其Trainium和Inferentia芯片。如今,微软凭借Maia芯片加入了这一阵营。
微软进行了直接比较:称Maia 200的FP4性能是亚马逊第三代Trainium芯片的3倍,并宣称其FP8性能强于谷歌最新的TPU。
与英伟达即将推出的Vera Rubin处理器类似,Maia 200由台积电采用3纳米技术制造。它也使用了高带宽内存,不过采用的是比英伟达下一代芯片更早一代的版本。
软件弥合差距
微软在发布芯片的同时,也推出了新的开发者工具,旨在缩小长期以来使英伟达软件受益的优势差距。其中一个关键工具是Triton,这是一个开源框架,可帮助开发者编写高效的AI代码,OpenAI为此项目做出了重要贡献。微软将Triton定位为英伟达主导的编程平台CUDA的替代选择。
Maia 200已在微软自家的AI服务中运行。公司表示,它支持其超级智能团队开发的模型,并为Copilot提供助力。微软还邀请了开发者、学术界和前沿AI实验室来测试Maia 200的软件开发工具包。
通过Maia 200,微软传递出AI基础设施更广泛的转变信号:更快的芯片固然重要,但对软件和部署的控制权如今同样重要。
如果朋友们喜欢,敬请关注“知新了了”!
热门跟贴