公众号记得加星标⭐️,第一时间看推送不会错过。
今天,总部位于西雅图的人工智能硬件初创公司ElastixAI正式亮相。该公司由前苹果和 Meta 机器学习工程师创立,推出了一款基于 FPGA 的推理平台。该公司声称,与基于 Nvidia GPU 的部署相比,该平台在大型语言模型推理方面可降低高达 50 倍的总拥有成本和 80% 的功耗。
该公司于 2025 年 5 月完成了由 Fuse VC 领投的 1800 万美元种子轮融资,其 Elastix Rack 产品定位为 GPU 服务器基础设施的即插即用替代品,计划于 2026 年年中首次出货。
在发布会之前,外媒采访了联合创始人Mohammad Rastegari(首席执行官)、Saman Naderiparizi(首席技术官)和Mahyar Najibi(首席战略官),向我们阐述了 FPGA 比 GPU 更适合 LLM 推理的技术原因,以及他们为什么认为时机成熟。
人工智能训练与人工智能推理
他们的核心论点是,GPU 的设计初衷是处理计算密集型工作负载,例如 LLM 训练。但当处理内存密集型工作负载(例如 LLM 推理)时,GPU 的效率会降低,计算利用率也会大幅下降。“训练严重依赖计算,而推理严重依赖内存,”Rastegari 说。这种不匹配导致推理过程中 GPU 的计算利用率很低。
硬件的不灵活性加剧了这个问题:4 位量化理论上可以使吞吐量翻倍,但 Rastegari 指出,在像 H100 这样缺乏原生支持的硬件上,运营商“不得不围绕它构建一个软件内核,而这个内核只能利用其 10% 的潜力”。
顶级加速器依赖于速度最快、价格最昂贵的内存,而 ElastixAI 则专注于真正影响总体拥有成本 (TCO) 的指标:每带宽成本和每容量成本。通过利用机器学习定义的软件专用化,ElastixAI 能够从运行在商用现成 FPGA 服务器上的低成本硬件(例如,先进的 DDR 和 HBM)中榨取最大性能。据该团队称,这种方法能够以远低于业界顶级内存的每 GB 成本,提供高性能推理所需的内存带宽。
为什么选择FPGA而不是定制芯片
FPGA 相较于定制芯片的优势在于机器学习的发展速度远超芯片开发周期。Rastegari 是 Xnor.ai 的联合创始人,该公司于 2020 年被苹果以约 2 亿美元收购。Rastegari 后来领导了 Meta 的 Llama 405B 模型的推理优化工作。他指出,混合专家模型就是一个此前存在风险的例证。
“当时许多公司都在筹集资金,准备基于现有技术开发芯片,但随后混合专家算法出现了。”他说道,“突然之间,这些公司不得不重新设计芯片以支持混合专家算法,而这种算法在他们最初的设计过程中并不存在。”问题显而易见。定制芯片从设计到生产需要三年多的时间;而机器学习领域的快速发展可能在短短几个月内就彻底改变这一进程。
推理吞吐量需求也印证了这一点。Rastegari 加入 Meta 时,每秒 20 个词元足以满足语音交互的需求。“但对于推理而言,你需要更快地在后台生成词元;现在需要每秒 200 个词元。” 随着这些需求的变化,FPGA 可以重新配置。
“通用性和效率之间存在着根本性的权衡。一旦你想要更通用,就会降低效率,因为你必须增加额外的硅片来覆盖许多不同的工作负载。”
Rastegari认为,Transformer架构目前在结构上足够稳定,可以进行FPGA实现,而底层优化层仍在快速发展,因此锁定固定的芯片设计仍然存在风险。关于最终是否会流片定制芯片的问题,他谨慎地表示:“决定我们何时以及是否流片芯片的,实际上取决于机器学习改进的速度。”
功率、成本和机架兼容性
Naderiparizi 谨慎地对主要性能数据进行了限定。他表示:“根据我们采用的令牌速率,与英伟达 B200 相比,我们可以在成本方面实现 10 倍甚至 50 倍的性能提升。”他指出,这一范围反映了目标用户不同的“每用户延迟”(或者说每秒每用户令牌数)。
这些数据涵盖了整个数据中心部署的资本支出和运营支出,并通过与FPGA制造商和数据中心运营商的合作验证。在功耗方面,Naderiparizi表示,在相同吞吐量下,每个令牌的功耗降低了五倍。
Elastix 机架符合标准的 17-19 kW 机架功率范围,并采用空气冷却,而 Nvidia 的 GB200 NVL72 需要 120 kW 至 200 kW 的功率以及大多数现有数据中心无法支持的专用液冷基础设施。
直接替换
集成是通过 vLLM 插件实现的,该插件替换了 Nvidia CUDA 后端,同时保持前端 OpenAI 兼容 API 不变,因此从 GPU 基础架构迁移的运营商无需修改其应用程序堆栈。
ElastixAI计划最终向机器学习研究人员开放其模型转换工具——Naderiparizi明确地将这一策略与Nvidia构建CUDA生态系统的方式进行了比较。“起初,Nvidia免费向研究人员发布其软件。但问题在于,CUDA是为Nvidia服务的——人们为CUDA框架开发的任何东西都会对Nvidia有所帮助。” ElastixAI计划围绕其自身平台构建同样的开发者良性循环。
创始团队成员还包括纳吉比 (Najibi),他曾为苹果智能团队做出贡献,此前还担任过 Waymo 的首席科学家。公司董事会成员之一是乔恩·格尔西(Jon Gelsey ),他曾担任 Xnor.ai 的首席执行官,也是 Auth0 的创始首席执行官,Auth0 后来被 Okta 以 65 亿美元收购。格尔西目前担任 ElastixAI 的战略和市场营销主管。
ElastixAI 目前仅面向部分企业合作伙伴和数据中心运营商开放,硬件出货预计将于 2026 年年中开始。
(来源:编译自allaboutcircuit)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4329期内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴