GPU独霸的时代，必将结束|cuda|gpu|处理器|英伟达

公众号记得加星标⭐️，第一时间看推送不会错过。

人工智能加速硬件的成本日益高昂，下一代芯片需要更高的功耗和大量的基础设施投资。对于许多初创公司和小型企业而言，大规模部署人工智能的成本和复杂性在软件开发开始之前就已构成障碍。

像 FuriosaAI 这样的新兴硅芯片厂商正试图重新思考这一格局，专注于效率、性能以及替代 GPU 主导市场的方案。

FuriosaAI 是一家总部位于韩国的公司，致力于开发高性能人工智能推理芯片，旨在降低功耗和数据中心压力。其最新处理器 RNGD 基于公司自主研发的张量收缩处理器架构，旨在无需依赖传统 GPU 框架即可运行高要求的人工智能模型。

FuriosaAI 的首席执行官兼联合创始人 June Paik 在 2017 年创立该公司之前，曾在AMD和三星担任硬件和软件工程师。我们与他探讨了人工智能芯片初创公司面临的挑战、数据中心的未来，以及 FuriosaAI 计划如何在受能源限制、基础设施成本和英伟达长期主导地位影响的行业中竞争。

问：从历史上看，日本和欧洲涌现出了一些伟大的公司（ST Electronics、NEC 等），为什么中国和美国以外的 AI 芯片厂商如此之少？

答：首先，我想对你的前提提出一些质疑：在人工智能领域，几乎没有哪家硬件初创公司能够撼动英伟达的统治地位。即使在 AlexNet 问世十五年后，我们仍然处于这个行业的早期阶段。而且，一些人工智能硬件创新者，例如 Hailo 和 Axelera，实际上并非来自美国或中国。

但由于结构性原因，这份名单很短。

与加密货币挖矿（算法固定，简单的ASIC矿机就能很好地工作）不同，人工智能正在快速发展和演变。

为不断变化的市场需求打造芯片需要硬件和编译器方面的专业知识，而这些知识往往集中在半导体产业底蕴深厚的地区。此外，世界上只有少数几个地方与晶圆厂和芯片制造合作伙伴建立了深厚的合作关系。

这就是为什么总部设在韩国实际上对Furiosa来说是一个竞争优势。

我们能够接触到韩国大学世界一流工程项目和韩国科技巨头的优秀人才。我们还与韩国（例如，SK海力士为我们的第二代芯片推理芯片RNGD提供HBM3）以及亚洲其他地区（例如，我们的代工厂合作伙伴台积电）的领先企业建立了合作关系。

与硅谷的距离也迫使我们采取非常自律的方式。Furiosa 最初仅靠 100 万美元的种子轮融资起步，我们在芯片交付之前花了数年时间完善我们的理念。

我们完全致力于基于张量收缩的方法，并且能够忽略硅谷的传统观念和炒作。

但硬件必须在全球市场竞争；我们不能仅仅成为区域供应商。现在，随着RNGD产品批量出货，我们正在与世界各地的企业客户合作。

问：硬件只是成功的一部分，英伟达花了数年时间才打造出如今声名远扬的软件护城河（CUDA）。Furiosa 正在采取哪些措施来对抗其强大的对手？

答：试图复制英伟达庞大的 CUDA 库是一个战略死胡同。

我们采取了更大胆的做法，从第一性原理出发，专门为人工智能共同设计硬件和软件，这样我们就无需重新创建 CUDA。

我们的芯片采用 Furiosa 专有的张量收缩处理器 (TCP) 架构，该架构能够原生执行深度学习的多维数学运算，而不是将其强行放入 GPU 使用的传统结构中。

这使得我们的编译器能够在无需数千个手工调优内核的情况下优化模型。

RNGD目前已投入量产，充分展现了我们方法的优势。它能为世界上最苛刻的模型提供高性能推理，而功耗仅为180瓦（相比之下，GPU需要600瓦甚至更高）。

LG AI Research等全球合作伙伴已在生产中验证了这一突破性的效率。

我们还打破了 CUDA 的锁定，构建了能够与 PyTorch 和 vLLM 等标准工具无缝集成的软件栈，以便开发人员无需改变工作流程即可获得这种性能。

问：大型超大规模数据中心运营商（如谷歌、微软和亚马逊）正逐步构建自己的AI芯片解决方案，以减少对第三方供应商的依赖。那么，Furiosa（以及其他类似公司）在这一趋势中扮演着怎样的角色呢？

答：当前的GPU架构给整个行业（包括超大规模数据中心）带来了严峻的能源挑战和基础设施瓶颈。我们展望未来，异构计算将成为主流，不同的架构可以协同工作，以最高效的方式满足不同的需求（例如训练与推理）。

因为我们优先考虑总拥有成本、能源效率和灵活性，所以我们的技术将在解决所有人面临的这个问题上发挥核心作用。

我们目前重点关注四个特定领域，这些领域正最强烈地感受到电力和基础设施方面的难题：

各国和受监管行业需要在本地而非公共云上处理敏感数据。RNGD 使他们能够在现有电力资源范围内部署高性能推理，从而确保数据主权，而无需大规模的新基础设施项目。
对于企业客户而言，总体拥有成本 (TCO) 和灵活性至关重要。RNGD 可安装在标准的 15kW 风冷机架中，避免了传统 GPU 所需的高昂液冷改造费用，使其成为扩展速度最快、成本效益最高的方式。
区域性和专业性云服务商需要在利润率方面与三大巨头竞争。RNGD 的高计算密度使云服务提供商 (CSP) 能够在保持低运营成本 (OpEx) 的同时，最大限度地提高每个机架的收入。
其他行业，例如电信运营商，也在网络边缘的电力受限数据中心环境中工作。RNGD 的节能特性也能满足他们的需求。

我们正在开发的下一代芯片将直接面向超大规模数据中心以及这些关键行业。

问：您认为数据中心的未来发展趋势是什么？（假设您在 2036 年参观一个数据中心，您会看到什么？）

答：10 年后，“数据中心”的含义将发生很多变化，就像“计算机”一词现在已经可以指代从智能手表到高性能服务器的一切事物一样。

有些数据中心会像你想象的那样，是那种充满未来感的设施：规模庞大，而且（很可能）采用聚变能源或绕地球运行。但另一些数据中心则会很小巧，但效率极高。

例如，您当地的医院将拥有一个本地人工智能数据中心，用于运行医生和护士的智能助手，从而保持低延迟，并确保数据本地化和安全。

电信运营商将拥有许多高性能的“边缘”人工智能数据中心，这些数据中心针对极低延迟进行了优化。

我确信的一点是，2036年的人工智能数据中心不会再充斥着GPU，而是会配备各种满足不同需求的专用人工智能芯片。

部分原因是GPU的能效较低。但从根本上讲，人们普遍认为GPU架构并不适合人工智能。

GPU 制造商一直致力于通过创新来弥合这一差距，例如在芯片中添加张量核心，但最终从 GPU 转向 AI 优先架构的好处将太大，不容忽视。

问：在不透露太多产品路线图细节的情况下，Furiosa 的芯片是否会遵循人工智能产品的传统发展路径？

答：我们现在以及未来的产品都专注于提供企业客户最需要的产品：高性能数据中心推理，同时还要节能、经济高效，并且易于部署，无需进行大规模的基础设施升级。

这意味着要优先考虑每瓦token数和每机架token数等指标，以提高计算密度。