如果这事是真的,那真不是“性能提升”,而是直接把AI的底层规则掀桌子。

就在春节期间,一家名为Taalas的新芯片公司突然冒出来,干了一件极端到近乎疯狂的事——把大模型直接“烧”进芯片里。

不是优化推理框架,不是堆显存,不是上更高带宽,而是彻底放弃通用性,把模型本身固化为硬件。

打开网易新闻 查看精彩图片

简单来说就是,传统GPU是通用算力平台。

你可以在NVIDIA的H200、B200上跑不同模型,今天Llama,明天Claude,后天自己训练的私有模型,软件层调度,硬件层算力兜底。这套体系强在灵活,代价是带宽墙、访存瓶颈、功耗飙升。

Taalas走的是另一条路:不做“通用算力”,只做“特定模型算力”。模型结构、权重映射、数据路径全部在芯片设计阶段就确定,绕开GPU最致命的那道坎——内存带宽。

公开演示中,这颗芯片在本地运行Llama 3.1,速度达到17000 token/秒。作为对比,H200大约在200多token/秒量级,B200在2000 token/秒左右。

哪怕不同测试环境、优化程度有差异,这个数量级差距依然夸张。它不是快一点,是从“实时对话”跳到了“瞬时响应”。

打开网易新闻 查看精彩图片

背后的逻辑并不神秘。大模型推理,本质上是大量矩阵乘法和参数读取。GPU的问题在于:算力足够,但每一步都要从显存搬权重,数据流动远比计算本身耗时。

Taalas的思路,是把权重直接嵌入芯片结构,让“读取”这个动作物理消失。算力不再被带宽卡脖子,延迟自然断崖式下降。

代价也很明确——通用性几乎为零。升级模型?换芯片。想换算法?换芯片。

它像一台只能玩一款游戏的机器,性能炸裂,但不能插卡带。这种设计在消费级市场几乎无法成立,但在特定场景下,反而是优点。

打开网易新闻 查看精彩图片

比如云推理巨头。亚马逊、谷歌、微软每天要跑海量固定模型请求。

如果某个模型调用频率极高,定制化硬件意味着成本、功耗、机房压力全线下降。只要模型版本更新节奏可控,换一批板卡并不是不可接受的代价。

再往深一层看,真正敏感的是安全和确定性。军事、工业控制、自主系统,对“可预测行为”的要求远高于灵活性。

一个只能运行指定模型、无法被外部篡改的芯片,本质上是硬件级黑盒。攻击面缩小,系统稳定性提高。这种“功能焊死”的特性,在某些场景反而是刚需。

自动驾驶和机器人同样值得关注。当前自动驾驶链路是“感知—决策—执行”,中间的推理延迟决定安全边界。

打开网易新闻 查看精彩图片

如果推理延迟压缩到毫秒级甚至更低,系统反应接近生物反射,设计空间会被重新打开。

当然,这里需要冷静一点——车辆系统瓶颈不只在模型推理,还包括传感器、控制系统、物理制动距离。芯片再快,也不能违背物理世界。

真正的冲击在产业结构。

过去几年,AI基础设施几乎等同于英伟达生态。CUDA、显存、带宽、NVLink,构成了难以撼动的护城河。

Taalas的出现,提供了一个思路:如果愿意放弃“什么都能干”,就可以在成本和功耗上实现数量级突破。

这不是取代GPU,而是切分市场。通用训练仍然属于GPU,灵活多模型部署仍然需要通用算力。但在高频、固定模型推理场景,定制芯片可能是另一条曲线。

AI制图

打开网易新闻 查看精彩图片

风险同样存在。模型迭代速度极快,从Llama 2到3再到3.1,只用了很短时间。

如果模型更新快于硬件更换周期,这套模式会被反噬。硬件固化意味着战略押注,一旦押错模型,库存就是负资产。

所以它更像一枚方向性信号:在制程逼近物理极限、算力增长放缓的背景下,架构创新仍有空间。不是每一次突破都来自更小的晶体管,有时来自对“通用”二字的反思。

如果未来几年我们看到更多“模型即芯片”的产品,不必惊讶。这是算力产业从粗放堆叠,走向场景分化的必然阶段。

真正值得关注的,不是17000 token/秒这个数字本身,而是一个问题——当算力不再是瓶颈,谁来定义AI的边界?