比英伟达快80倍？新机皇Taalas突发：模型直接“焊”死在芯片里

小8说科技

2026-02-24 01:09 ·重庆 ·优质数码领域创作者

如果这事是真的，那真不是“性能提升”，而是直接把AI的底层规则掀桌子。

就在春节期间，一家名为Taalas的新芯片公司突然冒出来，干了一件极端到近乎疯狂的事——把大模型直接“烧”进芯片里。

不是优化推理框架，不是堆显存，不是上更高带宽，而是彻底放弃通用性，把模型本身固化为硬件。

简单来说就是，传统GPU是通用算力平台。

你可以在NVIDIA的H200、B200上跑不同模型，今天Llama，明天Claude，后天自己训练的私有模型，软件层调度，硬件层算力兜底。这套体系强在灵活，代价是带宽墙、访存瓶颈、功耗飙升。

Taalas走的是另一条路：不做“通用算力”，只做“特定模型算力”。模型结构、权重映射、数据路径全部在芯片设计阶段就确定，绕开GPU最致命的那道坎——内存带宽。

公开演示中，这颗芯片在本地运行Llama 3.1，速度达到17000 token/秒。作为对比，H200大约在200多token/秒量级，B200在2000 token/秒左右。

哪怕不同测试环境、优化程度有差异，这个数量级差距依然夸张。它不是快一点，是从“实时对话”跳到了“瞬时响应”。

背后的逻辑并不神秘。大模型推理，本质上是大量矩阵乘法和参数读取。GPU的问题在于：算力足够，但每一步都要从显存搬权重，数据流动远比计算本身耗时。

Taalas的思路，是把权重直接嵌入芯片结构，让“读取”这个动作物理消失。算力不再被带宽卡脖子，延迟自然断崖式下降。

代价也很明确——通用性几乎为零。升级模型？换芯片。想换算法？换芯片。

它像一台只能玩一款游戏的机器，性能炸裂，但不能插卡带。这种设计在消费级市场几乎无法成立，但在特定场景下，反而是优点。

比如云推理巨头。亚马逊、谷歌、微软每天要跑海量固定模型请求。

如果某个模型调用频率极高，定制化硬件意味着成本、功耗、机房压力全线下降。只要模型版本更新节奏可控，换一批板卡并不是不可接受的代价。

再往深一层看，真正敏感的是安全和确定性。军事、工业控制、自主系统，对“可预测行为”的要求远高于灵活性。

一个只能运行指定模型、无法被外部篡改的芯片，本质上是硬件级黑盒。攻击面缩小，系统稳定性提高。这种“功能焊死”的特性，在某些场景反而是刚需。

自动驾驶和机器人同样值得关注。当前自动驾驶链路是“感知—决策—执行”，中间的推理延迟决定安全边界。

如果推理延迟压缩到毫秒级甚至更低，系统反应接近生物反射，设计空间会被重新打开。

当然，这里需要冷静一点——车辆系统瓶颈不只在模型推理，还包括传感器、控制系统、物理制动距离。芯片再快，也不能违背物理世界。

真正的冲击在产业结构。

过去几年，AI基础设施几乎等同于英伟达生态。CUDA、显存、带宽、NVLink，构成了难以撼动的护城河。

Taalas的出现，提供了一个思路：如果愿意放弃“什么都能干”，就可以在成本和功耗上实现数量级突破。

这不是取代GPU，而是切分市场。通用训练仍然属于GPU，灵活多模型部署仍然需要通用算力。但在高频、固定模型推理场景，定制芯片可能是另一条曲线。

AI制图

风险同样存在。模型迭代速度极快，从Llama 2到3再到3.1，只用了很短时间。

如果模型更新快于硬件更换周期，这套模式会被反噬。硬件固化意味着战略押注，一旦押错模型，库存就是负资产。

所以它更像一枚方向性信号：在制程逼近物理极限、算力增长放缓的背景下，架构创新仍有空间。不是每一次突破都来自更小的晶体管，有时来自对“通用”二字的反思。

如果未来几年我们看到更多“模型即芯片”的产品，不必惊讶。这是算力产业从粗放堆叠，走向场景分化的必然阶段。

真正值得关注的，不是17000 token/秒这个数字本身，而是一个问题——当算力不再是瓶颈，谁来定义AI的边界？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴