一个疯子，造出便宜100倍的AI芯片|amd|gpu|nvidia|内存|晶体管

25个人，3000万美金，两年半。

做出了一块碾压英伟达旗舰GPU 10倍的芯片。

不是PPT，不是实验室demo。芯片已经量产，API已经开放，开发者现在就能测。

做这件事的人叫Ljubisa Bajic。两年前，他放弃了自己一手创办的、估值32亿美金的AI

芯片公司Tenstorrent。AI芯片赛道正火，资本疯抢，所有人都觉得他疯了。

但Bajic觉得，真正疯的是这个行业——大家花几十亿美金造芯片，结果90%的算力都在搬数据，不在算数据。

他放不下一个问题：AI推理，为什么非得这么贵？

问题有多本质？

你用ChatGPT问一个问题，背后是什么？是一堆服务器里的GPU，把一个几十GB甚至几百GB的模型文件，从内存里反复搬运到计算单元，一个字一个字地算出来，再传给你。

这个过程，每问一次，就搬一次。不是搬一次，是每生成一个token，都要把所有的模型权重过一遍。

NVIDIA的GPU卖这么贵，本质上是在卖"通用性"——它什么模型都能跑。这种灵活性，代价是极大的浪费。好比你每次做饭，都要把整个菜市场搬进厨房，然后再搬走。

Bajic想的是：如果你只做一道菜，为什么不直接把菜长在厨房里？

这就是Taalas的起点。

先说说Bajic这个人

他的履历，光看都觉得累。在AMD做了十几年，从工程师一路做到GPU芯片架构师，主导过混合CPU-GPU芯片的整体设计。后来跳去Nvidia做了一年高级架构师，结果又被AMD挖回去，当了两年集成电路设计总监。

AMD、Nvidia、AMD——在两家芯片巨头之间来回蹦跶。不是他坐不住，是这个行业的顶尖人才就这样，谁给更大的舞台就去谁那儿。

再后来他自己出来创业，创办了Tenstorrent——专做AI芯片。公司融了7亿美金，估值一路飙到32亿。为了补强团队，他请来了芯片界的传奇人物Jim Keller先担任CTO——这个人在AMD设计过Zen架构、在苹果做过A系列芯片、在特斯拉搞过自动驾驶芯片，硅谷芯片圈的活化石。

Keller一开始以CTO身份加入，负责技术方向。但很快，Bajic发现这个人不只是能做技术——他能扛起整个公司。于是Bajic把他升为CEO，自己退到幕后。2022年秋天，Bajic彻底离开了Tenstorrent。

一手创办的公司，估值32亿，亲手交给别人，然后走人。

他停下来想了六个月，然后做了一个更疯的决定。

颠覆80年的基本假设

2023年，Bajic带着他的妻子Lejla（AMD/Tenstorrent系统工程老兵，后出任COO），还有老搭档Drago Ignjatovic（前Tenstorrent硬件VP，出任CTO），三个人，把这个想法从零开始做。

他们给这个方向起了个霸气的名字：Hardcore Models.

口号只有六个字：The Model is The Computer.

不是模型运行在计算机上。模型本身，就是那台计算机。

具体怎么做到的？

具体怎么做到的？Bajic的技术解释，我觉得非常有意思。传统芯片的逻辑是：有一堆计算单元，有一堆内存，需要推理的时候，把模型权重从内存搬到计算单元，算完结果，再吐出来。这中间有一道无形的"墙"——内存带宽墙。

你能算多快，取决于你能搬多快。这道墙，是整个AI算力行业几十年的噩梦。Cerebras用一整个晶圆做计算，SambaNova和Groq用大量高速SRAM，本质都是在想办法把这道墙打薄。但墙还在。

Taalas的做法，是把这道墙彻底炸掉。

从1945年冯·诺依曼提出计算机架构至今，有一个基本假设从没变过：存储是存储，计算是计算，中间靠总线搬数据。八十年了，所有芯片都在这个框架里优化。

Bajic说：我不优化了，我把这个架构废了。

存储和计算，合为一体。模型参数直接刻进晶体管，晶体管本身既是存储又是计算。不需要搬运，因为数据就长在计算的地方。

这才是真正疯的地方——不是做一块更快的芯片，而是否定了八十年来计算机的基本假设。

他们发明了一种叫"Mask ROM Recall Fabric"的架构——直接把模型权重，在芯片制造的时候，固化进晶体管里。不是写进内存，是刻进硅里。

他们用的是70年代手工晶体管级别的设计方法，一行一行地布局，像在手工雕刻。一共申请了14项专利。

结果

第一代芯片HC1，TSMC 6纳米工艺，815平方毫米，530亿个晶体管，功耗200W一张卡。

跑Llama 3.1 8B的推理速度：17,000 tokens/秒（每用户）

NVIDIA最新的B200（Blackwell架构）：大约1,800 tokens/秒

差了将近10倍。成本便宜20倍。功耗低10倍。

而且，因为速度太快，根本不需要"批处理"。HC1速度太快，每个用户的请求直接实时响应，延迟极低。

低延迟和低成本，原本是一对矛盾。Taalas说，我两个都要。

代价与解法

你可能会问：这听起来太好了，有什么代价？

有的。

每一个模型，对应一款专属芯片。你想跑Llama 3.1，就得用Llama 3.1的HC芯片。

Bajic说：不麻烦。他们和TSMC一起，设计了一套"两层金属"的快速更新方案——换个模型，只改芯片里的两层金属。从收到新模型的权重，到可以量产出货：两个月。

定制一块专属推理芯片，成本大概是训练成本的百分之一。

这个账，算得过来。

更关键的是：模型更新的速度，正在放缓。用户开始在乎"稳定性"多过"新功能"。GPT-4到GPT-4.5到GPT-5，不少企业用户反而不急着升级，因为已经跑通的工作流不想被打乱。这种趋势，恰恰给了HC芯片更大的生存空间。

25人，$3000万

Taalas今年2月刚宣布完成$1.69亿融资，总融资额达到$2.19亿，投资方包括Fidelity（富达）。

他们总共只花了$3000万在研发上。还有$1.7亿在账上没动。

25个人，$3000万，两年半，做出了一个跑赢NVIDIA旗舰GPU 10倍的芯片。

这不是在吹牛。他们现在已经有公开可用的API（chatjimmy.ai），开发者可以自己去测。

我见过太多创业团队，动不动就说要做多大的事，然后花很多钱，很多年，产出一个平庸的结果。Taalas这个数字，让我坐直了。

极度焦虑=极度效率

这件事让我想到一个更大的问题：资源，到底是优势，还是束缚？

Taalas走了另一条路：用极度聚焦换来极度效率。

Bajic从AMD到Tenstorrent，再到Taalas，每次都在做减法：

AMD：做所有人的GPU
Tenstorrent：做AI时代的通用芯片
Taalas：只做一个模型的最优硬件

越聚越窄，越聚越深，越聚越快。

我自己做猎豹的时候，也经历过类似的阶段。做移动工具的那几年，整个团队想的就是一件事：如何在手机清理这件小事上，做到极致？

别人觉得这太窄，没有未来。但正是这种极致的聚焦，让我们在全球超过一亿用户。

Taalas让我想到，这个道理在硬科技领域一样成立——甚至更成立。因为硬件容错率更低，极度聚焦，不是退而求其次，而是生存本能。

因为硬件容错率更低。你不能"先发布再迭代"，每次流片都是真金白银。极度聚焦，不是退而求其次，而是生存本能。

顺便说，Taalas的VP of Products，叫Paresh Kharya。

这个人之前在NVIDIA做了三年数据中心业务高级产品负责人，然后去Google Cloud管了一段时间GPU和TPU的整个硬件产品线。

从NVIDIA和Google的内部，主动跳槽去一个25人的初创公司。

这个选择，很说明问题。见过最好的，选择去做可能更颠覆的，这种判断不轻易发生。

价格革命

当然，Taalas面前还有很多没解决的问题。

模型迭代越来越快，两个月的交货周期够不够？超大参数量的模型（数千亿参数）怎么做，目前HC1只支持80亿参数，HC2年底才出。客户愿不愿意为"专用芯片"接受灵活性上的限制，这是真实的商业挑战。

这些问题，都不是小问题。

但有一件事我觉得是确定的：AI推理的成本，必然会被打穿。

DeepSeek从训练端做到了，用更少的算力训练出接近GPT-4水平的模型。

Taalas从推理端做，把同一个模型的运行成本砍掉20倍。

两条路，同一个方向——让AI的使用成本趋近于零。

这不是一个技术故事，这是一场价格革命。

最后说一句话。

Bajic离开Tenstorrent的时候，所有人都说他疯了——AI芯片赛道正热，公司估值$32亿，你走什么走？

但他停下来想了六个月，然后去做一件更疯的事——否定冯·诺依曼架构，把模型直接烧进芯片。

现在他们拿着$2.19亿，25个人，从加拿大多伦多出发，准备在一个万亿美元的市场里，打出一道裂缝。

有时候，疯子才能看到正常人看不到的路。

这件事的结局还没写完。但开头，已经很精彩了。

Taalas的HC1已经可以申请API试用：taalas.com/api-request-form/。如果你在做AI应用，不妨去测一下。17,000 tokens/秒是什么感觉，亲眼看看。

关于EasyClaw

AI推理成本趋近于零的那一天，真正的价值不在算力，在应用。

EasyClaw是我们做的AI Agent平台——让每个人都能拥有自己的AI助理，7×24小时帮你处理工作、获取信息、管理日程。不需要写代码，不需要懂技术，开箱即用。

Taalas让AI算力便宜100倍，EasyClaw让AI能力人人可用。

easyclaw.com — 你的第一只龙虾，在等你。

一个疯子，造出便宜100倍的AI芯片

热搜

热门跟贴

热搜

热门跟贴

相关推荐

NVIDIA：AI设计芯片一夜搞定！原要8个人干10个月

国产AI芯片崛起：三大门派、瓜分英伟达

28岁华裔天才成百亿富豪，建议美国封锁中国AI技术，网友：太坏了

他用AI把开发速度拉满，大脑却开始"生锈"

他用AI接管生活7天：账单130美元，最大弱点竟是自己的电脑

20人团队干出110亿估值，这款国产AI在日本杀疯了

00后，在AI杀疯了！

英伟达在中国跌下神坛？国产AI芯片崛起，华为杀到第2名！

配比从1:8变1:1，被低估的CPU正成为AI新瓶颈

男子靠AI开一人公司年入150万，评论区炸了：他行，凭什么你行？

2026，国产AI芯片，跨越天堑：从“推理”走向“训练”

从“芯片奥林匹克”看AI芯片的未来：互连技术瓶颈浮出水面，封装创新成为下一个主战场`

我国最大规模科学智能计算集群投入使用AI加速芯片升级到6万张

最高涨463%！算力全面涨价后，老板开始考核“谁用的Token最少”⋯⋯

Anthropic发布Claude Opus 4.7：金融分析能力登顶公开模型 软件工程、多模态全面进阶

Claude Opus 4.7连夜突袭：或将抢走全球7亿打工人饭碗！

Gemini桌面客户端终于上线：直接读取屏幕上下文，帮你解读一切！

算力新变局|深度

特斯拉AI5芯片流片成功！将由台积电和三星共同代工

MIT新方法让两颗芯片共享唯一“指纹”，重写硬件安全规则

Anthropic发布Claude Opus 4.7：金融分析能力登顶公开模型软件工程、多模态全面进阶