25个人,3000万美金,两年半。

做出了一块碾压英伟达旗舰GPU 10倍的芯片。

不是PPT,不是实验室demo。芯片已经量产,API已经开放,开发者现在就能测。

做这件事的人叫Ljubisa Bajic。两年前,他放弃了自己一手创办的、估值32亿美金的AI

芯片公司Tenstorrent。AI芯片赛道正火,资本疯抢,所有人都觉得他疯了。

但Bajic觉得,真正疯的是这个行业——大家花几十亿美金造芯片,结果90%的算力都在搬数据,不在算数据

他放不下一个问题:AI推理,为什么非得这么贵?

问题有多本质?

你用ChatGPT问一个问题,背后是什么?是一堆服务器里的GPU,把一个几十GB甚至几百GB的模型文件,从内存里反复搬运到计算单元,一个字一个字地算出来,再传给你。

这个过程,每问一次,就搬一次。不是搬一次,是每生成一个token,都要把所有的模型权重过一遍。

NVIDIA的GPU卖这么贵,本质上是在卖"通用性"——它什么模型都能跑。这种灵活性,代价是极大的浪费。好比你每次做饭,都要把整个菜市场搬进厨房,然后再搬走。

Bajic想的是:如果你只做一道菜,为什么不直接把菜长在厨房里?

这就是Taalas的起点。

先说说Bajic这个人

他的履历,光看都觉得累。在AMD做了十几年,从工程师一路做到GPU芯片架构师,主导过混合CPU-GPU芯片的整体设计。后来跳去Nvidia做了一年高级架构师,结果又被AMD挖回去,当了两年集成电路设计总监。

AMD、Nvidia、AMD——在两家芯片巨头之间来回蹦跶。不是他坐不住,是这个行业的顶尖人才就这样,谁给更大的舞台就去谁那儿。

再后来他自己出来创业,创办了Tenstorrent——专做AI芯片。公司融了7亿美金,估值一路飙到32亿。为了补强团队,他请来了芯片界的传奇人物Jim Keller先担任CTO——这个人在AMD设计过Zen架构、在苹果做过A系列芯片、在特斯拉搞过自动驾驶芯片,硅谷芯片圈的活化石。

Keller一开始以CTO身份加入,负责技术方向。但很快,Bajic发现这个人不只是能做技术——他能扛起整个公司。于是Bajic把他升为CEO,自己退到幕后。2022年秋天,Bajic彻底离开了Tenstorrent。

一手创办的公司,估值32亿,亲手交给别人,然后走人

他停下来想了六个月,然后做了一个更疯的决定。

颠覆80年的基本假设

2023年,Bajic带着他的妻子Lejla(AMD/Tenstorrent系统工程老兵,后出任COO),还有老搭档Drago Ignjatovic(前Tenstorrent硬件VP,出任CTO),三个人,把这个想法从零开始做。

他们给这个方向起了个霸气的名字:Hardcore Models.

口号只有六个字:The Model is The Computer.

不是模型运行在计算机上。模型本身,就是那台计算机。

具体怎么做到的?

具体怎么做到的?Bajic的技术解释,我觉得非常有意思。传统芯片的逻辑是:有一堆计算单元,有一堆内存,需要推理的时候,把模型权重从内存搬到计算单元,算完结果,再吐出来。这中间有一道无形的"墙"——内存带宽墙。

你能算多快,取决于你能搬多快。这道墙,是整个AI算力行业几十年的噩梦。Cerebras用一整个晶圆做计算,SambaNova和Groq用大量高速SRAM,本质都是在想办法把这道墙打薄。但墙还在。

Taalas的做法,是把这道墙彻底炸掉。

从1945年冯·诺依曼提出计算机架构至今,有一个基本假设从没变过:存储是存储,计算是计算,中间靠总线搬数据。八十年了所有芯片都在这个框架里优化。

Bajic说:我不优化了,我把这个架构废了。

存储和计算,合为一体。模型参数直接刻进晶体管,晶体管本身既是存储又是计算。不需要搬运,因为数据就长在计算的地方。

这才是真正疯的地方——不是做一块更快的芯片,而是否定了八十年来计算机的基本假设

他们发明了一种叫"Mask ROM Recall Fabric"的架构——直接把模型权重,在芯片制造的时候,固化进晶体管里。不是写进内存,是刻进硅里

他们用的是70年代手工晶体管级别的设计方法,一行一行地布局,像在手工雕刻。一共申请了14项专利

结果

第一代芯片HC1,TSMC 6纳米工艺,815平方毫米,530亿个晶体管,功耗200W一张卡。

跑Llama 3.1 8B的推理速度:17,000 tokens/秒(每用户)

NVIDIA最新的B200(Blackwell架构):大约1,800 tokens/秒

差了将近10倍成本便宜20倍功耗低10倍

而且,因为速度太快,根本不需要"批处理"。HC1速度太快,每个用户的请求直接实时响应,延迟极低。

低延迟和低成本,原本是一对矛盾。Taalas说,我两个都要。

代价与解法

你可能会问:这听起来太好了,有什么代价?

有的。

每一个模型,对应一款专属芯片。你想跑Llama 3.1,就得用Llama 3.1的HC芯片。

Bajic说:不麻烦。他们和TSMC一起,设计了一套"两层金属"的快速更新方案——换个模型,只改芯片里的两层金属。从收到新模型的权重,到可以量产出货:两个月

定制一块专属推理芯片,成本大概是训练成本的百分之一

这个账,算得过来。

更关键的是:模型更新的速度,正在放缓。用户开始在乎"稳定性"多过"新功能"。GPT-4到GPT-4.5到GPT-5,不少企业用户反而不急着升级,因为已经跑通的工作流不想被打乱。这种趋势,恰恰给了HC芯片更大的生存空间。

25人,$3000万

Taalas今年2月刚宣布完成$1.69亿融资,总融资额达到$2.19亿投资方包括Fidelity(富达)。

他们总共只花了$3000万在研发上。还有$1.7亿在账上没动。

25个人,$3000万,两年半做出了一个跑赢NVIDIA旗舰GPU 10倍的芯片。

这不是在吹牛。他们现在已经有公开可用的API(chatjimmy.ai),开发者可以自己去测。

我见过太多创业团队,动不动就说要做多大的事,然后花很多钱,很多年,产出一个平庸的结果。Taalas这个数字,让我坐直了。

极度焦虑=极度效率

这件事让我想到一个更大的问题:资源,到底是优势,还是束缚?

Taalas走了另一条路:用极度聚焦换来极度效率

Bajic从AMD到Tenstorrent,再到Taalas,每次都在做减法:

  • AMD:做所有人的GPU

  • Tenstorrent:做AI时代的通用芯片

  • Taalas:只做一个模型的最优硬件

越聚越窄,越聚越深,越聚越快。

我自己做猎豹的时候,也经历过类似的阶段。做移动工具的那几年,整个团队想的就是一件事:如何在手机清理这件小事上,做到极致?

别人觉得这太窄,没有未来。但正是这种极致的聚焦,让我们在全球超过一亿用户。

Taalas让我想到,这个道理在硬科技领域一样成立——甚至更成立因为硬件容错率更低,极度聚焦,不是退而求其次,而是生存本能。

因为硬件容错率更低。你不能"先发布再迭代",每次流片都是真金白银。极度聚焦,不是退而求其次,而是生存本能。

顺便说,Taalas的VP of Products,叫Paresh Kharya。

这个人之前在NVIDIA做了三年数据中心业务高级产品负责人,然后去Google Cloud管了一段时间GPU和TPU的整个硬件产品线。

从NVIDIA和Google的内部,主动跳槽去一个25人的初创公司。

这个选择,很说明问题。见过最好的,选择去做可能更颠覆的,这种判断不轻易发生。

价格革命

当然,Taalas面前还有很多没解决的问题。

模型迭代越来越快,两个月的交货周期够不够?超大参数量的模型(数千亿参数)怎么做,目前HC1只支持80亿参数,HC2年底才出。客户愿不愿意为"专用芯片"接受灵活性上的限制,这是真实的商业挑战。

这些问题,都不是小问题。

但有一件事我觉得是确定的:AI推理的成本,必然会被打穿。

DeepSeek从训练端做到了,用更少的算力训练出接近GPT-4水平的模型。

Taalas从推理端做,把同一个模型的运行成本砍掉20倍

两条路,同一个方向——让AI的使用成本趋近于零。

这不是一个技术故事,这是一场价格革

最后说一句话。

Bajic离开Tenstorrent的时候,所有人都说他疯了——AI芯片赛道正热,公司估值$32亿,你走什么走?

但他停下来想了六个月,然后去做一件更疯的事——否定冯·诺依曼架构,把模型直接烧进芯片。

现在他们拿着$2.19亿,25个人,从加拿大多伦多出发,准备在一个万亿美元的市场里,打出一道裂缝。

有时候,疯子才能看到正常人看不到的路。

这件事的结局还没写完。但开头,已经很精彩了。

Taalas的HC1已经可以申请API试用:taalas.com/api-request-form/。如果你在做AI应用,不妨去测一下。17,000 tokens/秒是什么感觉,亲眼看看。

关于EasyClaw

打开网易新闻 查看精彩图片

AI推理成本趋近于零的那一天,真正的价值不在算力,在应用。

EasyClaw是我们做的AI Agent平台——让每个人都能拥有自己的AI助理,7×24小时帮你处理工作、获取信息、管理日程。不需要写代码,不需要懂技术,开箱即用。

Taalas让AI算力便宜100倍,EasyClaw让AI能力人人可用。

easyclaw.com — 你的第一只龙虾,在等你。