当整个AI芯片行业还在冯·诺依曼架构的迷宫里内卷时,一个“疯子”炸掉了那道横亘八十年的“内存墙”。2026年2月,Taalas发布的HC1芯片像一颗惊雷,让整个硅谷沉默:25个人,3000万美金,两年半,做出了比英伟达B200快10倍、成本低20倍的AI推理芯片。不是实验室demo,不是PPT画饼,芯片已经量产,API开放,开发者伸手就能摸到——这不是技术突破,是一场对行业底层逻辑的“叛逆”。

打开网易新闻 查看精彩图片

一、“疯子”的清醒:32亿估值不要,偏要“毁掉”自己的帝国

Ljubisa Bajic的履历,写满了“不安分”。在AMD从工程师干到GPU架构师,跳槽英伟达又被AMD挖回,最后自己创办Tenstorrent,融7亿美金,估值飙到32亿。最疯狂的是,他请来芯片传奇Jim Keller当CTO,又亲手把CEO位置让出去——然后在2022年秋天,彻底离开自己一手养大的公司。

“所有人都觉得我疯了。”Bajic后来回忆,“AI芯片赛道正热,资本追着投钱,32亿估值的公司,放着不香吗?”但他眼里,整个行业才是“集体失智”:几十亿美金砸进去,造出来的芯片90%算力都在“搬数据”——就像每次做饭,非要把整个菜市场搬进厨房,炒完再搬回去。“AI推理,为什么非得这么贵?”这个问题,他放不下。

六个月沉寂后,他带着妻子Lejla(AMD系统工程老兵,任COO)、老搭档Drago(前Tenstorrent硬件VP,任CTO),三个人在多伦多租了间办公室,写下“Hardcore Models”的名字,口号六个字:“The Model is The Computer”——不是模型跑在计算机上,模型本身,就是计算机。

打开网易新闻 查看精彩图片

二、炸掉80年铁律:当存储和计算“结婚”,数据不用再“搬家”

1945年冯·诺依曼提出计算机架构时,谁也想不到,八十年后有人敢说“不”。传统芯片的逻辑像一条单行道:内存存数据,计算单元算数据,中间靠总线“搬运”——这道“内存带宽墙”,成了AI算力的噩梦。Cerebras用晶圆做大芯片,SambaNova堆高速SRAM,本质都是“给墙刷漆”,而Bajic要的是“炸墙”。

Taalas的解法简单到粗暴:把模型参数直接刻进晶体管。不是“写进内存”,是“刻进硅里”。他们发明了“Mask ROM Recall Fabric”架构,用70年代手工晶体管设计方法,一行行布局,像雕刻艺术品。530亿个晶体管,在TSMC 6纳米工艺的815平方毫米芯片上,既是存储单元,又是计算单元——数据不用搬,因为它就长在计算的地方。

结果呢?跑Llama 3.1 8B模型,HC1速度17000 tokens/秒,英伟达B200才1800 tokens/秒,差了近10倍;功耗200W,是B200的1/10;成本更狠,直接砍到1/20。最绝的是“零批处理”——速度快到每个用户请求实时响应,延迟低到几乎无感。低延迟和低成本,这对行业里的“死对头”,被他硬生生捏在了一起。

打开网易新闻 查看精彩图片

三、25人干翻巨头:资源不是优势,聚焦才是生存本能

“25个人,3000万美金,两年半”——这组数字让硅谷大佬坐不住。要知道,英伟达研发一款旗舰GPU,动辄上千人团队,几十亿美金投入。Taalas凭什么?答案藏在Bajic的“减法哲学”里:

在AMD,他做“所有人的GPU”;到Tenstorrent,聚焦“AI通用芯片”;如今Taalas,只啃“单一模型的最优硬件”。越聚焦,效率越恐怖:25人里,14个是硬件工程师,7个软件,剩下4个管商业,没有冗余岗位。连办公室都选在多伦多——远离硅谷的喧嚣,省租金,也省“无效社交”。

更狠的是“快速迭代”。有人质疑:“专属芯片只能跑一个模型,模型更新了怎么办?”Bajic早想好:和TSMC合作“两层金属”方案,换模型只需改芯片里两层金属,从收到权重到量产,两个月搞定。成本?定制一块芯片,大概是模型训练成本的百分之一。“现在企业更在乎模型稳定性,不是天天追新功能。”他赌对了——GPT-4到GPT-5,多少公司宁愿用旧版本,也不想打乱工作流?

打开网易新闻 查看精彩图片

四、价格革命来了:当AI算力便宜到“白菜价”,真正的变革才开始

Taalas的HC1不是完美的。目前只支持80亿参数模型,千亿参数的HC2要年底才出;两个月交付周期,能跟上模型迭代速度吗?客户愿不愿意为“专用芯片”放弃灵活性?这些都是现实挑战。但有一件事已经确定:AI推理的成本,要被打穿了。

DeepSeek从训练端发力,用更少算力做出接近GPT-4的模型;Taalas从推理端下手,把运行成本砍20倍。两条路,指向同一个终点:让AI算力便宜到趋近于零。到那时,真正的价值不在芯片,而在应用——就像电力普及后,重要的不是发电机,是工厂、是电灯、是互联网。

Bajic离开Tenstorrent时,有人说他“自毁前程”。现在,他带着25人和1.7亿美金现金(融资2.19亿,只花了3000万),站在万亿美元AI算力市场的裂缝前。这个“疯子”用行动证明:创新从来不是跟着风口跑,而是在所有人觉得“不可能”的地方,凿开一道光。

HC1的API已经开放,17000 tokens/秒是什么感觉?去试试就知道。或许用不了多久,当你问ChatGPT一个问题时,背后跑的不再是昂贵的GPU集群,而是一块“长着模型”的硅片——安静,高效,便宜得像空气。而这一切的起点,只是一个“疯子”不肯放下的问题:“为什么非得这么贵?”

有时候,改变世界的,就是这种“不合时宜”的清醒。