全球芯片圈炸锅：这个“疯子”把模型刻进硅片，80年架构说废就废|amd|gpu|晶体管|英伟达

当整个AI芯片行业还在冯·诺依曼架构的迷宫里内卷时，一个“疯子”炸掉了那道横亘八十年的“内存墙”。2026年2月，Taalas发布的HC1芯片像一颗惊雷，让整个硅谷沉默：25个人，3000万美金，两年半，做出了比英伟达B200快10倍、成本低20倍的AI推理芯片。不是实验室demo，不是PPT画饼，芯片已经量产，API开放，开发者伸手就能摸到——这不是技术突破，是一场对行业底层逻辑的“叛逆”。

一、“疯子”的清醒：32亿估值不要，偏要“毁掉”自己的帝国

Ljubisa Bajic的履历，写满了“不安分”。在AMD从工程师干到GPU架构师，跳槽英伟达又被AMD挖回，最后自己创办Tenstorrent，融7亿美金，估值飙到32亿。最疯狂的是，他请来芯片传奇Jim Keller当CTO，又亲手把CEO位置让出去——然后在2022年秋天，彻底离开自己一手养大的公司。

“所有人都觉得我疯了。”Bajic后来回忆，“AI芯片赛道正热，资本追着投钱，32亿估值的公司，放着不香吗？”但他眼里，整个行业才是“集体失智”：几十亿美金砸进去，造出来的芯片90%算力都在“搬数据”——就像每次做饭，非要把整个菜市场搬进厨房，炒完再搬回去。“AI推理，为什么非得这么贵？”这个问题，他放不下。

六个月沉寂后，他带着妻子Lejla（AMD系统工程老兵，任COO）、老搭档Drago（前Tenstorrent硬件VP，任CTO），三个人在多伦多租了间办公室，写下“Hardcore Models”的名字，口号六个字：“The Model is The Computer”——不是模型跑在计算机上，模型本身，就是计算机。

二、炸掉80年铁律：当存储和计算“结婚”，数据不用再“搬家”

1945年冯·诺依曼提出计算机架构时，谁也想不到，八十年后有人敢说“不”。传统芯片的逻辑像一条单行道：内存存数据，计算单元算数据，中间靠总线“搬运”——这道“内存带宽墙”，成了AI算力的噩梦。Cerebras用晶圆做大芯片，SambaNova堆高速SRAM，本质都是“给墙刷漆”，而Bajic要的是“炸墙”。

Taalas的解法简单到粗暴：把模型参数直接刻进晶体管。不是“写进内存”，是“刻进硅里”。他们发明了“Mask ROM Recall Fabric”架构，用70年代手工晶体管设计方法，一行行布局，像雕刻艺术品。530亿个晶体管，在TSMC 6纳米工艺的815平方毫米芯片上，既是存储单元，又是计算单元——数据不用搬，因为它就长在计算的地方。

结果呢？跑Llama 3.1 8B模型，HC1速度17000 tokens/秒，英伟达B200才1800 tokens/秒，差了近10倍；功耗200W，是B200的1/10；成本更狠，直接砍到1/20。最绝的是“零批处理”——速度快到每个用户请求实时响应，延迟低到几乎无感。低延迟和低成本，这对行业里的“死对头”，被他硬生生捏在了一起。

三、25人干翻巨头：资源不是优势，聚焦才是生存本能

“25个人，3000万美金，两年半”——这组数字让硅谷大佬坐不住。要知道，英伟达研发一款旗舰GPU，动辄上千人团队，几十亿美金投入。Taalas凭什么？答案藏在Bajic的“减法哲学”里：

在AMD，他做“所有人的GPU”；到Tenstorrent，聚焦“AI通用芯片”；如今Taalas，只啃“单一模型的最优硬件”。越聚焦，效率越恐怖：25人里，14个是硬件工程师，7个软件，剩下4个管商业，没有冗余岗位。连办公室都选在多伦多——远离硅谷的喧嚣，省租金，也省“无效社交”。

更狠的是“快速迭代”。有人质疑：“专属芯片只能跑一个模型，模型更新了怎么办？”Bajic早想好：和TSMC合作“两层金属”方案，换模型只需改芯片里两层金属，从收到权重到量产，两个月搞定。成本？定制一块芯片，大概是模型训练成本的百分之一。“现在企业更在乎模型稳定性，不是天天追新功能。”他赌对了——GPT-4到GPT-5，多少公司宁愿用旧版本，也不想打乱工作流？