打开网易新闻 查看精彩图片

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言

2026年2月,一家名为Taalas的多伦多初创公司,宣布完成1.69亿美元新一轮融资,累计融资约2.19亿美元,并同步亮相其首款芯片HC1。

作者| 方文三

图片来源 |网 络

打开网易新闻 查看精彩图片

Taalas的MSIC路线“炸掉内存墙”

HC1运行Llama 3.1 8B的速度达到惊人的17,000 tokens/秒,是英伟达B200的数十倍,成本却仅为后者的1/20。这场“模型即芯片”的豪赌,撕开了AI算力市场的一道裂痕。

打开网易新闻 查看精彩图片

自1945年冯·诺依曼架构确立以来,计算与存储分离的设计统治了芯片行业八十年——数据需要不断在内存和计算单元之间“搬运”,这道“内存墙”成为AI算力的核心瓶颈。Taalas发明了“Mask ROM recall fabric + SRAM”架构,将Llama 3.1 8B的数十亿参数通过掩模ROM固化在硅片金属层中,同时保留部分SRAM区域用于处理KV缓存和LoRA微调。

打开网易新闻 查看精彩图片

HC1基于台积电6nm工艺,面积815mm²,集成了530亿颗晶体管,功耗仅200W左右,10张卡组成的系统也只需2.5千瓦空气冷却。Taalas CEO Ljubisa Bajic曾是AMD与英伟达架构师,也是明星芯片公司Tenstorrent的创始人,他带领25人团队、仅用3000万美元研发成本,两年半时间造出了这颗“反常识”的芯片。

固化硬件的代价与“刻舟求剑”的风险

上世纪90年代末,3dfx Voodoo显卡曾是3D图形领域的霸主,它将3D渲染的光栅步骤做成“固定管线”刻死在电路中。但到了1999年,当开发者开始探索可编程着色器以实现更丰富的3D效果时,Voodoo因硬件固化无法支持新功能,最终被英伟达GeForce取代,公司走向破产。

打开网易新闻 查看精彩图片

2016-2018年的AI芯片潮中,一大批初创公司针对CNN(卷积神经网络)设计了专门的“卷积加速引擎”,在人脸识别、自动驾驶等图像任务中表现抢眼。但2017年《Attention is All You Need》发布后,Transformer架构彻底改变了AI的底层数学逻辑,那些将CNN固化在芯片里的企业,因缺乏通用矩阵计算能力而黯然退场。

打开网易新闻 查看精彩图片

对比这两个案例可以发现,硬件固化的程度决定了风险等级:Voodoo固化的是渲染管线,虽画面落后但依然能用;CNN芯片固化的是算法,适用场景大幅收窄但仍有价值;而Taalas固化的是特定的模型版本——一旦模型更新,芯片便可能直接沦为“电子垃圾”。模型换了,芯片就是废铁,这种极致绑定让Taalas押注于一个前提:AI算法已经进入“平台期”,架构不再剧烈变化。

专用芯片在垂直场景中的生存逻辑

尽管风险极高,但Taalas并非在追逐一个虚无的梦想。在真实的商业世界里,并非所有场景都需要一个通晓万物的“通用神灵”。大量垂直场景需要的,是一个极其稳定、便宜、速度极快的“电子牛马”,把手头那件事干到极致。

打开网易新闻 查看精彩图片

Taalas的HC1精准命中了三类对延迟敏感、模型版本稳定的应用场景:

企业专用模型:金融、医疗、法律等行业长期使用固定版本的私有化模型,推理成本降至传统方案的1/266,足以让许多此前不可行的AI应用具备商业价值。

边缘推理:人形机器人、自动驾驶汽车、智能手机等设备对实时性要求极高,且无需运行多模型。汽车遇到临时修路等突发状况时,需要低于1毫秒的“本能推理反射”,固化了大模型的专用芯片能实现本地极速响应。

大规模客服:电商、运营商的智能客服常年运行标准化对话模型,HC1的“秒级响应”能显著提升用户体验,同时将运营成本削减90%以上。

这种“互补而非替代”的定位,为Taalas在英伟达的阴影下找到了生存空间。

模型迭代与硬件交付的时间赛跑

然而,定位清晰并不能消除商业模式的核心不确定性——模型迭代周期与芯片开发周期之间的巨大错位。

如今,开源大模型的进化是以“月”甚至“周”为单位的。但一颗先进制程的芯片,从架构设计到流片量产,通常需要18到24个月。当芯片走下产线时,它所“冻结”的模型在日新月异的算法世界里,将沦为“古董”,且一旦固化模型存在致命缺陷,整批芯片只能报废。

打开网易新闻 查看精彩图片

Taalas对此给出的防守策略是“极速物理迭代”。他们与台积电合作开发了“两层金属”方案——改变模型不需要重新设计整个底层硅片,只需更改芯片最上层的两层金属掩模,将新模型的硬件化周期压缩到两个月左右。同时,HC1保留了LoRA微调的支持,企业可以在物理大模型外部挂载小型的“知识补丁”来调整特定任务表现。

打开网易新闻 查看精彩图片

从“通用主导”走向“通用与专用并存”

在推理成为AI算力新主战场的2026年,市场正在从“通用主导”向“通用与专用并存”的分裂格局演进。

英伟达通过200亿美元收购Groq的推理技术,已释放出“通用巨头向专用赛道妥协”的信号。与此同时,Etched选择固化Transformer架构,Groq采用纯SRAM的LPU路线,Cerebras用晶圆级引擎突破内存墙,Tenstorrent拥抱RISC-V的可编程架构——多元技术路线各显神通,共同蚕食着曾经固若金汤的推理市场。

打开网易新闻 查看精彩图片

未来的AI算力版图,或许将呈现“三分天下”的格局:英伟达GPU和通用加速器主导,用于探索AGI的智力边界,处理最复杂、最多变的未知任务;Taalas这类“物理硬化”芯片渗透进每一个路灯、家电、工业机器人中;谷歌TPU、微软Azure Maia等云厂商自研芯片深耕云内部署。

结语:Taalas的HC1证明,当大模型变成像电阻、电容一样廉价且随处可见的电子元器件时,AI真正的大爆发才算拉开大幕。

网络援引:

钛媒体:《1.69亿融资押注专用芯片:Taalas要靠“去GPU化”改写AI算力格局》

维科网:《挑战英伟达算力霸权?多伦多一家创企将大模型“刻进”芯片》

芯智讯:《17000 Tokens/s!48倍碾压英伟达B200!这家把大模型“刻”进芯片的公司,什么来头?》

搜狐:《全球芯片圈炸锅:这个“疯子”把模型刻进硅片,80年架构说废就废 》

本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。

请务必注明:

「姓名 + 公司 + 合作需求」