趋势丨把大模型刻进AI芯片，极致构思背后看迭代周期博弈|大模型|算法|英伟达|迭代周期

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

2026年2月，一家名为Taalas的多伦多初创公司,宣布完成1.69亿美元新一轮融资，累计融资约2.19亿美元，并同步亮相其首款芯片HC1。

作者| 方文三

图片来源 |网络

Taalas的MSIC路线“炸掉内存墙”

HC1运行Llama 3.1 8B的速度达到惊人的17,000 tokens/秒，是英伟达B200的数十倍，成本却仅为后者的1/20。这场“模型即芯片”的豪赌，撕开了AI算力市场的一道裂痕。

自1945年冯·诺依曼架构确立以来，计算与存储分离的设计统治了芯片行业八十年——数据需要不断在内存和计算单元之间“搬运”，这道“内存墙”成为AI算力的核心瓶颈。Taalas发明了“Mask ROM recall fabric + SRAM”架构，将Llama 3.1 8B的数十亿参数通过掩模ROM固化在硅片金属层中，同时保留部分SRAM区域用于处理KV缓存和LoRA微调。

HC1基于台积电6nm工艺，面积815mm²，集成了530亿颗晶体管，功耗仅200W左右，10张卡组成的系统也只需2.5千瓦空气冷却。Taalas CEO Ljubisa Bajic曾是AMD与英伟达架构师，也是明星芯片公司Tenstorrent的创始人，他带领25人团队、仅用3000万美元研发成本，两年半时间造出了这颗“反常识”的芯片。

固化硬件的代价与“刻舟求剑”的风险

上世纪90年代末，3dfx Voodoo显卡曾是3D图形领域的霸主，它将3D渲染的光栅步骤做成“固定管线”刻死在电路中。但到了1999年，当开发者开始探索可编程着色器以实现更丰富的3D效果时，Voodoo因硬件固化无法支持新功能，最终被英伟达GeForce取代，公司走向破产。

2016-2018年的AI芯片潮中，一大批初创公司针对CNN（卷积神经网络）设计了专门的“卷积加速引擎”，在人脸识别、自动驾驶等图像任务中表现抢眼。但2017年《Attention is All You Need》发布后，Transformer架构彻底改变了AI的底层数学逻辑，那些将CNN固化在芯片里的企业，因缺乏通用矩阵计算能力而黯然退场。

对比这两个案例可以发现，硬件固化的程度决定了风险等级：Voodoo固化的是渲染管线，虽画面落后但依然能用；CNN芯片固化的是算法，适用场景大幅收窄但仍有价值；而Taalas固化的是特定的模型版本——一旦模型更新，芯片便可能直接沦为“电子垃圾”。模型换了，芯片就是废铁，这种极致绑定让Taalas押注于一个前提：AI算法已经进入“平台期”，架构不再剧烈变化。

专用芯片在垂直场景中的生存逻辑

尽管风险极高，但Taalas并非在追逐一个虚无的梦想。在真实的商业世界里，并非所有场景都需要一个通晓万物的“通用神灵”。大量垂直场景需要的，是一个极其稳定、便宜、速度极快的“电子牛马”，把手头那件事干到极致。

Taalas的HC1精准命中了三类对延迟敏感、模型版本稳定的应用场景：

企业专用模型：金融、医疗、法律等行业长期使用固定版本的私有化模型，推理成本降至传统方案的1/266，足以让许多此前不可行的AI应用具备商业价值。

边缘推理：人形机器人、自动驾驶汽车、智能手机等设备对实时性要求极高，且无需运行多模型。汽车遇到临时修路等突发状况时，需要低于1毫秒的“本能推理反射”，固化了大模型的专用芯片能实现本地极速响应。

大规模客服：电商、运营商的智能客服常年运行标准化对话模型，HC1的“秒级响应”能显著提升用户体验，同时将运营成本削减90%以上。

这种“互补而非替代”的定位，为Taalas在英伟达的阴影下找到了生存空间。

模型迭代与硬件交付的时间赛跑

然而，定位清晰并不能消除商业模式的核心不确定性——模型迭代周期与芯片开发周期之间的巨大错位。

如今，开源大模型的进化是以“月”甚至“周”为单位的。但一颗先进制程的芯片，从架构设计到流片量产，通常需要18到24个月。当芯片走下产线时，它所“冻结”的模型在日新月异的算法世界里，将沦为“古董”，且一旦固化模型存在致命缺陷，整批芯片只能报废。

Taalas对此给出的防守策略是“极速物理迭代”。他们与台积电合作开发了“两层金属”方案——改变模型不需要重新设计整个底层硅片，只需更改芯片最上层的两层金属掩模，将新模型的硬件化周期压缩到两个月左右。同时，HC1保留了LoRA微调的支持，企业可以在物理大模型外部挂载小型的“知识补丁”来调整特定任务表现。

从“通用主导”走向“通用与专用并存”

在推理成为AI算力新主战场的2026年，市场正在从“通用主导”向“通用与专用并存”的分裂格局演进。

英伟达通过200亿美元收购Groq的推理技术，已释放出“通用巨头向专用赛道妥协”的信号。与此同时，Etched选择固化Transformer架构，Groq采用纯SRAM的LPU路线，Cerebras用晶圆级引擎突破内存墙，Tenstorrent拥抱RISC-V的可编程架构——多元技术路线各显神通，共同蚕食着曾经固若金汤的推理市场。