近日,加拿大初创公司Taalas 推出了一款 AI 推理芯片 HC1,这家成立尚不足三年的企业,凭借将 8B 轻量化大模型直接 “刻” 在芯片上的创新设计,让 HC1 的运行速度在行业中脱颖而出,在输出速度和极致的成本和功耗控制上直接甩开了英伟达的GPU产品。
很多人对Taalas 或许并不熟悉,这家公司成立于 2023 年,创始人 Ljubisa Bajic 同时也是加拿大知名AI芯片公司 Tenstorrent 的创始人,他曾先后在英伟达、AMD 担任高级架构师,一手打造过 CPU-GPU 混合芯片。
而Taalas的核心团队更是堪称芯片圈的 “梦之队”,25 名员工大多来自 AMD、苹果、谷歌等科技大厂,拥有从芯片设计到系统落地的全流程实战经验。背靠这样的技术团队,Taalas 仅投入 3000 万美元研发成本,耗时 60 天就完成了 HC1 的生产落地,推出了这款足以挑战行业现有规则的产品。
截至目前,Taalas 累计融资已超 2 亿美元,账上仍有 1.7 亿美元现金储备,为后续发展奠定了充足的资金基础
最快AI芯片?
HC1 最令人惊叹的,莫过于其极致的推理速度。
这款采用台积电6nm 工艺的芯片,在单用户场景下推理速度高达 17000 token/秒。作为对比,英伟达 H200 芯片推理速度为 230 token/秒,其最新 Blackwell 架构的 B200 也不过 2000 token/秒。有测试者在 Taalas 的体验网站 chatjimmy.ai 实际操作后表示,该模型的回复速度极快,基本在敲下回车的瞬间,答案就能出现在对话框中。
HC1 能实现如此快的推理反应,核心源于 Taalas 独树一帜的技术思路。
研发团队抛弃了传统 GPU “计算与存储分离” 的经典架构,采用了存算一体式的设计方案,通过 Mask ROM 工艺将 Llama 3.1 8B 的模型权重直接编码在芯片的金属互连层中,让模型权重与计算逻辑共存于同一块硅片。这种设计彻底消除了数据搬运过程中的延迟与能耗损耗,芯片也无需搭配外部 DRAM 或 HBM,仅保留一小块 SRAM 以提供最基础的灵活性。
传统GPU 进行运算时,需要从 HBM 显存中反复搬运数据,这一过程会消耗大量能耗和时间,也是行业普遍面临的 “内存墙” 问题;而 HC1 无需数据搬运,只需让数据流过电路就能完成推理,运算效率自然实现了质的飞跃。
为了实现芯片的快速定制,Taalas 还借鉴了 2000 年代结构化 ASIC 的设计思路,将芯片定制周期从原本的六个月压缩至两个月。
在针对新模型进行芯片定制时,仅需更换两层掩模,从拿到新模型到生成描述文件仅需一周的工程工作量,这种高效的定制能力,是Taalas 未来更新节奏的核心支撑。
除了速度优势,HC1 的成本和功耗表现同样亮眼:单片芯片的制造成本仅 300-400 美元,量产后的零售价预估在 600-700 美元,采用该芯片的推理综合成本仅为传统 GPU 方案的 1/20;芯片功耗仅 2.5 千瓦,十颗芯片组成的服务器仅需普通风冷就能实现散热,无需搭建复杂的液冷系统,相较 GPU 方案功耗降低了 90%,而未来的量产款芯片,速度还将进一步提升。
发布即落后?
为了追求极致效率放弃了硬件通用性,HC1的设计也带来了致命缺陷:一颗 HC1 芯片只能运行一个特定模型,若要更换模型,就必须重新设计并制造芯片。在 AI 模型以月为单位快速迭代的当下,这种 “专芯专模” 的模式面临着极高的技术过时风险。
值得注意的是,HC1 正式公布时,Llama 3.1 模型已经发布了近两年,而同期 OpenAI、Anthropic 等头部企业的大模型已迭代至 GPT-5.2、Claude 4.6 版本。尽管 Taalas 承诺从拿到新模型到完成芯片定制仅需两个月周期,但市场仍对其提出质疑,为何不选择更前沿的 DeepSeek R1 模型进行产品演示。
除了难以跟上大模型的更新速度,HC1 自身还存在诸多局限性。为了将 8B 参数的模型完整塞进单颗芯片,HC1 采用了自定义的 3-bit 基础数据类型,并结合 3-bit 和 6-bit 的混合精度量化技术。
Taalas 官方也承认,这种技术方案会导致模型在质量基准测试中出现性能退化,在复杂数学运算、专业论文解读等需要深层逻辑推理的场景中,HC1 的表现明显逊于英伟达 GPU。
尽管公司已计划在第二代产品 HC2 中,改用标准 4-bit 浮点格式来改善这一问题,但第一代 HC1 在推理正确率上的短板已是既定事实。
不少用户在测试时发现,这款芯片不仅连简单的运算都会出现错误,面对一些复杂问题时,更是会出现胡编乱造的情况。
此外,受硅片面积的限制,单颗HC1 能容纳的模型参数规模有限,面对万亿参数级的前沿大模型,必须采用多芯片协同的方案才能运行。
以DeepSeek R1 671B 模型为例,想要实现其推理运算,需要 30 颗 HC1 协同工作,这不仅会带来一系列互联上的设计难题,流片的成本和时间也会同时增加。对于追求技术快速迭代的互联网企业和 AI 创业公司而言,这样的效率反倒不如多加一块 GPU来得靠谱。
最后就是Taalas的商业模式的不确定性,目前 Taalas 探索了三种商业落地路径,分别是“自建 API”、“直接出售芯片”、“与模型开发者合作定制芯片”,但这三种路径均依赖于客户对特定模型的需求。
而在当前快速变化的AI 市场中,即便是科技大厂,也不敢轻易做出这样的长期承诺。历史上比特币挖矿 ASIC 的军备竞赛早已证明,在技术快速迭代的领域,专用硬件极易陷入 “发布即过时” 的发展困境。
结语
从行业发展格局来看,HC1 的出现并非为了取代 GPU,而是填补了通用算力与极致效率之间的市场空白,也为大模型的落地提供一个全新思路。
Taalas 产品副总裁 Paresh Kharya 曾明确表示:“为模型定制的最优硅片不会取代满是 GPU 的大型数据中心,但它会适配特定的应用场景。” 在智能客服、人形机器人等对响应延迟敏感、模型版本相对稳定的场景中,HC1 的性能与成本优势就会体现出来。
目前,Taalas 已制定了明确的产品规划,计划在 2026 年推出支持 70B 大模型的芯片,同时还在探索通过 LoRA 微调技术优化固化在芯片中的模型。
若能在后续发展中突破现有架构的限制,Taalas 或许真的能推动行业进入新的发展阶段。
记得星标微信公众号:镁客网(im2maker),更多干货在等你
热门跟贴