人形机器人有了“真大脑”? Taalas把大模型直接写进芯片里|gpu|taalas|人工智能模型|人形机器人|大模型|英伟达

近日，加拿大初创公司Taalas 推出了一款 AI 推理芯片 HC1，这家成立尚不足三年的企业，凭借将 8B 轻量化大模型直接 “刻” 在芯片上的创新设计，让 HC1 的运行速度在行业中脱颖而出，在输出速度和极致的成本和功耗控制上直接甩开了英伟达的GPU产品。

很多人对Taalas 或许并不熟悉，这家公司成立于 2023 年，创始人 Ljubisa Bajic 同时也是加拿大知名AI芯片公司 Tenstorrent 的创始人，他曾先后在英伟达、AMD 担任高级架构师，一手打造过 CPU-GPU 混合芯片。

而Taalas的核心团队更是堪称芯片圈的 “梦之队”，25 名员工大多来自 AMD、苹果、谷歌等科技大厂，拥有从芯片设计到系统落地的全流程实战经验。背靠这样的技术团队，Taalas 仅投入 3000 万美元研发成本，耗时 60 天就完成了 HC1 的生产落地，推出了这款足以挑战行业现有规则的产品。

截至目前，Taalas 累计融资已超 2 亿美元，账上仍有 1.7 亿美元现金储备，为后续发展奠定了充足的资金基础

最快AI芯片？

HC1 最令人惊叹的，莫过于其极致的推理速度。

这款采用台积电6nm 工艺的芯片，在单用户场景下推理速度高达 17000 token/秒。作为对比，英伟达 H200 芯片推理速度为 230 token/秒，其最新 Blackwell 架构的 B200 也不过 2000 token/秒。有测试者在 Taalas 的体验网站 chatjimmy.ai 实际操作后表示，该模型的回复速度极快，基本在敲下回车的瞬间，答案就能出现在对话框中。

HC1 能实现如此快的推理反应，核心源于 Taalas 独树一帜的技术思路。

研发团队抛弃了传统 GPU “计算与存储分离” 的经典架构，采用了存算一体式的设计方案，通过 Mask ROM 工艺将 Llama 3.1 8B 的模型权重直接编码在芯片的金属互连层中，让模型权重与计算逻辑共存于同一块硅片。这种设计彻底消除了数据搬运过程中的延迟与能耗损耗，芯片也无需搭配外部 DRAM 或 HBM，仅保留一小块 SRAM 以提供最基础的灵活性。

传统GPU 进行运算时，需要从 HBM 显存中反复搬运数据，这一过程会消耗大量能耗和时间，也是行业普遍面临的 “内存墙” 问题；而 HC1 无需数据搬运，只需让数据流过电路就能完成推理，运算效率自然实现了质的飞跃。

为了实现芯片的快速定制，Taalas 还借鉴了 2000 年代结构化 ASIC 的设计思路，将芯片定制周期从原本的六个月压缩至两个月。

在针对新模型进行芯片定制时，仅需更换两层掩模，从拿到新模型到生成描述文件仅需一周的工程工作量，这种高效的定制能力，是Taalas 未来更新节奏的核心支撑。

除了速度优势，HC1 的成本和功耗表现同样亮眼：单片芯片的制造成本仅 300-400 美元，量产后的零售价预估在 600-700 美元，采用该芯片的推理综合成本仅为传统 GPU 方案的 1/20；芯片功耗仅 2.5 千瓦，十颗芯片组成的服务器仅需普通风冷就能实现散热，无需搭建复杂的液冷系统，相较 GPU 方案功耗降低了 90%，而未来的量产款芯片，速度还将进一步提升。

发布即落后？

为了追求极致效率放弃了硬件通用性，HC1的设计也带来了致命缺陷：一颗 HC1 芯片只能运行一个特定模型，若要更换模型，就必须重新设计并制造芯片。在 AI 模型以月为单位快速迭代的当下，这种 “专芯专模” 的模式面临着极高的技术过时风险。

值得注意的是，HC1 正式公布时，Llama 3.1 模型已经发布了近两年，而同期 OpenAI、Anthropic 等头部企业的大模型已迭代至 GPT-5.2、Claude 4.6 版本。尽管 Taalas 承诺从拿到新模型到完成芯片定制仅需两个月周期，但市场仍对其提出质疑，为何不选择更前沿的 DeepSeek R1 模型进行产品演示。

除了难以跟上大模型的更新速度，HC1 自身还存在诸多局限性。为了将 8B 参数的模型完整塞进单颗芯片，HC1 采用了自定义的 3-bit 基础数据类型，并结合 3-bit 和 6-bit 的混合精度量化技术。

Taalas 官方也承认，这种技术方案会导致模型在质量基准测试中出现性能退化，在复杂数学运算、专业论文解读等需要深层逻辑推理的场景中，HC1 的表现明显逊于英伟达 GPU。

尽管公司已计划在第二代产品 HC2 中，改用标准 4-bit 浮点格式来改善这一问题，但第一代 HC1 在推理正确率上的短板已是既定事实。

不少用户在测试时发现，这款芯片不仅连简单的运算都会出现错误，面对一些复杂问题时，更是会出现胡编乱造的情况。

此外，受硅片面积的限制，单颗HC1 能容纳的模型参数规模有限，面对万亿参数级的前沿大模型，必须采用多芯片协同的方案才能运行。

以DeepSeek R1 671B 模型为例，想要实现其推理运算，需要 30 颗 HC1 协同工作，这不仅会带来一系列互联上的设计难题，流片的成本和时间也会同时增加。对于追求技术快速迭代的互联网企业和 AI 创业公司而言，这样的效率反倒不如多加一块 GPU来得靠谱。

最后就是Taalas的商业模式的不确定性，目前 Taalas 探索了三种商业落地路径，分别是“自建 API”、“直接出售芯片”、“与模型开发者合作定制芯片”，但这三种路径均依赖于客户对特定模型的需求。

而在当前快速变化的AI 市场中，即便是科技大厂，也不敢轻易做出这样的长期承诺。历史上比特币挖矿 ASIC 的军备竞赛早已证明，在技术快速迭代的领域，专用硬件极易陷入 “发布即过时” 的发展困境。

结语

从行业发展格局来看，HC1 的出现并非为了取代 GPU，而是填补了通用算力与极致效率之间的市场空白，也为大模型的落地提供一个全新思路。

Taalas 产品副总裁 Paresh Kharya 曾明确表示：“为模型定制的最优硅片不会取代满是 GPU 的大型数据中心，但它会适配特定的应用场景。” 在智能客服、人形机器人等对响应延迟敏感、模型版本相对稳定的场景中，HC1 的性能与成本优势就会体现出来。

目前，Taalas 已制定了明确的产品规划，计划在 2026 年推出支持 70B 大模型的芯片，同时还在探索通过 LoRA 微调技术优化固化在芯片中的模型。