打开网易新闻 查看精彩图片

【摘要】在生成式AI浪潮席卷全球的背景下,算力已经成为互联网公司最重要的战略资源之一。

围绕字节跳动的芯片布局,一条“自研+外采”的双轨路径正在逐渐清晰:一方面是内部多类AI芯片持续推进研发,另一方面则是对全球高端GPU算力的大规模采购。

相比单纯依赖第三方芯片厂商,字节跳动显然希望在算力层面获得更多主动权。

但在NVIDIA等芯片巨头形成强大生态壁垒的情况下,这场自研与外采并行的尝试,究竟意味着什么?

以下是正文:

01

从内容审核到AI算力:字节跳动自研芯片的真实起点

与许多互联网公司不同,字节跳动的芯片布局并非直接围绕大模型展开,而是从内容平台的推理算力需求切入。

随着短视频平台规模不断扩大,抖音和TikTok每天需要处理海量视频、图片和文本内容,其中相当一部分涉及违规识别、内容审核和风险控制。

这类任务虽然计算密集,但算法相对固定,非常适合通过专用AI推理芯片进行加速。相比通用GPU,自研专用芯片可以在功耗和成本上获得更高效率。

据业内人士透露,字节目前已经在内部数据中心部署自研AI芯片,用于内容识别和审核等推理任务。

过去平台主要采用“系统初筛+人工复核”的模式,大量审核工作依赖人工完成,而随着AI推理能力提升,部分流程已经可以由算法自动处理。

在这一基础上,字节逐渐扩展芯片研发范围,目前公司内部推进的芯片项目至少包括AI芯片、服务器CPU、VPU以及DPU等多个方向。

VPU主要用于视频编解码和视频处理加速,这与字节以短视频为核心的业务结构高度契合;DPU则主要面向数据中心网络与存储加速,是云计算基础设施的重要组件。

与此同时,字节也在探索更通用的计算芯片。相关人士透露,其AI芯片已经迭代至第三代产品,早期版本主要针对特定服务器场景设计,并未采用CUDA架构,而新一代产品则预计做CUDA架构。

在组织层面,字节在芯片领域的投入规模也不小。

据《金融时报》披露,字节跳动2026年计划投入AI领域的资金高达1600亿元,其中850亿元将专项用于AI处理器的采购与研发。

不过,从整体技术路线来看,字节目前的自研芯片仍然主要集中在推理侧和特定业务场景。在训练芯片领域,公司依然高度依赖外部供应商。

02

GPU生态的现实壁垒:字节跳动为何仍然大量外采

在大模型时代,训练算力的需求远远超过传统互联网应用,这也是字节仍然大量依赖第三方芯片的主要原因。

当前全球AI训练算力市场几乎被英伟达所主导。

其H100 GPU等已经成为大型语言模型训练的核心硬件平台,而CUDA软件生态则进一步强化了这一优势。

H100 Tensor Core GPU提供3958 teraFLOPS的AI性能,更重要的是,它无需修改即可运行整个PyTorch和TensorFlow协议栈。

包括OpenAI、微软和Meta在内的AI机构,都在大规模使用NVIDIA GPU进行模型训练。

字节跳动同样是全球GPU算力的重要采购方,随着推荐算法、搜索系统以及生成式AI模型规模不断扩大,公司对高性能计算资源的需求持续增长。其云计算业务火山引擎近年来持续扩建AI算力基础设施,以支持模型训练和推理服务。

除了NVIDIA之外,多家芯片厂商也在试图挑战GPU市场格局,并在AI训练与推理市场展开竞争。

其中,AMD近年来在数据中心AI芯片领域加速追赶。

其MI300X架构将CPU和GPU集成在同一封装上,拥有1530亿个晶体管和5.3TB/s的内存带宽,提供192GB的HBM3内存(比H100多2.4倍)。

MI300系列被视为AMD在AI时代最重要的产品,目标直指NVIDIA的H100市场。

与此同时,英特尔则通过Gaudi系列AI加速器切入这一市场。

Gaudi2与Gaudi3芯片强调成本效率,并采用开放软件栈SynapseAI,试图在大型AI集群部署中提供更具性价比的替代方案。与传统GPU相比,Gaudi架构更加针对深度学习训练场景进行优化。

打开网易新闻 查看精彩图片

图源:腾讯新闻

在中国市场,AI算力芯片竞争同样日趋激烈。

华为推出昇腾系列AI处理器,其中昇腾910被广泛应用于国产AI训练平台。根据新浪财经,业界估测910C在FP16精度下的单卡算力能达到800 TFLOPS左右,大概是英伟达H100 芯片(2022年推出)的80%。

寒武纪则推出思元系列AI芯片,主要面向云端推理与训练服务器市场,2022-2024年,其MLU370-X8及思元590芯片已与智象未来、百川智能等大模型客户适配,进入生成式AI算力供应链。

与此同时,多家创业公司也在布局AI算力赛道。

壁仞科技推出BR100等GPU产品,试图在通用AI计算领域挑战传统GPU架构;燧原科技则开发邃思系列AI芯片,重点面向数据中心训练与推理市场。

在这一竞争格局下,全球AI芯片市场逐渐形成多条技术路线:既有NVIDIA主导的CUDA GPU生态,也有AMD、Intel等厂商推动的替代方案,同时中国厂商则试图构建本土AI算力体系。

不过,与这些芯片厂商不同,字节自研芯片并不追求通用市场,而是更多服务于内部业务。

这种模式意味着字节不必从一开始就挑战NVIDIA的生态体系,而可以在推理和特定场景中逐步积累技术能力。

因此,在未来相当长一段时间内,“训练依赖GPU、推理逐步自研”很可能仍然是字节跳动的主要算力策略。

03

全球互联网公司造芯潮:字节跳动处在什么位置

字节跳动并不是唯一尝试自研芯片的互联网公司。

事实上,过去十多年间,随着云计算与人工智能的发展,全球大型科技公司几乎都在布局自研AI芯片,希望在关键算力资源上获得更多控制权。

最早进行这一尝试的是谷歌。早在2016年,谷歌就推出了专门用于机器学习任务的TPU(Tensor Processing Unit),并持续迭代至TPU v4、TPU v5等多个版本。

TPU是谷歌为加速机器学习任务而设计的专用集成电路(ASIC),TPU的成功不仅显著降低了其内部AI计算成本,也证明互联网公司完全有能力在特定场景设计高性能AI芯片。

随后,亚马逊也在其云计算平台AWS中推出了多款自研AI芯片。

其中Inferentia主要面向机器学习推理任务,而Trainium则面向大规模生成式AI模型训练与推理。这些芯片被广泛部署在AWS云服务器中,以降低AI计算成本并提升平台竞争力。

在中国市场,互联网公司同样开始探索自研算力体系。

阿里巴巴旗下平头哥半导体推出含光系列AI芯片,其中含光800曾被应用于阿里云数据中心的视频处理与推荐系统中。

通过自研芯片,阿里希望在电商搜索及云计算AI服务等业务中降低算力成本。

从全球经验来看,互联网公司造芯往往并非只是为了成为传统意义上的半导体厂商,而是为了优化自身核心业务的算力结构。

随着AI模型规模持续扩大,算力成本逐渐成为平台运营的重要变量,通过自研芯片,互联网公司可以在部分场景中降低成本,同时减少对外部供应商的依赖。

但与此同时,芯片产业本身具有极高技术门槛,从架构设计到制造工艺,再到软件生态建设,每一个环节都需要长期积累。

因此,从全球范围来看,互联网公司自研芯片往往与第三方芯片厂商形成互补关系:通用训练芯片依赖成熟供应商,而特定场景则通过定制芯片实现效率优化。

对于字节跳动而言,这种模式或许也是最现实的路径。

04

尾声

芯片从来不仅是简单的硬件采购问题,更象征了算力主权与产业话语权。

字节跳动选择在自研与外采之间寻找平衡,本质上是一种风险分散与能力积累的策略。

当AI模型规模继续膨胀,算力成为真正的生产资料,谁能在生态锁定与自主可控之间找到最佳区间,谁就可能掌握未来主动权。

字节的芯片棋局远未落子成局,真正的拐点,也许会在下一代架构成熟时显现。