公众号记得加星标⭐️,第一时间看推送不会错过。

请原谅我先从一个老生常谈的金融术语说起,这个词最近悄然渗入了科技词汇,但我恐怕不得不谈谈“护城河”。几十年前,沃伦·巴菲特推广了这个词,用来指代公司的竞争优势。后来,一份据称从谷歌泄露的备忘录——题为《我们没有护城河,OpenAI也没有》——担忧开源人工智能会摧毁大型科技公司的堡垒,此后,这个词便出现在了硅谷的商业计划书中。

几年过去了,城堡的城墙依然坚固。除了DeepSeek刚出现时引发的短暂恐慌之外,开源人工智能模型并没有在性能上大幅超越专有模型。然而,无论是OpenAI、Anthropic还是谷歌,这些前沿实验室都还没有形成真正意义上的护城河。

真正拥有护城河的公司是英伟达。其首席执行官黄仁勋称之为他最珍贵的“宝藏”。但对于一家芯片公司来说,这并非你想象中的硬件,而是名为CUDA的技术。这种听起来像是被美国食品药品监督管理局(FDA)禁用的化学物质,或许正是人工智能领域真正的护城河。

CUDA 技术上属于它代表统一计算设备架构(Compute Unified Device Architecture),但就像激光或潜水一样,没人会费心去解释这个缩写词;我们只会说“KOO-duh”。那么,这个至关重要的技术究竟有什么用呢?如果非要用一个词来回答,那就是:并行化。

举个简单的例子。假设我们让一台机器填写一个 9×9 的乘法表。使用单核计算机,所有 81 道运算都会逐一执行。但拥有九个核心的 GPU 可以分配任务,让每个核心负责不同的列——一个核心处理 1×1 到 1×9 的运算,另一个核心处理 2×1 到 2×9 的运算,以此类推——速度提升九倍。现代 GPU 甚至可以更智能。例如,如果编程使其能够识别交换律——7×9 = 9×7——它们就可以避免重复工作,将 81 道运算减少到 45 道,几乎将工作量减半。当一次训练运行的成本高达一亿美元时,每一次优化都至关重要。

英伟达的GPU最初是为视频游戏渲染图形而设计的。2000年代初期,一位名叫伊恩·巴克(Ian Buck)的斯坦福大学博士生,最初也是因为玩游戏而接触到GPU,他意识到GPU的架构可以用于通用的高性能计算。他创建了一种名为Brook的编程语言,之后被英伟达聘用,并与约翰·尼科尔斯(John Nickolls)共同领导了CUDA的开发。如果人工智能真的带来了一个永久性的白领底层阶级和自主武器的时代,要知道,这一切都源于某个玩《毁灭战士》(Doom)的人突发奇想,觉得恶魔的阴囊应该以每秒60帧的速度抖动。

CUDA本身并非一种编程语言,而是一个“平台”。我之所以用这个词,是因为,就像《纽约时报》既是报纸又是游戏公司一样,CUDA多年来已经发展成为一个嵌套的AI软件库集合。每个函数都能为单个数学运算节省几纳秒的时间——加起来,它们就能让GPU(用业内术语来说)“飞速运转” 。

现代图形显卡并非只是一块塞满芯片、内存和风扇的电路板。它是由缓存层级结构和被称为“张量核心”和“流式多处理器”的专用单元精心打造而成。从这个意义上讲,芯片公司销售的产品就像一个专业厨房,而更多的核心就如同更多的烧烤台。但即便拥有30个烧烤台的厨房,如果没有一位能干的主厨巧妙地分配任务,运转速度也不会更快——就像CUDA之于GPU核心那样。

进一步来说,那些针对单一矩阵运算进行优化的手工调校的 CUDA 库,就好比是只能完成一项任务的厨房工具——比如樱桃去核器、虾线去除器——对于家庭厨师来说或许是锦上添花,但如果你要处理上万只虾的内脏,那就完全是浪费了。这就引出了 DeepSeek。它的工程师们突破了这层原本就很深的抽象层,直接使用 PTX 进行开发,PTX 是一种用于英伟达 GPU 的汇编语言。假设任务是剥蒜。未经优化的 GPU 会发出这样的指令:“用指甲剥蒜皮。” CUDA 可以发出这样的指令:“用刀背拍碎蒜瓣。” 而 PTX 则允许你定义每一个子指令:“将刀刃抬离砧板 2.35 英寸,使其与蒜瓣的赤道平行,然后用手掌向下拍打,力度为 36.2 牛顿。”

你现在应该明白为什么 CUDA 对英伟达如此重要,而对其他公司来说又如此难以企及了。GPU 性能调优是个棘手的问题。你不能随便找个在市场街混迹的毛头小子,给他一份 Claude Max 的方案,就指望他能搞定 GPU 内核。编写这种级别的代码是一项极其艰巨的任务——除非你是 DeepSeek 的顶尖程序员。

在之前的“机器可读性”专栏中,我对所分析的语言都已相当熟悉。但这次并非如此。为了保持这一标准,我决定花一天时间学习 CUDA。结果,我整个下午都耗在了上面。

在流行的机器学习框架 PyTorch 中,一个简单的矩阵乘法通常只需三行代码就能完成,但在 CUDA 中却需要五十多行代码。事实证明,榨干性能的最后一滴油水是一项令人钦佩却又极其繁琐的工作。试探过后,我可以负责任地说,这护城河确实深不可测。

CUDA 的统治地位不仅建立在其生态系统的卓越品质之上,更源于其强大的厂商锁定效应。由于现代机器学习框架都基于 CUDA 构建,而 CUDA 又主要运行在英伟达芯片上,因此即使 AMD 的芯片拥有更多的核心和显存,其性能仍然逊色。仅仅根据规格参数来比较芯片,就好比仅仅根据气缸数量来比较赛车,而真正的性能只能在赛道上才能体现。

第二点需要说明的是:我原本打算测试两款芯片,但如果同时购买Nvidia H100和AMD MI300X,肯定会被康泰纳仕集团列入黑名单。所以,你们只能相信独立研究人员的说法,他们发现即使AMD的纸面参数更好,但实际性能却不如Nvidia。

英伟达在软件方面的优势可能在于,与其他芯片公司不同,它雇佣的软件工程师比硬件工程师还要多。如果我是AMD的负责人,我或许也会效仿。(不过谁会问我呢?)

每年都有这些新兴的竞争者试图打破英伟达的护城河,最终却只能被其吞噬。OpenCL 是一个由包括苹果、AMD 和高通在内的联盟支持的开放标准,它就像是 CUDA 之于 iOS 的失败版 Android,几乎没有获得任何发展。

与此同时,AMD 针对 CUDA 推出的 ROCm 版本,名字比 CUDA 更糟糕——难道要读作“rock cum”吗?(别想着招更多程序员了,赶紧换个市场营销团队吧。)ROCm 也饱受 bug 和兼容性问题的困扰,以至于它的 Reddit 子版块看起来就像个求助论坛。

别忘了英特尔。虽然很容易把它看作是一家日渐衰落的芯片制造商,但它近期的历史表明,它也是一家日渐衰落的软件公司。为了挽回颜面,它推出了 oneAPI,但到了 2026 年,我们完全可以肯定 CUDA 仍然占据主导地位。如果说有什么挑战者,那就是由克里斯·拉特纳 (Chris Lattner) 领导的Modular,这位传奇语言设计师的代表作包括苹果的 Swift 和 LLVM。

但公开的秘密是,就像理论物理学家连换轮胎都不会一样,大多数人工智能研究人员甚至连一行C++代码都写不出来。优秀的GPU内核工程师寥寥无几,而且其中许多人都在英伟达工作。早在人工智能研究人员开始利用影响力牟利之前,这些工程师就默默无闻地从事CUDA的研发工作。即使是那些值得信赖的编码助手,编写内核代码也仍然磕磕绊绊。

最终,英伟达或许更接近苹果,而非AMD或英特尔。它之所以成为一家伟大的硬件公司,是因为它本质上是一家软件公司。苹果对抗安卓的护城河从来不仅仅是iPhone,而是整个生态系统:iOS、App Store及其开发者。诚然,你可以把三星Galaxy对折,但你真的想用三星支付吗?与此同时,整个行业恐怕不得不忍受英伟达高昂的价格。

(来源:编译自wired)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4404内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐