打开网易新闻 查看精彩图片

哈喽,大家好,今天小墨这篇评论,主要来分析英伟达CUDA 13.1升级真相,是让利还是暗藏陷阱。

英伟达近期放出重磅消息,CUDA 13.1正式亮相,黄仁勋直言这是该平台二十年最大升级。按官方说法,如今用十五行Python代码,就能完成过去两百行C++才能搞定的工作,连数据科学家都能轻松编写GPU内核。

打开网易新闻 查看精彩图片

这事儿确实透着古怪,要知道英伟达本是靠“卖铲子”起家的企业,如今却主动降低挖矿门槛,说不用练肌肉摇两下就行。这波操作到底藏着什么门道,咱们今天就好好扒一扒。

打开网易新闻 查看精彩图片

在过去的二十年里,CUDA编程可不是件轻松事,完全就是个体力活。开发者得手动管理线程索引、线程块和共享内存布局,还要处理线程同步问题。要是想用上Tensor Core这种高级硬件,没个HPC老炮儿的功底根本不行。

打开网易新闻 查看精彩图片

这就像开手动挡赛车,每个档位的切换、每次离合的控制都得自己精准操作,操作好了能尽显实力,可一旦失误,程序就可能直接崩溃。业内资深程序员都知道,想把CUDA的性能完全发挥出来,往往要耗费大量时间调试优化。

而CUDA能成为英伟达的核心壁垒,关键就在于这层高门槛。几百万程序员花了十几年攒下的代码墙,深入骨髓的SIMT编程思维惯性,都是AMD和Intel做梦都想复制的生态粘性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

现在CUDA Tile技术横空出世,直接告诉开发者不用再费劲了。只需把数据当成瓦片摆放好,写几行Python代码,剩下的工作全由编译器代劳。这听起来就像从手动挡直接升级成了自动驾驶,让不少开发者直呼过瘾。

但问题恰恰出在这里,方向盘看似还在自己手里,实际上早已和英伟达的云端服务器紧紧相连。

打开网易新闻 查看精彩图片

芯片界传奇人物Jim Keller第一时间就跳出来质问,怀疑英伟达是不是在亲手终结自己的护城河。这位曾主导AMD Zen和苹果A系列芯片设计的大佬,一眼就看穿了这背后的本质。

Jim Keller在X平台发帖称,要是英伟达转向瓦片架构,而其他硬件厂商也走同样的路线,AI内核将会更容易移植。可事实并非表面那么简单,英伟达只是把原来的代码墙拆了,转而换成了一套叫Tile IR的虚拟指令集。

有个真实案例很能说明问题,国内某中型AI企业前段时间尝试用CUDA 13.1的Tile技术开发模型。团队原本担心学习成本太高,可上手后发现Python编写流程确实丝滑,短短一周就完成了原本需要一个月的内核开发工作。

打开网易新闻 查看精彩图片

可等他们想把代码迁移到备用的AMD显卡上时却傻了眼,大部分功能直接失效,根本无法正常运行。

原来Tile IR是英伟达在硬件和软件之间加的一层“中间层”,虽然这层中间层是开源的,但本质上是为了让所有人都来它的地盘上盖房子。你用Python写得越爽,就被锁得越死,这就是商业上典型的请君入瓮。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

英伟达在Blackwell架构上,把Tensor Core、张量内存加速器这些硬件全部做了抽象化处理。开发者写代码时完全感觉不到它们的存在,听起来确实很爽,但代价是这些代码只能在英伟达的GPU上运行,而且必须是Blackwell及以后的架构。

目前CUDA Tile仅支持计算能力10.x和12.x的Blackwell系列,老显卡用户只能继续手写CUDA C++代码。更关键的是,CUDA 13.1里还加入了Green Context功能,能精细划分GPU资源,把SM切给不同任务。

打开网易新闻 查看精彩图片

国内某云服务商就遇到了这种情况,为了满足客户的混合负载需求,他们尝试用Green Context做资源隔离。一开始效果确实不错,资源利用率提升了不少,但后续想更换部分非英伟达显卡时却发现,整个系统已经深度依赖这套资源隔离方案,迁移成本高到难以承受。

不可否认的是,CUDA 13.1的性能提升是实打实的,MoE场景下Grouped GEMM API能加速四倍,cuSOLVER批处理特征分解在RTX PRO 6000上比L40S快两倍。

打开网易新闻 查看精彩图片

但这些优化全是给Blackwell量身定制的,老架构根本享受不到。英伟达不是在卖软件,而是在用软件当诱饵,逼着用户换硬件。

英伟达的这波操作绝非自毁长城,而是在构建更深的生态壁垒。对于国内行业而言,这既是警示也是机遇,倒逼我们加快自主并行计算平台的建设。

相信随着技术的不断突破,我们终将摆脱对单一厂商的依赖,走出属于自己的发展之路。