打开网易新闻 查看精彩图片

2023年,一台M2 Ultra Mac Pro顶配卖7万块,现在官网直接404。苹果把这条产品线连根拔起的同时,悄悄给外接显卡开了绿灯——不是给游戏,是给AI。

TinyCorp的驱动过审那天,创始人George Hotz在X上发了条消息:「如果你有雷电或USB4外接显卡盒,今天就是你们等了三年的那天。」

这句话的潜台词很直白:苹果终于承认,自家芯片的AI算力天花板,靠插显卡能捅破。

从"不支持"到"官方认证":苹果态度的180度转弯

从"不支持"到"官方认证":苹果态度的180度转弯

Apple Silicon(苹果自研芯片)刚发布时,外接显卡(eGPU,External Graphics Processing Unit,外部图形处理器)就被判了死刑。M1芯片的架构设计把PCIe通道锁死,雷电口只能传数据,不能跑显卡。

用户想插个AMD显卡打游戏?系统直接不认。想绕过限制?得关掉SIP(System Integrity Protection,系统完整性保护),相当于给Mac敞开后门,风险自担。

这次过审的TinyGPU驱动走的完全是另一条路。它不碰图形输出,专攻AI计算——你的显示器还是接在Mac上,但训练模型、跑大语言模型的活,全扔给外接的Nvidia或AMD卡。

支持名单很具体:macOS 12.1及以上,雷电3/4或USB4接口,AMD RDNA3代起(RX 7000系列),Nvidia Ampere架构起(RTX 30系列)。

AMD卡可以原生运行,Nvidia卡需要搭Docker Desktop走NVCC(Nvidia CUDA Compiler,英伟达CUDA编译器)路线。配置门槛不高,但比即插即玩复杂一档。

关键突破在于:不需要关SIP,不需要进恢复模式敲代码,安装后系统设置里点一下"允许"就能用。

对普通用户这只是一步,对Mac生态这是苹果首次官方认可外接算力扩展。之前社区折腾的补丁、内核扩展,随时可能被系统更新封杀;现在TinyGPU进了白名单,稳定性有了底层保障。

实测数据:27B参数模型塞进Mac Mini

实测数据:27B参数模型塞进Mac Mini

TinyCorp放出的测试用例很敢选——Qwen 2.5 27B,阿里开源的大语言模型,参数量270亿。这个体量之前想跑在Mac上,得M3 Max起步还得看内存脸色。

现在一台基础款Mac Mini M4,外接一张RTX 4090,通过TinyGPU的tinygrad框架(一个轻量级深度学习框架)能把模型完整加载进显存。推理速度没公布具体数字,但官方用了"effectively"(有效运行)这个词,暗示可用级别。

算力对比很直观。M4的神经网络引擎(Neural Engine)标称38 TOPS(Tera Operations Per Second,每秒万亿次运算),一张RTX 4090的FP16(半精度浮点)算力是330 TFLOPS,差距接近一个数量级。

更关键的是显存带宽。Mac的统一内存架构被吹了很多年,但M4 Pro最高也就273GB/s;RTX 4090的GDDR6X(图形用双倍数据速率6X显存)带宽是1008GB/s,训练大模型时这差距会放大成训练时间的倍数差。

George Hotz在采访里提过tinygrad的设计哲学:不做PyTorch(一个主流深度学习框架)的复制品,而是用更少的代码做同样的事。整个框架核心代码约1万行,相比之下PyTorch超过100万行。轻量化意味着在资源受限的设备上更容易优化——比如Mac。

这套组合的真正价值,是把Mac从"AI消费端"变成"AI生产端"。之前开发者买Mac跑AI,多是调试代码、管理云端实例;现在本地能训能推,工作流程可以彻底离线。

Mac Pro之死与算力外包的新逻辑

Mac Pro之死与算力外包的新逻辑

时间线叠在一起看很有意思。TinyGPU过审的前几周,苹果官网撤掉了Mac Pro的产品页,搜索直接跳转到Mac首页。14年只更新3代,最后一代M2 Ultra版本上市不到两年,成了绝响。

传闻中的M4 Ultra没出现。供应链消息说芯片良率问题导致超大核心版本难产,但更可能的解释是销量撑不起一条产品线——专业用户要的是可扩展性,苹果给的是焊死的统一内存。

Mac Pro的死亡和外接显卡的放行,其实是同一枚硬币的两面。苹果放弃了自己造"AI工作站"的执念,转而允许用户用第三方硬件补缺口。

这套逻辑和iPhone的MagSafe(磁吸充电/配件接口)生态有点像:核心体验我控死,边缘需求你们自己加。区别是MagSafe卖的是配件授权费,eGPU卖的是Mac的入场券——你总得先有一台Mac才能插显卡。

对开发者群体的影响正在显现。机器学习工程师@swyx在X上评论:「这意味着我可以把家里的游戏PC显卡拆下来,插到Mac Mini上写代码,周末再插回去打游戏。」一卡两用,硬件利用率拉满。

更深层的变化是软件生态。tinygrad框架之前主要在Linux(一种开源操作系统)社区活跃,现在有了官方支持的macOS版本。开发者用同一套代码,可以在Mac本地调试、云端Linux服务器训练、边缘设备部署,跨平台摩擦大幅降低。

谁该现在上车,谁该再等等

谁该现在上车,谁该再等等

现阶段TinyGPU的适用场景很明确:本地AI推理、中小规模模型微调、隐私敏感的数据处理(医疗、金融)。不适合的是需要多卡并联的大规模训练——驱动目前只支持单卡,且没有NVLink(英伟达多卡互联技术)支持。

成本账要细算。一张RTX 4090现在市价约1.5万,雷电显卡坞2000-4000不等,加上Mac Mini M4基础款4500,总投入2万出头。对比同价位能买到的Windows工作站,单卡性能接近,但Mac的功耗和噪音控制仍有优势。

风险在于苹果的长期承诺。驱动过审是第一步,后续macOS更新会不会打破兼容性,取决于苹果和TinyCorp的合作深度。参考之前eGPU的历史——苹果2018年官方支持过一阵,2019年后逐渐冷淡——这次能持续多久,没人敢打包票。

George Hotz的回应很典型:「我们开源了全部代码,如果苹果哪天反悔,社区可以自己维护。」tinygrad的GitHub仓库确实完全公开,但内核驱动的签名密钥掌握在苹果手里,这是真正的命门。

另一个变量是Nvidia的态度。Ampere架构的驱动支持是社区逆向的成果,Nvidia官方从未给Mac写过驱动。RTX 40系列(Ada Lovelace架构)能否支持,取决于TinyCorp的逆向工程进度和苹果的政策容忍度。

AMD路线更稳一些,RDNA3和即将推出的RDNA4都有开源驱动基础。但AI生态的重心明显偏向CUDA(Nvidia的并行计算平台),ROCm(AMD的开源GPU计算平台)的兼容性仍是硬伤。

现在最积极的用户群体是两类:已经买了Mac但算力不够用的开发者,以及想进苹果生态但被AI性能劝退的观望者。对前者这是补救方案,对后者这是降低门槛的入口。

一个细节值得注意:TinyGPU的安装流程里有一步,需要在终端运行脚本下载驱动。苹果官方文档里从没教过用户这样做,但也没阻止——这种"默许但不鼓励"的姿态,是苹果对第三方扩展的典型态度。

Mac Mini M4的电源适配器是内置的,整机功耗锁在100W以内。外接RTX 4090后,显卡坞单独供电450W起步,桌面 suddenly 多了两个电源 brick。这是苹果设计哲学和实用主义妥协的物理痕迹。