一块被苹果封杀了十年的英伟达显卡,现在能插在最新的Mac mini上跑大模型了。这不是官方和解,而是一个开源团队用三个月干成的事。
被切断的十年
苹果与英伟达的决裂要追溯到2010年代。CUDA生态在macOS上几乎消亡,开发者被迫转向苹果自家的Metal架构。想买Mac做AI训练?要么忍受M系列芯片的显存天花板,要么放弃macOS转投Linux。
这种割裂造就了奇特的市场景观:一边是英伟达显卡统治数据中心,一边是苹果M芯片垄断高端个人计算。两者之间的通道,被有意无意地堵死了。
开源驱动的破局逻辑
Tiny Corp的解法很直接——不碰苹果的驱动层,也不等英伟达的许可。他们的「Tiny GPU」开源驱动通过雷雳5/USB4接口直连外置显卡,让RTX 5090与苹果芯片直接通信。
关键点在于:完全跳过虚拟机方案。过去想在Mac上用英伟达卡,要么装双系统,要么用Parallels等虚拟化工具,性能损耗通常在30%-50%。Tiny Corp的方案是原生通信,理论损耗趋近于零。
博主Alex Ziskind实测的数据很有意思:Llama 3.1 8B模型跑出7.48 Token/s,相比Metal原生方案慢了约10倍——但首Token响应速度反而快3-4倍。
这说明Blackwell架构的硬件优势确实存在,只是软件层还没吃透。
谁需要这个「不完美」的方案
性能折损10倍听起来很糟,但要看场景。对于需要反复调试的模型开发者,首Token快3-4倍意味着更快的反馈循环;对于显存焦虑的用户,RTX 5090的32GB显存是M4 Pro的4倍。
更隐蔽的价值在于选择权的回归。苹果用户不必再为「要不要买一台Linux工作站」纠结,插块显卡就能扩展算力边界。
Tiny Corp的商业模式也值得关注。这家由George Hotz创立的公司,核心产品是Tiny Grad编译器——一个试图挑战PyTorch/TensorFlow的深度学习框架。驱动只是入口,编译器才是变现抓手。
裂缝会扩大吗
这个方案目前依赖Tiny Grad,而非CUDA或Metal的原生优化。这意味着英伟达和苹果都有动力忽视它,也有能力在系统更新中制造障碍。
但开源的诡异之处在于:一旦代码流出,封锁成本就会指数级上升。如果社区持续投入优化,性能差距从10倍缩到2倍,苹果的Metal独占策略还站得住脚吗?
当硬件性能足够碾压软件摩擦,封闭生态的护城河会不会反而成为负担——你觉得苹果会选择加固围墙,还是悄悄打开一扇门?
热门跟贴