中国开发者Mac运行Llama，70B耗时11小时引争议

长星寄明月

2026-05-08 00:16 ·四川

飞机上没网，拒绝25美元WiFi，却用MacBook完成客户项目？这个中国开发者的故事在X上爆火，但网友一算账，发现这事儿有点“玄”！

据说故事主角是位中国开发者，在横跨大西洋的11小时航班上，面对堆积如山的客户任务，他没掏一分钱买机上WiFi，而是掏出64GB内存的MacBook Pro，启动了本地运行的Llama 3.3 70B模型。

但故事火了没几天，就被技术极客们“扒”出了漏洞。第一刀砍在内存上：Llama 70B用BF16半精度跑，光权重就需要140GB，64GB的MacBook根本塞不下。

第二刀砍在速度上：原帖说生成速度71 tokens/s，可懂行的网友直接晒实测数据——M5 Max 128GB（比原设备内存多一倍）跑同款量化模型，才12.8 tokens/s。71 tokens/s是什么概念？几乎是顶级H100集群的速度，MacBook跑这个速度怕是要起火！

第三刀砍在续航上：现代MacBook Pro是一体化设计，所谓“换电池”其实是用充电宝。但M4 Max满载功耗超40W，而经济舱USB口功率最多18W，根本供不上。11小时续航？几乎不可能。

虽然故事里的数据有水分，但背后的趋势却让科技圈兴奋：本地推理正在悄悄革命。以前我们习惯了“云端成瘾”，没GPT-4 API就不会写代码，没网AI就成哑巴。现在不一样了——2024年跑7B模型还需要技巧，2026年M4 Mac跑70B量化版已经是日常操作。

未来，最牛的开发者或许不是最会调云端Prompt的人，而是能在没网、资源有限的极端环境下，手搓出自感知、自循环AI系统的人。下次坐飞机，你准备好带上你的“离线数字大脑”了吗？评论区聊聊你对本地AI的看法！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴