一个月烧掉几亿token,账单小几万——这是重度agent用户的日常。现在有人把这套成本砍到零:Redis原作者antirez开源了ds4,一台128GB内存的MacBook Pro就能本地跑DeepSeek V4 Flash,token费用彻底归零。

开发者Salvatore Sanfilippo,圈内更熟悉的名字是antirez。这位意大利程序员是开源数据库Redis的原作者,Redis后来成为全球互联网基础设施里最常用的内存数据库之一。几天前,他在GitHub发布了ds4项目——专门为DeepSeek V4 Flash写的推理引擎,几千行C代码,目标很明确:让这台"云端豪车"开进苹果笔记本。

打开网易新闻 查看精彩图片

DeepSeek V4 Flash本身开源,但FP16精度原始模型需要284G内存、160G显存。按常规配置,两张英伟达A100 80GB、512GB DDR5 ECC内存、4TB NVMe SSD,总成本50万人民币。antirez的方案把门槛压到3万块钱的MacBook Pro。

为什么偏偏是DeepSeek V4 Flash?

284B总参数够大,但每次推理只激活13B,不像传统大模型那样沉重。支持100万token上下文,适合编程助手这类长任务;KV cache压缩得足够狠,给本地内存和SSD留了操作空间。它站在一个微妙的平衡点上:既大到值得折腾,又小到能被塞进笔记本。

YC CEO Garry Tan在X上转发时只写了一行:正在下载……100万token上下文窗口,可用的编程助手能力,全在一台128GB MacBook Pro上,太疯狂了。

ds4不是模型,是一台"专用发动机"。过去本地跑大模型普遍用llama.cpp,什么模型都能跑,Llama、Qwen、DeepSeek全支持——但代价是性能妥协。antirez反着来:不管别的模型死活,只伺候DeepSeek V4 Flash这一个,优化到极限。

DeepSeek V4 Flash的架构是MoE(混合专家模型),284B参数里每次只激活13B,由路由挑出的专家子网络。antirez的压缩策略很不对称:对那批"候补专家"做激进的2-bit量化,up和gate矩阵用IQ2_XXS,down矩阵用Q2_K;而shared experts、projections、routing网络这些关键路径组件,全部保持原始精度。砍掉体积大头,保住质量命脉。

更狠的一招是把KV Cache搬到SSD上。100万token上下文意味着AI要频繁"回头翻看"前面的内容,以前必须放内存里保证速度。但128GB内存光缓存就能吃光,模型没地方放。antirez直接把缓存落盘:ds4把部分KV状态做成可恢复格式,长提示词和agent续写不必从头处理。现代Mac SSD速度够快,加上DeepSeek本身对缓存的压缩,硬盘顶得住。

内存省出来了,超长对话真的跑起来了。不过按ds4说明,2-bit模型本身占约80GB内存,100万token全部拉满并不现实,日常100k到300k上下文更可行。

所有优化押在苹果GPU上。antirez专门为苹果芯片写了一套代码,M3 Max 128GB MacBook Pro实测每秒生成约26字,M3 Ultra 512GB Mac Studio跑到每秒36字。不算快,写代码、调试够用。CPU模式被明确标注为"不稳定,可能触发系统崩溃",后续得靠社区补救。

整个项目,antirez独自一人通过GPT-5.5完成。

这事的另一面是DeepSeek的生态信号。据海外报道,DeepSeek正在寻求73.5亿美元融资,梁文锋处于用商业叙事取代技术叙事的关键转折。投资人看什么?不只是跑分和API调用量,还有生态位和不可替代性。一个海外顶流开发者愿意为你的模型写专用引擎,本身就是生态地位的证明。

过去一年,中国开源模型出海的主流衡量标准是benchmark——MMLU、HumanEval、SWE-bench,一串又一串数字。antirez的ds4提供了另一种度量:有没有人为你的模型单独造一台"发动机"。