antirez,Redis的作者,写了一个叫ds4的项目。
它只做一件事:在Mac上跑DeepSeek V4 Flash。
不是通用推理框架,不是GGUF封装器,不是什么"万物引擎"。就是专门为DeepSeek V4 Flash写的Metal推理引擎。一行一行手写的C代码,零依赖。
为什么值得单独做一个引擎?antirez给了几个理由:
DeepSeek V4 Flash的活跃参数比同级别模型少,所以更快。在思考模式下,它的思考过程比其他模型短得多——很多时候只有别人的五分之一,而且思考长度会根据问题难度自动调整。这意味着你开着思考模式也能正常用它。
上下文窗口100万token。KV缓存压缩率极高,支持磁盘持久化。最关键的:支持2-bit量化,128GB内存的MacBook就能跑。
说白了,这是一个"让大模型回到本地"的严肃尝试。
antirez在项目里写了一段话很值得读:"本地推理领域有很多优秀的项目,但新模型不断发布,注意力总是被下一个要实现的模型吸引。这个项目做了一个刻意的窄赌注:一次只做一个模型,做透。"
目前项目还很早期。但方向很有意思——大模型的本地推理一直被困在"小模型凑合用"的阶段,antirez选了一条不同的路:用极限优化让一个大模型在个人电脑上跑得动。
我觉得这个项目的技术品味很高。不是"什么都能跑"的瑞士军刀,而是一把专用的手术刀。128GB Mac + DeepSeek V4 Flash的组合如果真的好用,对开发者来说会是一个很有吸引力的本地方案。
热门跟贴