Salvatore Sanfilippo(antirez)—— 那个写出 Redis 的意大利程序员,最近在 GitHub 上发布了新开源项目:ds4.c,一个专为 DeepSeek V4 Flash 设计的原生推理引擎。
ds4 的核心设计围绕 Metal GPU 展开,CPU 路径仅保留调试用途,服务器模式更是完全 Metal-only。
项目发布不到两天就收获了 2600+ Star,迅速成为本地大模型推理圈子里的热门话题。
一、为什么只服务一个模型?
antirez 在开篇就亮明了态度:这不是通用 GGUF 加载器,不是其他运行时的包装壳,也不是框架。ds4.c 的核心路径是一个DeepSeek V4 Flash 专用的 Metal 图执行器(graph executor),从模型加载、提示词渲染、KV 状态管理到 Server API 胶水层,全部围绕这一个模型量身定制。
他认为 DeepSeek V4 Flash 值得这种「专人专事」的待遇,理由很充分:
- 激活参数量更少,推理更快。虽然总参数量达到 284B,但 MoE 架构下实际激活的参数远小于同级别的密集模型。
- Thinking 模式可控。在非最大思考模式下,V4 Flash 的思考过程长度往往只有其他模型的 1/5,且思考长度与问题复杂度成正比。这意味着在其他模型开启 thinking 后几乎无法使用的场景下,V4 Flash 依然流畅可用。
- 上下文窗口高达 100 万 Token。对于需要吞入整个代码库或长文档的 Agent 场景,这是决定性优势。
- 知识边界更深。284B 参数在知识边缘的采样能力远超 27B 或 35B 的小模型,尤其在专业领域问题上差距明显。
- KV Cache 极度压缩。配合现代 MacBook 的高速 SSD,KV Cache 不再是内存的「房客」,而是磁盘的「一等公民」—— 长上下文推理可以在本地个人电脑上完成,甚至支持磁盘 KV 持久化。
- 2-bit 量化表现优异。经过特殊非对称量化后(仅路由专家量化,共享专家和投影层保持原精度),2-bit 版本在编码 Agent 和工具调用场景下表现可靠,128GB 内存的 MacBook 即可运行
二、速度有多快?
antirez 公布了一组 Metal CLI 实测数据(贪婪解码,256 Token 输出):
机器 量化 预填充(短提示) 生成速度 MacBook Pro M3 Max 128GB q2 58.52 t/s 26.68 t/s Mac Studio M3 Ultra 512GB q2 84.43 t/s 36.86 t/s Mac Studio M3 Ultra 512GB q4 78.95 t/s 35.50 t/s
长上下文预填充更夸张:M3 Ultra 处理 11709 Token 的提示时,预填充速度达到 468.03 t/s。这个速度意味着即使塞入一本中等长度的书作为上下文,模型也能在几十秒内完成预热并开始生成。
三、CLI + Server 双模式
编译只需要一个make。项目提供两个二进制文件:
ds4:交互式 CLI,默认开启 thinking 模式,支持多轮对话、上下文调节、文件读取等命令。每次对话都会保留 Metal KV 检查点,下一轮直接续写。ds4-server:兼容 OpenAI 和 Anthropic 协议的本地 HTTP 服务。支持/v1/chat/completions/v1/messages等端点,SSE 流式输出,工具调用,thinking 模式原生流式返回。
四、磁盘 KV Cache:会话永不过期
ds4-server 针对 Agent 客户端「每次请求重发整段对话」的痛点,设计了一套磁盘 KV Cache 机制。启动时指定--kv-disk-dir,服务器会将对话前缀的 KV 状态以 SHA1 为键写入磁盘。当新的无状态请求到达时,如果前缀匹配,就直接从磁盘恢复 KV 状态,跳过重复预填充。
antirez 对此的比喻很直接:「KV Cache 不应该只住在内存里,它应该成为磁盘的一等公民。」在 128GB 机器上运行 2-bit 模型时,合理配置 10~30 万 Token 的上下文窗口,搭配磁盘缓存,足以让本地编码 Agent 获得接近有状态服务的体验。
五、 Claude Code 也能接本地 DS4
项目 README 详细给出了与主流 Agent 工具的对接方案:
- Claude Code:通过 Anthropic 兼容端点 + 环境变量包装脚本,直接把
claude命令指向本地 ds4-server。作者特别提醒,Claude Code 的初始 prompt 往往有 25k Token,务必开启磁盘 KV 缓存。 - Pi:在
models.json中添加 ds4 provider 配置,支持 thinking 等级映射。 - opencode:通过 OpenAI 兼容端点接入,配置 context limit 和 output limit。
六、一个坦诚的声明
antirez 在 README 中放了一段少见的坦白:「这个软件是在 GPT 5.5 的强力辅助下开发的,人类负责主导思路、测试和调试。我们公开说明这一点,因为它塑造了项目的构建方式。如果你对 AI 生成的代码不满意,这款软件不适合你。」
同时他也不忘致敬 llama.cpp 和 GGML:「这个项目没有链接 GGML,但它因 llama.cpp 开辟的道路而存在。」ds4.c 在 MIT 协议下保留了 GGML 作者的版权声明。
antirez/ds4 仓库地址: https://github.com/antirez/ds4
热门跟贴