Redis之父antirez发布DeepSeek V4 Flash专用推理引擎，128GB MacBook本地跑284B参数大模型|deepseek|flash|macbook|上下文|推理引擎|磁盘|自然语言

Salvatore Sanfilippo（antirez）—— 那个写出 Redis 的意大利程序员，最近在 GitHub 上发布了新开源项目：ds4.c，一个专为 DeepSeek V4 Flash 设计的原生推理引擎。

ds4 的核心设计围绕 Metal GPU 展开，CPU 路径仅保留调试用途，服务器模式更是完全 Metal-only。

项目发布不到两天就收获了 2600+ Star，迅速成为本地大模型推理圈子里的热门话题。

一、为什么只服务一个模型？

antirez 在开篇就亮明了态度：这不是通用 GGUF 加载器，不是其他运行时的包装壳，也不是框架。ds4.c 的核心路径是一个DeepSeek V4 Flash 专用的 Metal 图执行器(graph executor)，从模型加载、提示词渲染、KV 状态管理到 Server API 胶水层，全部围绕这一个模型量身定制。

他认为 DeepSeek V4 Flash 值得这种「专人专事」的待遇，理由很充分：

激活参数量更少，推理更快。虽然总参数量达到 284B，但 MoE 架构下实际激活的参数远小于同级别的密集模型。
Thinking 模式可控。在非最大思考模式下，V4 Flash 的思考过程长度往往只有其他模型的 1/5，且思考长度与问题复杂度成正比。这意味着在其他模型开启 thinking 后几乎无法使用的场景下，V4 Flash 依然流畅可用。
上下文窗口高达 100 万 Token。对于需要吞入整个代码库或长文档的 Agent 场景，这是决定性优势。
知识边界更深。284B 参数在知识边缘的采样能力远超 27B 或 35B 的小模型，尤其在专业领域问题上差距明显。
KV Cache 极度压缩。配合现代 MacBook 的高速 SSD，KV Cache 不再是内存的「房客」，而是磁盘的「一等公民」—— 长上下文推理可以在本地个人电脑上完成，甚至支持磁盘 KV 持久化。
2-bit 量化表现优异。经过特殊非对称量化后（仅路由专家量化，共享专家和投影层保持原精度），2-bit 版本在编码 Agent 和工具调用场景下表现可靠，128GB 内存的 MacBook 即可运行

二、速度有多快？

antirez 公布了一组 Metal CLI 实测数据（贪婪解码，256 Token 输出）：

机器量化预填充（短提示）生成速度 MacBook Pro M3 Max 128GB q2 58.52 t/s 26.68 t/s Mac Studio M3 Ultra 512GB q2 84.43 t/s 36.86 t/s Mac Studio M3 Ultra 512GB q4 78.95 t/s 35.50 t/s

长上下文预填充更夸张：M3 Ultra 处理 11709 Token 的提示时，预填充速度达到 468.03 t/s。这个速度意味着即使塞入一本中等长度的书作为上下文，模型也能在几十秒内完成预热并开始生成。

三、CLI + Server 双模式

编译只需要一个make。项目提供两个二进制文件：

ds4：交互式 CLI，默认开启 thinking 模式，支持多轮对话、上下文调节、文件读取等命令。每次对话都会保留 Metal KV 检查点，下一轮直接续写。
ds4-server：兼容 OpenAI 和 Anthropic 协议的本地 HTTP 服务。支持/v1/chat/completions/v1/messages等端点，SSE 流式输出，工具调用，thinking 模式原生流式返回。

ds4 Server API

四、磁盘 KV Cache：会话永不过期

ds4-server 针对 Agent 客户端「每次请求重发整段对话」的痛点，设计了一套磁盘 KV Cache 机制。启动时指定--kv-disk-dir，服务器会将对话前缀的 KV 状态以 SHA1 为键写入磁盘。当新的无状态请求到达时，如果前缀匹配，就直接从磁盘恢复 KV 状态，跳过重复预填充。

antirez 对此的比喻很直接：「KV Cache 不应该只住在内存里，它应该成为磁盘的一等公民。」在 128GB 机器上运行 2-bit 模型时，合理配置 10~30 万 Token 的上下文窗口，搭配磁盘缓存，足以让本地编码 Agent 获得接近有状态服务的体验。

五、 Claude Code 也能接本地 DS4

项目 README 详细给出了与主流 Agent 工具的对接方案：

Claude Code：通过 Anthropic 兼容端点 + 环境变量包装脚本，直接把claude命令指向本地 ds4-server。作者特别提醒，Claude Code 的初始 prompt 往往有 25k Token，务必开启磁盘 KV 缓存。
Pi：在models.json中添加 ds4 provider 配置，支持 thinking 等级映射。
opencode：通过 OpenAI 兼容端点接入，配置 context limit 和 output limit。

六、一个坦诚的声明

antirez 在 README 中放了一段少见的坦白：「这个软件是在 GPT 5.5 的强力辅助下开发的，人类负责主导思路、测试和调试。我们公开说明这一点，因为它塑造了项目的构建方式。如果你对 AI 生成的代码不满意，这款软件不适合你。」