梁文锋的名字出现在DeepSeek最新论文的作者栏里,他与北京大学团队共同提出了DSpark推测解码方案。这次研究的核心结果很直接:在V4系列模型上实现了57%到85%不等的推理速度提升。

加速是怎么做到的?论文里给出了两条技术线索。其一是半自回归生成,这种方式允许模型在保持一定依赖关系的同时并行预测多个词元,而不是逐字产出;其二是置信度调度验证机制,它动态调整对预测结果的审核频率,只在模型把握不够时做额外校验。

打开网易新闻 查看精彩图片

团队还做了一件事:把整套技术栈一并开源。代码库名为DeepSpec,覆盖全栈实现。这意味着其他开发者可以直接拿到这个加速方案,在自己的场景里复现57%这个起步线,甚至冲着85%去调优。