一场有关“投机”的赌注,正在改变AI模型的响应速度,幅度达到85%。看上去是个技术微调,实则把美国芯片禁令的墙角,撬开了一道缝。
DeepSeek最近放出了一套叫DSpark的新框架。按照官方的说法,它能让自家模型的单用户响应速度提升60%到85%。方法论倒是不复杂:大部分大语言模型生成文本是一个字一个字往外蹦,这就导致GPU利用率上不去,碰上长回复就得干等。DSpark的解法是把活儿拆开干——先让一个轻量小模型提出候选答案,再由大模型批量核对。整个流程不是逐字生成,而是一次产出一小组词,靠一套置信度系统随时调整验证深度,算力吃紧时就少做无用功。直白讲,就是踢掉了那些注定要被毙掉的预测步骤。
这招不是只能用在自家身上。DeepSeek拿谷歌DeepMind的Gemma和阿里的Qwen也试了一遍,结果同样能跑通。整套框架连同和北京大学合研的DeepSeek-V4-Pro模型,已经以MIT协议扔上了Hugging Face和GitHub,论文也同步公开了。
速度提升的背后,藏着更大的棋。更快的推理速度,意味着对单块芯片的依赖会降下来,基础设施的烧钱速度也能缓一缓。这对中国和欧盟来说,都是及时雨——两方在数据中心建设和高端芯片储备上,都还追不上美国的步子。尤其是中国,在美国出口管控越收越紧的背景下,能在更少的芯片上挤出更多的AI性能,本身就削弱了芯片被当成地缘政治筹码的效力。
但事情没这么简单。这里头藏着个反弹逻辑:效率提上去了,单次查询的芯片需求量确实下降了,可释放出来的算力,几乎会立刻被更多请求、更长上下文或是新应用给吞掉。总需求非但不会降,甚至可能逆势上涨。DeepSeek自己的表述也印证了这一点——DSpark“让过去达不到的性能层级成了现实,把服务系统的帕累托前沿推了出去”。换句话说,效率红利,短期看是省了芯片,长远看,更像是给更大规模的扩张铺了路。
热门跟贴