DeepSeek-R1因其高昂的推理服务器费用和频繁宕机,成为许多中小团队的“遥不可及”。市面上的本地部署方案多为经过蒸馏的缩水版,无法满足671B MoE架构的高显存需求。
清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目突破了这一难题。该项目支持在24GB显存的硬件上运行DeepSeek-R1和V3的671B满血版,推理速度达到14 tokens/s,预处理速度可达286 tokens/s。
这事你们怎么看?
DeepSeek-R1因其高昂的推理服务器费用和频繁宕机,成为许多中小团队的“遥不可及”。市面上的本地部署方案多为经过蒸馏的缩水版,无法满足671B MoE架构的高显存需求。
清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目突破了这一难题。该项目支持在24GB显存的硬件上运行DeepSeek-R1和V3的671B满血版,推理速度达到14 tokens/s,预处理速度可达286 tokens/s。
这事你们怎么看?
热门跟贴