一群开发者搞了个叫sllm的项目,把高端GPU节点切成碎片出租。花10美元就能和别人合租一块卡,跑Llama 4 Scout、DeepSeek V3.2这些大模型,号称「unlimited tokens」。
这事的魔幻在于定价逻辑。官方API按token收费,这里按月订阅,流量不限。团队打了个比方:传统云厂商像按滴卖水,他们直接卖水龙头。一位早期用户说,「我跑了三天R1-0528,账单还是10块」。
技术实现上,他们用Kubernetes把A100/H100切成多个实例,每个实例分配固定显存切片。多用户共享同一块物理卡,通过调度错开峰值。延迟肯定比独占高,但15 tok/s的吞吐量对调试代码够用了。
风险也明显。Availability一列显示0%的模型不在少数,热门时段排队是常态。更麻烦的是合规——模型厂商的API条款大多禁止转售,sllm目前没拿到任何官方授权。有开发者在社区留言:「便宜是真便宜,被封号的时候别哭。」
项目上线两周,HN帖子的评论区已经吵了400楼。支持的人说这是「AI民主化」,反对的人算了一笔账:按官方价跑DeepSeek V3.2,10美元大概能买200万token,这里能跑多少取决于你有多闲。
热门跟贴