2 月 28 日,DeepSeek 发布了本次“开源周”的最后一个开源项目:3FS(Fire-Flyer File System),以及基于 3FS 的数据处理框架 smallpond(小池塘)。

3FS 是一个高性能并行文件系统,可充分利用现代 SSD 和 RDMA 网络的全部带宽,为分布式应用提供一个简化开发的共享存储层,以解决 AI 训练和推理工作负载中的挑战。目前,3FS 支持在 V3/R1 中的训练数据预处理、数据集加载、检查点保存/重载、嵌入向量搜索及推理用 KVCache 查询(项目地址:https://github.com/deepseek-ai/3FS)。

据 DeepSeek 官方介绍,3FS 的核心亮点如下:
(1)在 180 节点集群中,可实现 6.6 TiB/s 总读取吞吐量;
(2)在 25 节点集群中进行 GraySort 基准测试,可达到 3.66 TiB/min 的吞吐量;
(3)每个客户端节点在 KVCache 查找中的峰值吞吐量超过 40+ GiB/s;
(4)采用存算分离的架构设计,具备强一致性语义。

与此同时,DeepSeek 还开源了基于 DuckDB 和 3FS 构建的轻量级数据处理框架 smallpond。它专为处理 PB 级数据集而设计,拥有强大的数据处理能力;同时具备高可扩展性,能够处理从小型数据集到 PB 级别的大规模数据集;操作方式也简洁易用,无需长期运行服务(项目地址:https://github.com/deepseek-ai/smallpond)。

至此,本次 DeepSeek “开源周”完美收官:连续 5 天,开源了诸多大模型基建项目。不少开发者在表示惊叹和感谢的同时,也在呼吁新一代大模型的到来:“拜托了,我们还需要视频模型和 V4+R2,全世界都在等着你们!”

【活动分享】2025 全球机器学习技术大会(ML-Summit)将于 4 月 18-19 日在上海举办。大会共 12 大主题、50+ 海内外专家,聚焦包括 DeepSeek 在内的大模型技术和生态变革技术实践。详情参考官网:http://ml-summit.org/。