国内首次！面壁开源千万级SFT与最大中文数据，MiniCPM5-1B底座公开|sft|人工智能模型|代码|面壁开源|预训练

新智元报道

【新智元导读】5月25日至29日，面壁智能与OpenBMB联合举办「端侧大模型开源周」，每天解锁一个端侧大模型的杀手锏。端侧大模型的顶峰，不只在冰山一角，而在整座冰山。今天是开源周的第五弹：UltraData系列数据集上新。

5月29日，面壁智能联合清华大学、 OpenBMB开源社区联合发布并开源两大最新数据集：Ultra-FineWeb-L3与UltraData-SFT-2605。

其中，Ultra-FineWeb-L3包含高质量中文+英文网页合成数据，总量突破600B Tokens，中文占据200B+Tokens ，是目前开源规模最大的中文预训练合成数据集；UltraData-SFT-2605是国内首次开源的千万级、同时包含深思考与非思考标注的SFT数据集。

MiniCPM5-1B的训练过程，是UltraData分级治理体系的一次完整实践，此次上新的两大数据集Ultra-FineWeb-L3 与UltraData-SFT-2605均已在MiniCPM5-1B的训练流程中得到完全验证，覆盖从预训练退火到后训练SFT的全链路。

这两大数据集均基于面壁智能独创的UltraData数据分级治理体系构建，为大模型产业提供了自主可控、高质量可复现的数据基础设施。目前已全面上线UltraData网站与HuggingFace等，面向全球开发者免费开放。

UltraData数据分级治理

从「堆规模」到「精炼数据」

大模型训练数据如同原油，未经提炼无法直接驱动引擎。在模型架构趋同、高质量公开数据资源逐渐逼近枯竭的背景下，单纯依赖数据规模扩张已难以为继。不同训练阶段对数据的质量、数量及分布存在显著差异，需要有针对性的数据策略。

今年2月，面壁智能联合清华大学、OpenBMB提出的L0-L4五级数据分级治理体系，正是为了解决这一问题。

从原始数据（L0）经基础过滤（L1）、模型精筛（L2）、合成与增强（L3），到最终可用于编排的数据（L4），每一级对应明确的处理标准与应用场景，避免「一刀切」的粗放加工。

在英文网页、中文网页、数学、代码四个领域的系统性实验中，模型性能随数据质量从L1向L3逐级提升而持续增强，分级训练相比混合训练平均性能提升1.49个百分点。

没有系统的数据治理，就没有可复现的AGI进化。此次L3数据集的开源，正是这套方法论从理论走向实践、从数学垂直领域向通用网页与后训练SFT全面延伸的关键一步。

Ultra‑FineWeb‑L3

让网页文本从「可读」到「好学」

Ultra‑FineWeb‑L3是将L3精炼技术系统化应用于通用网页数据的合成数据集，规模超600B Tokens，其中英文400B+Tokens，中文200B+ Tokens。

同时也是当前全球最大规模的中文预训练合成数据，一举解决了长期以来中文高质量预训练数据稀缺、分布不均的行业痛点。

以L2精筛高质量网页数据Ultra-FineWeb为种子，Ultra-FineWeb-L3使用多种模型进行问答对生成与多风格改写，将海量网页文本升级为结构化、高信息密度、更适合模型学习的预训练数据。

其核心目标不是增加数据量，而是提升单位数据的可学习性。

在同等训练量下，Ultra-FineWeb-L3在ARC-E、HellaSwag、OpenbookQA等英文任务以及CMMLU等中文任务上均显著超越FineWeb-edu、FinePhrase等其他高质量数据集，且训练后期的领先优势持续扩大。

作为MiniCPM5-1B退火阶段的核心训练数据，它为模型在训练后期实现「最后一公里」能力跃升提供了高密度燃料。

如果说此前发布的UltraData-Math是UltraData分级治理体系在数学领域的一次最佳实践，那么Ultra-FineWeb-L3则是这一方法论向通用网页领域的进一步延伸。

它的意义不只是提供一份更大规模的网页合成数据，更是把「可读」的网页文本，进一步转化为「好学」的训练数据。

UltraData-SFT-2605

千万级深思考与非思考SFT全量开源

如果说预训练决定了模型的知识广度，SFT 阶段则决定了模型能否精准遵循指令、能否一步步推演出复杂问题的答案。

UltraData‑SFT‑2605是国内首个开源的千万级规模、同时包含深思考与非思考完整标注的全量SFT数据集，覆盖数学、代码、知识、指令遵循等多个领域。

该数据集在每个领域、每个难度层级中同时构建两类数据：

非思考数据：对应快速响应场景下的直接回答能力
深思考数据：对应复杂任务场景下的推理、规划与验证能力，包含完整思维链标注

通过这种双能力并行设计，模型可以在不同使用场景下获得针对性的训练信号。

全流程质量治理透明化是UltraData-SFT-2605的另一大亮点。

即使同属于L3数据，不同样本在问题价值、回答质量、推理清晰度和评测污染风险上仍然存在差异，因此L3内部同样需要明确的质量筛选标准。

为此，UltraData-SFT-2605在构建过程中引入了完整的数据治理流程：从 Query构造与筛选，到Answer质量控制，再到Benchmark去污与训练验证，尽可能确保进入最终训练的数据干净且真正有效。

开发者可以追溯每条数据的处理过程，理解其被保留、增强与验证的依据，为1B级端侧大模型具备强推理能力提供了可复现的数据基础。

基于此，开发者无需从零开始构建复杂的推理标注体系，即可快速训练出具备深度思考能力的端侧大模型。

不止于规模

更是可复用的数据治理方法论

大模型的发展正迈入新阶段，数据科学必须从粗放式的规模扩张，迈向精细化的数据治理与利用。UltraData数据分级治理体系提供的正是这一转型的系统性方案。

此前，UltraData已积累了丰富的数据治理与开源基础。其开放社区网站系统整理了UltraChat、UltraFeedback等高质量数据集的前期工作，并开源了实验过程中的2.4T Tokens数据与4项数据治理工具。

其中，UltraData-Math以290B+ Tokens的总规模构建了从L1网页语料到 L3 推理链的分级数学数据体系，L3数学合成数据达88B Tokens，是目前开源社区规模最大的数学预训练数据，并以霸榜之姿登顶Hugging Face Trending第一。

Ultra-FineWeb连续两周登顶Hugging Face Trending第一，累计下载量超50万次。

此次开源的Ultra-FineWeb-L3与UltraData-SFT-2605，正是这套分级治理方法论从数学垂直领域向通用网页和后训练SFT阶段全面延伸的标志性成果。

开源不是终点

是共建长期数据生态的起点

高质量数据正在成为端侧智能落地的关键变量。

对于端侧厂商而言，UltraData的开源意味着无需重复投入巨额成本进行网页合成与SFT数据清洗，直接使用即可复现MiniCPM5-1B级别能力。

高质量L3数据使1B模型在数学、代码、推理等任务上逼近更大模型，加速端侧智能在手机、PC、汽车等场景的落地。高质量数据意味着更少的训练token即可达到同等效果，间接节省算力与内存——这正是端侧大模型从技术验证走向规模化落地的关键一环。

面壁智能始终秉持「开源」理念，为社区开发者提供从数据获取到模型训练的全链路支持，深入探索如何高效量化数据价值、精准适配模型各阶段的训练需求，进一步构建「数据<->模型协同演进」，形成模型反哺数据治理、高质量数据进一步优化模型的良性闭环。

此次UltraData系列数据集的上新与开源，正是一个持续迭代的新起点。

未来，UltraData将陆续开放更多预训练L1/L2/L3数据、更强通用SFT数据、Agent‑SFT数据以及RL数据，相关的治理算法与模型也会持续开源，构建从「一次性发布」到「持续迭代」的数据生态，让高性能AI更快、更自然地来到每个人身边。

➤UltraData 网站

https://ultradata.openbmb.cn

➤ Hugging Face 地址

https://huggingface.co/collections/openbmb/ultradata

➤ Ultra-FineWeb-L3

https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3

➤ UltraData-SFT-2605

https://huggingface.co/datasets/openbmb/UltraData-SFT-2605

国内首次！面壁开源千万级SFT与最大中文数据，MiniCPM5-1B底座公开

热搜

热门跟贴

热搜

热门跟贴

相关推荐

刚刚，Agnes国内API节点来了！这头撸代码的AI怪兽彻底解禁

零样本迁移，降本80%！自适应时序预测Agent加持真实工业

Kimi K3竟是GPT-2的22580倍，博主「肝」48小时发现：七年进化大模型不只是参数暴涨

告别「小道消息」与研发黑盒！上海AI实验室探索「全开放预训练」开源模式

美军百年老枪依然逃不掉时代迭代

Hugging Face遭OpenAI新模型攻击，但真正的问题不在这

FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

不同价位的遥控模型车，马力没对比就没伤害，压轴的都是王者！

走了十多年的便民桥被封堵，连云港市墩尚镇回应：系自建桥存在安全隐患

活久见，时代少年团给大模型上了一课

广东一医生工作群里发布极端请假言论引热议 医院：高度重视，正在核实调查

成立1年融资3轮，前字节女高管创业，跑赢GPT-5登顶编程榜

AI队友正在进入公司，腾讯云想重构下一代研发工作流

AI华语歌，终于能听了！从零预训练十亿参数，告别「人机味」

吓到奥特曼，暂停训练GPT-6？Hugging Face公开首个AI攻击全过程

高市早苗策略失败，中俄朝迅速行动，美军撤退，形成3对1格局

用网页做汇报？TRAE Work帮你写代码

好莱坞幕后制作团队，通过模型拍摄海啸侵袭城市场景

小棋手专注对弈，智慧与策略的碰撞！

AI自己写代码，训出1B端侧「小钢炮」-1

广东一医生工作群里发布极端请假言论引热议医院：高度重视，正在核实调查