新智元报道
【新智元导读】5月25日至29日,面壁智能与OpenBMB联合举办「端侧大模型开源周」,每天解锁一个端侧大模型的杀手锏。端侧大模型的顶峰,不只在冰山一角,而在整座冰山。今天是开源周的第五弹:UltraData系列数据集上新。
5月29日,面壁智能联合清华大学、 OpenBMB开源社区联合发布并开源两大最新数据集:Ultra-FineWeb-L3与UltraData-SFT-2605。
其中,Ultra-FineWeb-L3包含高质量中文+英文网页合成数据,总量突破600B Tokens,中文占据200B+Tokens ,是目前开源规模最大的中文预训练合成数据集;UltraData-SFT-2605是国内首次开源的千万级、同时包含深思考与非思考标注的SFT数据集。
MiniCPM5-1B的训练过程,是UltraData分级治理体系的一次完整实践,此次上新的两大数据集Ultra-FineWeb-L3 与UltraData-SFT-2605均已在MiniCPM5-1B的训练流程中得到完全验证,覆盖从预训练退火到后训练SFT的全链路。
这两大数据集均基于面壁智能独创的UltraData数据分级治理体系构建,为大模型产业提供了自主可控、高质量可复现的数据基础设施。目前已全面上线UltraData网站与HuggingFace等,面向全球开发者免费开放。
UltraData数据分级治理
从「堆规模」到「精炼数据」
大模型训练数据如同原油,未经提炼无法直接驱动引擎。在模型架构趋同、高质量公开数据资源逐渐逼近枯竭的背景下,单纯依赖数据规模扩张已难以为继。不同训练阶段对数据的质量、数量及分布存在显著差异,需要有针对性的数据策略。
今年2月,面壁智能联合清华大学、OpenBMB提出的L0-L4五级数据分级治理体系,正是为了解决这一问题。
从原始数据(L0)经基础过滤(L1)、模型精筛(L2)、合成与增强(L3),到最终可用于编排的数据(L4),每一级对应明确的处理标准与应用场景,避免「一刀切」的粗放加工。
在英文网页、中文网页、数学、代码四个领域的系统性实验中,模型性能随数据质量从L1向L3逐级提升而持续增强,分级训练相比混合训练平均性能提升1.49个百分点。
没有系统的数据治理,就没有可复现的AGI进化。此次L3数据集的开源,正是这套方法论从理论走向实践、从数学垂直领域向通用网页与后训练SFT全面延伸的关键一步。
Ultra‑FineWeb‑L3
让网页文本从「可读」到「好学」
Ultra‑FineWeb‑L3是将L3精炼技术系统化应用于通用网页数据的合成数据集,规模超600B Tokens,其中英文400B+Tokens,中文200B+ Tokens。
同时也是当前全球最大规模的中文预训练合成数据,一举解决了长期以来中文高质量预训练数据稀缺、分布不均的行业痛点。
以L2精筛高质量网页数据Ultra-FineWeb为种子,Ultra-FineWeb-L3使用多种模型进行问答对生成与多风格改写,将海量网页文本升级为结构化、高信息密度、更适合模型学习的预训练数据。
其核心目标不是增加数据量,而是提升单位数据的可学习性。
在同等训练量下,Ultra-FineWeb-L3在ARC-E、HellaSwag、OpenbookQA等英文任务以及CMMLU等中文任务上均显著超越FineWeb-edu、FinePhrase等其他高质量数据集,且训练后期的领先优势持续扩大。
作为MiniCPM5-1B退火阶段的核心训练数据,它为模型在训练后期实现「最后一公里」能力跃升提供了高密度燃料。
如果说此前发布的UltraData-Math是UltraData分级治理体系在数学领域的一次最佳实践,那么Ultra-FineWeb-L3则是这一方法论向通用网页领域的进一步延伸。
它的意义不只是提供一份更大规模的网页合成数据,更是把「可读」的网页文本,进一步转化为「好学」的训练数据。
UltraData-SFT-2605
千万级深思考与非思考SFT全量开源
如果说预训练决定了模型的知识广度,SFT 阶段则决定了模型能否精准遵循指令、能否一步步推演出复杂问题的答案。
UltraData‑SFT‑2605是国内首个开源的千万级规模、同时包含深思考与非思考完整标注的全量SFT数据集,覆盖数学、代码、知识、指令遵循等多个领域。
该数据集在每个领域、每个难度层级中同时构建两类数据:
非思考数据:对应快速响应场景下的直接回答能力
深思考数据:对应复杂任务场景下的推理、规划与验证能力,包含完整思维链标注
通过这种双能力并行设计,模型可以在不同使用场景下获得针对性的训练信号。
全流程质量治理透明化是UltraData-SFT-2605的另一大亮点。
即使同属于L3数据,不同样本在问题价值、回答质量、推理清晰度和评测污染风险上仍然存在差异,因此L3内部同样需要明确的质量筛选标准。
为此,UltraData-SFT-2605在构建过程中引入了完整的数据治理流程:从 Query构造与筛选,到Answer质量控制,再到Benchmark去污与训练验证,尽可能确保进入最终训练的数据干净且真正有效。
开发者可以追溯每条数据的处理过程,理解其被保留、增强与验证的依据,为1B级端侧大模型具备强推理能力提供了可复现的数据基础。
基于此,开发者无需从零开始构建复杂的推理标注体系,即可快速训练出具备深度思考能力的端侧大模型。
不止于规模
更是可复用的数据治理方法论
大模型的发展正迈入新阶段,数据科学必须从粗放式的规模扩张,迈向精细化的数据治理与利用。UltraData数据分级治理体系提供的正是这一转型的系统性方案。
此前,UltraData已积累了丰富的数据治理与开源基础。其开放社区网站系统整理了UltraChat、UltraFeedback等高质量数据集的前期工作,并开源了实验过程中的2.4T Tokens数据与4项数据治理工具。
其中,UltraData-Math以290B+ Tokens的总规模构建了从L1网页语料到 L3 推理链的分级数学数据体系,L3数学合成数据达88B Tokens,是目前开源社区规模最大的数学预训练数据,并以霸榜之姿登顶Hugging Face Trending第一。
Ultra-FineWeb连续两周登顶Hugging Face Trending第一,累计下载量超50万次。
此次开源的Ultra-FineWeb-L3与UltraData-SFT-2605,正是这套分级治理方法论从数学垂直领域向通用网页和后训练SFT阶段全面延伸的标志性成果。
开源不是终点
是共建长期数据生态的起点
高质量数据正在成为端侧智能落地的关键变量。
对于端侧厂商而言,UltraData的开源意味着无需重复投入巨额成本进行网页合成与SFT数据清洗,直接使用即可复现MiniCPM5-1B级别能力。
高质量L3数据使1B模型在数学、代码、推理等任务上逼近更大模型,加速端侧智能在手机、PC、汽车等场景的落地。高质量数据意味着更少的训练token即可达到同等效果,间接节省算力与内存——这正是端侧大模型从技术验证走向规模化落地的关键一环。
面壁智能始终秉持「开源」理念,为社区开发者提供从数据获取到模型训练的全链路支持,深入探索如何高效量化数据价值、精准适配模型各阶段的训练需求,进一步构建「数据<->模型协同演进」,形成模型反哺数据治理、高质量数据进一步优化模型的良性闭环。
此次UltraData系列数据集的上新与开源,正是一个持续迭代的新起点。
未来,UltraData将陆续开放更多预训练L1/L2/L3数据、更强通用SFT数据、Agent‑SFT数据以及RL数据,相关的治理算法与模型也会持续开源,构建从「一次性发布」到「持续迭代」的数据生态,让高性能AI更快、更自然地来到每个人身边。
➤UltraData 网站
https://ultradata.openbmb.cn
➤ Hugging Face 地址
https://huggingface.co/collections/openbmb/ultradata
➤ Ultra-FineWeb-L3
https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3
➤ UltraData-SFT-2605
https://huggingface.co/datasets/openbmb/UltraData-SFT-2605
热门跟贴