“数据量越大,模型越好”这条铁律,正在悄悄失效。

当 GPT-4 把 1.2 T token 啃到吐、当 MoE 模型把 20 万亿参数卷到飞起,大家突然发现:真正卡脖子的不是算力,也不是参数,而是——高质量数据从哪儿来

近期,北大联合多个团队给出一套新答案:DataFlow —— 一个把 LLM“数据准备”做成流水线的系统

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

论文标题: DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI 论文链接:( of the Hugging Face daily paper) https://arxiv.org/abs/2512.16676 仓库链接:(2k star) https://github.com/OpenDCAI/DataFlow/
一、研究动机:数据准备的“三宗罪”
  1. 繁琐脚本:做预训练要写 20 个去重脚本,做 SFT 再写 15 个清洗脚本,每条管线都要“重造轮子”。

  2. 复现黑洞:论文里一句“我们采用公开数据”背后,可能是 100 行未公开预处理代码,别人永远跑不出那条曲线。

  3. 人力天花板:指令微调、思维链、工具调用……任务越精,越依赖昂贵的人类标注。一旦场景冷门(如罕见病问诊、多跳法律推理),直接“无标可用”。

行业急需一套“像 PyTorch 搭模型一样搭数据”的工业级框架——DataFlow 因此诞生。

打开网易新闻 查看精彩图片

层级

类比 PyTorch

DataFlow 对应

作用

存储

tensor

DataFlowStorage

统一表格视图,屏蔽 JSON/Parquet/SQL 差异

算子

nn.Module

BaseOperator

单步变换,支持 LLM 驱动或规则驱动

模板

nn.Parameter

PromptTemplate

把 prompt 做成可复用、可插拔的“零件”

管线

nn.Sequential

PipelineABC

用 PyTorch 风格 forward() 组装算子

任何数据准备流程,都能被拆成“读→transform→写”三段,然后像搭积木一样重新组合。

2.2 算子分类:近 200 个官方算子

功能

命名后缀

例子

典型用途

生成

Generator

MathProblemGenerator

从 0 到 1 合成新样本

评估

Evaluator

CodeExecutionEvaluator

给样本打质量分

过滤

Filter

ToxicityFilter

按分数/规则剪枝

精炼

Refiner

CoTRefiner

不改样本数,只改字段内容

所有算子共享同一套“键值契约”,无需改代码,就能把数学算子直接复用到代码领域,只需换 prompt 模板。

打开网易新闻 查看精彩图片

不想写代码?直接甩给 Agent 一句话:

“我有一份 CSV 包含股票新闻,帮我生成 5 K 条 Text-to-SQL 样本,要带 CoT 推理,难度分三级。”

Agent 内部基于 LangGraph 多智能体协作:

① 意图拆解 → ② 算子检索 → ③ 缺失算子合成 → ④ 拓扑排序 → ⑤ 沙箱验证 → ⑥ 输出可执行 Python 文件。

平均 80 s 产出一条可用管线,人类只需做最后 5% 的微调

三、实验:10 K 如何打赢 1 M?

DataFlow 在 文本、数学推理、代码、Text-to-SQL、Agentic RAG、知识抽取 等关键场景中进行了系统实验,结果一致表明:用 DataFlow 生成的数据训练模型,性能全面超越现有主流基线,包括人工标注数据和大规模合成数据集。

3.1 数学推理:+3 分轻松拿捏

  • 在 MATH、GSM8K、AIME 等高难度数学基准上,DataFlow 合成的 10K 数据,比 Open-R1、Synthetic-1 等 SOTA 合成数据高出 1–3 个百分点。

  • 仅用 10K 样本 fine-tune Qwen2.5-32B,2 个 epoch 就达到 55.7 平均分,超越所有对比方法。

打开网易新闻 查看精彩图片
3.2 代码生成:平均提升 +7%
  • 在 HumanEval、LiveCodeBench 等四大代码评测中,DataFlow 生成的指令数据带来 7% 以上的平均性能提升。

  • 即使只用 1K 样本,也已优于 Code Alpaca 和带执行过滤的 Self-OSS 数据集。

打开网易新闻 查看精彩图片
3.3 Text-to-SQL:小数据,大胜出
  • 用 不到 9 万条 DataFlow 生成的 Text-to-SQL 数据训练 Qwen2.5-Coder-7B,在 EHRSQL 上执行准确率暴涨 31.8%(24.3 → 56.1)!

  • 仅用 5 万条,就超越 SynSQL(50K);9 万条性能媲美 SynSQL 的 250 万条,数据效率提升近 30 倍!

打开网易新闻 查看精彩图片
3.4 多跳问答(Agentic RAG):合成数据干翻人工标注
  • 在 HotpotQA、Musique 等多跳 QA 任务上,完全由 LLM 合成的 DataFlow-AgenticRAG-10K,在跨数据集泛化(OOD)上 全面匹敌甚至超越人工构建的数据集。

  • 在 2Wiki 和 Musique 排除本域测试后,分别高出 2.6 和 1.2 个百分点。

打开网易新闻 查看精彩图片
3.5 医疗知识抽取:SFT > RAG + CoT
  • 在 PubMedQA、Covert 等医疗 QA 任务中,用 DataFlow 清洗+合成的医学 QA 对训练模型,比零样本 CoT 提升 15–20 个点,比 RAG 提升 10–50 个点。

  • 证明:结构化高质量合成数据 > 复杂推理提示 + 外部检索。

打开网易新闻 查看精彩图片
四、结语:DataFlow 给社区留下了什么? 4.1 三大贡献
  • 系统层面——首个把“数据准备”抽象为可复用、可组合、可调试的通用框架,像搭模型一样搭管线

  • 算法层面——提出“生成-评估-过滤-精炼”四段式范式,让合成数据从‘能用’走向‘好用’

  • 社区层面——开源 200 算子 + 10 K 高质量多域数据集 + CLI 脚手架,把“数据黑箱”变成人人可 PR 的玩具积木

4.2 未来展望
  • 模态扩充:DataFlow-Agent、DataFlex、DataFlow-MM等系列工具已在路上,下一站把表格、图结构、图文混排一起“流水线”

  • 领域深耕:DataFlow-AI4S(科学计算)、DataFlow-Industry(工业制造)预研启动,让合成数据走进反应堆、走进晶圆厂

如果说过去三年,大模型的“摩尔定律”发生在参数维度;那么接下来的三年,“数据摩尔定律”将由 DataFlow 这样的框架来书写—— 更少的数据、更高的质量、更快的迭代、人人可复现。

欢迎大家关注使用DCAI的开源项目并与我们进行技术交流,如果觉得好用也请帮GitHub仓库点一个star~ 论文链接: https://arxiv.org/abs/2512.16676 ( of the Hugging Face daily paper) 仓库链接: https://github.com/OpenDCAI/DataFlow/ (2k star)

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈