想象这样一个场景:2026年,某家大模型公司的工程师盯着训练日志,发现新跑的一轮迭代,损失曲线不再下降——不是算法问题,是互联网上能抓的公开文本,已经喂完了。这不是科幻,是Epoch AI测算的时间窗口。当"低垂的果实"被摘尽,AI的下一波突破,还能从哪找燃料?
一、数据枯竭:两个维度的真实压力
现代AI的底层逻辑很直白:从数据里"学习"模式。没有数据,模型就是空壳。大模型时代,自监督学习降低了人工标注成本,让数据、参数、算力形成正向飞轮——这就是规模定律(Scaling Law)的通俗版本:堆得越多,能力越强。
但这个飞轮正在撞上天花板。Epoch AI的测算给出具体时间点:2026年到2032年间,人类公开的文本数据将被语言模型训练耗尽。这不是说人类不再生产信息,而是高质量数据的线性增长,追不上AI发展的超线性预期。
数据挑战其实分两层。一层是"有没有":数量和覆盖度够不够;另一层是"好不好":真实性、标注水平、结构化程度过不过关。这两层问题贯穿AI全链条——预训练缺干净语料,后训练缺高质量标注,行业微调缺专业数据,多模态缺图文对,具身智能缺真实场景数据。
应对路径大致三条:深挖人类存量数据、让机器自己生产数据、从算法层面减少对数据的依赖。前两条是当下最现实的突破口。
二、存量数据:孤岛里的高价值矿藏
"数据枯竭"的说法有点误导性。真正快用完的,是公开、无产权约束、容易获取的文本数据。人类社会和人脑中,还有大量未开发的认知资产。
先看行业数据孤岛。电商平台攥着交易记录、用户评价、用户画像;医疗机构锁着病历、影像、诊断轨迹;制造业沉淀着工艺参数、质检标准、故障日志;科研领域更有大量未发表的实验数据——包括失败的。
这里有个反直觉的点:科学界长期存在"发表偏差",成功的实验才见期刊,失败的直接进垃圾桶。但对AI来说,失败案例和成功案例一样有价值。那些没被共享的负面实验结果,构成了一座尚未开采的知识矿山。
这些数据的问题不是不存在,而是不能用。隐私、产权、商业机密、监管合规,一道道墙把它们隔成孤岛。RAG(检索增强生成)能在具体应用里调用局部价值,但很难汇聚成持续提升通用智能的大规模训练语料。
技术层面已经在试探解法。联邦学习允许数据不出本地,联合完成训练;差分隐私用数学方法保证个体信息不可还原,给跨机构协作划安全边界。这些手段解决的是"在不泄露隐私的前提下,如何让数据参与训练"。
但技术只是安全阀。要让数据真正流动起来,需要制度设计。两条路径正在并行:自下而上的市场化激励——数据交易市场、数据信托、数据要素入表,让拥有者在合规前提下有动力开放,分享增值收益;自上而下的公共安排——政府或行业监管者在国计民生、公共安全、基础科研领域统一标准、建设基础平台和公共数据集,加快数据从"碎片资源"变成"公共基础设施"。
技术和机制,缺一不可。
三、人脑中的认知资产:思维轨迹与隐性知识
比行业数据更难挖掘的,是人类大脑里还没被数据化的部分。其中两类对AI能力上限影响最深:复杂决策的思维轨迹,以及专家的隐性知识。
思维轨迹的缺失是个结构性问题。企业家做重大决策、医生诊断疑难杂症、工程师处理罕见故障——这些高价值任务,人类通常只记录"做了什么"和"结果如何",很少系统留存"为什么这么想、考虑过哪些备选、为什么排除其他方案"。
这就像数学题只存题目和答案,没有解题步骤。AI只能在输入输出对上做模式拟合,很难学到可迁移的推理能力。过去一年,加入"思维链"能力的模型性能跃升,恰恰验证了这条路径的价值。但可用的高质量思维轨迹数据,目前依然极度稀缺。
隐性知识更难处理。资深专家的直觉、情境化的感知、具身的"肌肉记忆"、团队协作的默契规则——这些认知难以清晰描述,也就难以完整标注、难以形成训练样本。AI够不着,就只能停留在表层模仿。
系统性数据化思维轨迹和隐性知识,成本高、难度大。但从信息密度和独特性来看,这是座挖掘难度大但价值极高的金矿,很可能是未来AI能力持续提升的关键来源之一。
四、知识治理:从"垃圾进垃圾出"到"面向AI的提纯"
就算挖到了数据,质量问题同样致命。AI训练领域有句老话:"垃圾进,垃圾出"。模型本身缺乏自动鉴别真伪和重要性的能力,很容易从低质量数据中学到错误模式。
互联网信息的质量参差不齐,错误、虚假、过时、片面、重复内容大量存在。直接用于训练,输出中就会放大幻觉与偏见。更麻烦的是AI时代的新变量——GEO(生成式引擎优化)。围绕"被模型引用和采样权",过度甚至恶意的优化正在制造新的知识污染入口。
提升数据质量需要一整套工作。底层是常规操作:清洗、去重、纠错、噪声过滤。再往上一层,为重要知识建立溯源和版本控制,明确来源、更新时间、责任主体,通过知识图谱统一概念、结构化关系。在高价值专业领域,需要精细标注工程和领域专家参与,构建"少而精"的高置信度数据集,作为模型校准与评估的基准。
只有当人类知识经历过这样一轮"面向AI的治理和提纯",后续的模型训练才能真正站在更干净、更坚实的地基上,而不是踩在一团混杂的信息泥沙里。
五、机器生产数据:合成数据与自我对弈
人类数据挖无可挖时,机器可以自己造数据。这个方向的核心逻辑是:用AI生成合成数据,再喂给AI训练。
文本领域,大模型可以生成海量语料,问题是如何保证质量。图像和视频领域,渲染引擎、物理模拟、生成模型结合,能低成本产出多样化场景。具身智能更需要这条路——真实机器人采集数据成本极高,仿真环境里的合成数据是规模化训练的前提。
但合成数据有天花板。模型生成的内容,本质上是训练分布的重构和插值,很难突破原有认知边界。用合成数据训练多代模型,可能出现"模型崩溃"——分布逐渐收窄,多样性丧失,最终性能退化。缓解方案包括:保留一定比例真实数据作为锚点、多模型协作生成以扩展多样性、引入外部验证机制过滤低质量样本。
另一个路径是自我对弈(Self-Play)。AlphaGo的围棋训练是经典案例:模型与自己对弈,从胜负反馈中学习。这种方法在规则明确、反馈清晰的场景有效,但推广到开放领域挑战很大——如何设计合理的"对手"、如何定义"胜负"、如何避免在封闭循环里自我强化错误,都是未解难题。
六、数据与模型的协同进化
数据瓶颈的破解,最终依赖数据和模型的协同进化。更好的模型能生成更高质量的合成数据、更高效地利用有限数据、更精准地筛选和治理知识;而这些改进又反过来释放新的数据供给。
这个飞轮的启动,需要同时在三个层面发力:技术层面,隐私计算、合成数据生成、质量评估工具持续迭代;机制层面,数据产权界定、交易规则、公共数据基础设施建设逐步完善;认知层面,社会对个人数据价值、AI训练数据需求的理解不断深入。
数据枯竭不是终点,而是转折点。它迫使行业从"大力出奇迹"的粗放模式,转向对数据价值的精细挖掘和系统治理。那些能在孤岛数据流通、人脑认知资产数据化、知识质量提纯、合成数据生态上建立优势的玩家,将在下一阶段竞争中占据主动。
AI的燃料不会耗尽,只是获取方式正在发生根本变化——从露天开采,转向深层钻探和人工合成。这个转变本身,就是行业成熟的标志。
热门跟贴