大模型这两年给人的感觉很奇怪。
钱越烧越多,GPU越堆越高,发布会一个比一个热闹,但普通人的直观感受却是:新模型好像没有当年ChatGPT横空出世那么吓人了。
很多人第一反应是:是不是算力不够?
我的判断是:算力当然还重要,但最短的那块板,正在从算力变成数据。更准确地说,是高质量、真实、可用的数据。
一棵庄稼能长多高,不看最多的养分
这里要请出一个农业里的老概念:李比希最小因子定律。
这个规律常被归到德国化学家李比希名下。它讲的不是玄学,而是种地。
一棵庄稼能长多高,不取决于哪种养分最多,而取决于哪种养分最缺。
后来大家用一个木桶来解释:一个桶能装多少水,不看最长的木板,只看最短的木板。水会从最短的地方漏出去。
这就是我们常说的木桶短板。
把这个木桶套到AI上,就很清楚了。
大模型这只桶,主要有三块板:算法、算力、数据。
前几年算法是短板,Transformer把这块板拔高了。后来算力是短板,全世界开始抢GPU、建数据中心。现在算力还贵,但继续只加算力,边际收益已经没那么猛了。
为什么?
因为数据这块板开始漏水了。
互联网不是没内容了,是“好内容”不够了
很多人会问:互联网这么大,怎么会没数据?
注意,不是没内容,是没足够多的好内容。
大模型要的不是随便一堆文字。它要的是干净的、去重的、知识密度高的、结构清楚的、最好还是真人生产的数据。
垃圾内容当然很多。营销号、搬运稿、重复网页、低质问答、机器改写文,堆得像山一样。但这些东西喂多了,模型不但不会变聪明,反而会越来越油、越来越空、越来越像套话机。
Epoch AI曾经估算,经过质量和重复因素调整后,可用于训练的公开人类文本库存大约是300万亿token。token可以理解成模型吃进去的“小字块”。按照趋势,语言模型可能在2026到2032年之间充分用掉这批公共文本库存。
这不是说2032年以后AI就完了,而是说靠“继续爬公开互联网”这条老路,越来越难了。
三条破墙路,没有一条轻松
数据墙不是不能破,但每条路都有代价。
第一条路,是去找私域数据。
比如医院病历、工业设备日志、企业客服记录、机器人真实操作数据。这些数据以前没有充分进入训练流程。谁能合法、安全、低成本地组织这些数据,谁就有新的护城河。
但问题也很现实:私域数据涉及隐私、合规、商业机密。不是你想拿就能拿。
第二条路,是用合成数据。
也就是让AI自己生成训练材料。听起来很美:缺数据,那就自己造。
但这里有个坑,叫模型崩溃。
简单说,如果AI一代一代吃自己吐出来的东西,罕见信息会先消失,长尾知识会被磨平,最后模型会越来越像“平均答案机器”。就像一个村子里的人只互相抄作业,抄到最后,错的地方会越来越像真理。
所以合成数据不是不能用,而是必须有筛选、有验证、有真实数据压舱。
第三条路,是数据工程。
这条最朴素,也最重要:把已有数据清洗干净,去重、标注、结构化、分层,用更少的数据榨出更多价值。
未来AI公司的差距,不只是谁买了多少GPU,还会是谁的数据管道更干净,谁能把一吨原矿炼出一克金子。
机器人更能说明:数据才是真贵
这件事在机器人上更明显。
聊天机器人缺的是高质量文本,具身智能缺的是高质量物理数据。
让机器人学会拿杯子、叠衣服、进电梯、避开小孩和宠物,不是看几篇网页就会的。它需要真实世界里的动作、碰撞、失败、反馈。
问题是,真机采集太贵了。
一个机器人摔一次,可能就是几万块维修费。一个动作采集一万次,背后是场地、设备、工程师、时间成本。用仿真数据可以降低成本,但仿真世界和真实世界之间又有差距。
所以你会看到,NVIDIA、Figure、宇树、特斯拉这些玩家,都绕不开同一个问题:怎么获得更多、更好、更接近真实世界的训练数据。
从语言模型到机器人,行业换了,短板没换。
还是数据。
真正的变化:数据正在变成新的护城河
过去两年,AI竞争看起来像算力军备赛。
谁买得起H100,谁能建万卡集群,谁就更强。
但下一阶段,比赛会变得更复杂。算力还是门票,但数据决定上限。
这也是为什么做数据标注、数据管理、模型评测的公司突然值钱。比如Scale AI,过去看起来只是“给AI打标签”的外包公司,但在大模型时代,它变成了数据基础设施公司。因为模型越强,越需要高质量反馈、高质量标注、高质量评测。
这也给内容创作者一个很现实的提醒。
当互联网上充满AI改写、AI搬运、AI洗稿的时候,真正稀缺的东西反而变了:真人经验、现场观察、专业判断、原创表达。
机器可以批量生产“像内容的内容”,但它很难凭空生产新的真实经验。
所以,大模型卡住这件事,表面看是科技公司的问题,背后其实是整个互联网的问题。
过去,平台奖励流量,于是大家生产套路内容。现在,AI吃完了这些套路内容,发现自己也被套路困住了。
我的判断是:未来几年,最值钱的不是“会用AI写得更快的人”,而是“能给AI和人类都提供新信息的人”。
AI缺的不是更多废话。
AI缺的,是世界里真正发生过、真正被理解过、真正有人负责的东西。
这就是数据墙背后的真问题。
热门跟贴