No.0294
Science Partner
Bring you to the side of science
导 读
旻宏跟你说一个真实的荒唐事。
中部内陆一所职校,这两年嗅到AI风口,在能源转型绿电丰富的一个城市火速开了个几个新专业,名字起得很气派“人工智能技术应用“”数据科技服务”。招生老师跑进每一个可以跑进去的班级,站在讲台上说:
“同学们,AI是未来。数据是AI的粮食。现在全国缺口超过百万,你们只要学会打标注,月薪四五千起步,稳的。”
台下坐着一批十六七岁的孩子还有他们的父母,听完觉得这事靠谱。反正听起来比那些明日黄花的老专业好听多了,名字里带着AI,听上去就像站在了时代正中央。
于是第一届招满了。
两年后,这批孩子毕业了。
有人发现工作没着落,托关系问了一圈,得到的答案大同小异:要么岗位缩编了,要么干脆说“现在这块大部分交给模型自动跑了,你们来干嘛呢。”
整件事加在一起,从招生到失业,不超过三年。
一个专业的寿命,比一些网红餐厅还短。
这个世界、当下的教育设置,到底怎么了...
走,跟伙伴君来!
今日主笔 | 旻宏
学校新开了个AI专业,第一届学生刚毕业,岗位已经没了
我知道您看到这里可能想说:这不就是个例吗,哪个行业没有这种情况?
但问题是,这还真不是个例。
这两年,全国陆续开了几百个类似的专业方向,名字各有变体:AI技术应用、大数据标注与处理、智能信息服务……核心内容大同小异,都在教一件事:如何给AI打工。
学生学的是框图标注,是文本分类,是语音转写,是内容审核。
然后他们走出校门,信心百倍。然后,他们发现,这些工作,AI自己已经能做了。
不是做得和他们一样好,而是做得比他们更快、更便宜、更不需要交社保。
这就是今天职业教育里,最真实、最少人愿意正面讲的那个问题。
01. 你可能听过一个词,叫“知识蒸馏”。
如果没听过,旻宏帮你翻译一下:就是用大模型来教小模型,让小模型花更少的钱,干跟大模型差不多的活。
这本来是AI公司压缩成本用的技术。但这几年它被玩出了一种更激进的用法:各家公司开始直接拿竞争对手的模型输出来当训练数据,喂进自己的系统。
GPT的输出喂给Llama,Llama的数据流进Gemini,GEmini的输出再转手可能就成了下一代产品的语料。
整个AI行业的潜规则之一就是“互抄作业”。
而抄作业最直接的结果,就是原来需要大量人工来做的“数据生产工作”,正在被这个循环越来越多地内化进去。于是,那些职校开出来的课程里,本来依赖的那层岗位需求,开始快速萎缩。
学校不是没努力,企业也不是临时变卦,是整个行业底层的逻辑悄悄换了,而且换得太快,没给任何人留太多反应时间。
最惨的,是那些刚好在这个时间窗口里读完两年的孩子。
他们不是受害者,也谈不上被谁坑了。
他们只是,赶上了一个专业的有效期比他们的学制还短的年代。
02. 好消息是蒸馏这件事也有命门
要搞清楚这件事为什么会发生,我们得先想明白一个问题:AI互相抄作业,到底会抄出什么后果?
研究人员发现,纯合成数据的训练闭环是有极限的。这个现象有个专业名词,叫模型坍塌(Model Collapse)。
打个比方吧。你把一张高清照片复印,再把复印件复印,再复印,再复印。前几次看不出来,但复印到二十次的时候,图像已经模糊到认不出原来是什么了。
模型蒸馏的多代循环,本质上是同一个问题。每转一圈,都在累积误差。几代之后,模型开始丢失那些只有在真实世界里才会出现的东西:文化细节、边缘场景、人的真实判断,以及那些很难被归纳成规律的、活生生的认知复杂性。
特斯拉前AI总监,也是OpenAI的联合创始人之一大神Karpathy专门说过这件事。他的判断是:纯合成数据训练出来的模型会“静默崩溃”,质量不是一下子垮掉的,而是悄无声息地在你看不见的地方慢慢烂掉。
你以为它还好,其实它已经烂了。
所以模型互相抄作业的尽头,不是彻底不需要人了,而是如果没有高质量的真实人类数据压阵,整个链条最终会一起失效。
这也就是为什么,真实人类的高质量判断,在这个时代反而更值钱,但遗憾的是,值钱的,可能不是职校在教的那种。
03. 最先被吃掉的,恰好是最多学校在教的
数据标注这门生意,过去几年确实火过一阵。
逻辑很简单:大模型要吃大量数据,数据要有人去分类、打标签、做审核。于是市场上出现了很多岗位,也出现了很多培训班、职校专业、校企合作项目。很多地方一看,这不就是新时代的就业出口吗?
于是赶紧上马。
这套判断在当时不能说完全错。问题在于,技术演进的方向,比教育系统的反应速度快得多。
现在模型已经不只是需要人打标签,它自己也开始会打标签、会生成候选答案、会做初步分类、会帮你筛一遍数据。更重要的是,行业正在从低成本人工堆量转向高质量人类校准。换句话说,AI并不是把人彻底踢出去,而是把人从劳动密集型那一层往上推了一层。
可职业教育最难受的地方就在这儿:它最容易批量培养的,恰恰是最容易被替代的那一层,就比如我们提到那家设在绿电替代火电城市的职校。
这就很尴尬了。
学校教学生怎么框图、怎么分类、怎么转写、怎么做基础审核;但行业真正缺的,慢慢变成了懂业务、会判断、能质检、能仲裁的人。
一个是操作员,一个是把关人。这中间隔着一条很宽的河。
04. Scale AI为什么还值138亿?
说到这里不得不提一个人:Alexandr Wang,华裔,1997年生,19岁创业,做的就是数据标注生意,公司叫Scale AI,估值一度高达138亿美元,后来还拿到了美国国防部的AI合同。
很多人听到这里会困惑:这行不是要完了吗,他怎么还能值这个数?
原因在于,大多数人误解了Scale AI卖的是什么。
它卖的不是便宜的人力,而是一套数据工程体系——如何组织一条高质量的标注管道,如何做质量控制,如何让数据和模型训练形成真正的闭环,如何持续更新评测集和对齐反馈。
蒸馏时代,这套东西的价值反而在涨。
因为整个蒸馏链条需要一个锚,那些被反复验证、质量可靠、能防止模型漂移的高质量人类数据,是整个体系不塌的地基。没有这个锚,合成数据训出来的模型就是那张被复印了二十次的照片。
所以到今天,行业里的共识是这样的:合成数据管规模,人类标注管质量。两者不是你死我活,是分工配合。
05. 职校这次撞上的,不只是行业变化
说到这里,问题就不只是“数据标注行业会不会被替代”了,而是更扎心一点:
职校到底是在培养一个学生,还是在押注一个岗位?
这两者差别很大。
培养学生,意味着你面对的是长期稳定的技能需求输出。押注岗位,意味着你默认这个岗位在未来几年里还会存在,而且数量还不少。
问题在于,很多职业教育机构的逻辑,其实更接近后者。
他们不是先研究未来三年的行业结构,再去设计课程;而是先看到一个岗位热了、企业招人了、市场缺口大了,然后迅速把课程开出来。动作快的时候,确实能吃到红利。可一旦行业变向,学校就会比公司更被动。
公司不行,可以裁。学校不行,往往只能拖。而学生是最被动的那个。
他花了两年时间,学了一套当时看起来很对的技能,最后发现这个技能还没来得及成为自己的饭碗,就先变成了行业过渡期的临时工具。
学生们这种落差,和实实在在搭进去的时间,才是最伤人的。
因为它不是“你不努力”,也不是“你学不会”,而是你认真学了,最后发现课程本身押错了方向。
最后问一个真问题:当下职业教育最该重新思考的地方是什么
过去,很多职校强调的是上手快、能就业、证书好拿。这当然没错,但前提是市场对基础操作工的需求足够大。
可现在不一样了。
AI把很多基础活儿做掉之后,真正留下来的,是更靠近判断、质检、仲裁、反馈、行业知识的工作。未来更值钱的,不是“会不会按流程做”,而是“你知不知道这一步为什么要这么做”。
这对学校来说,意味着课程必须升级:不能只教工具,要教方法;不能只教操作,要教理解;不能只教一个固定岗位,要教学生如何在岗位变化之后继续活下去。
真正好的职业教育,不是给学生一张通往某个工位的门票,而是给他一套在岗位变化后还能重新站稳的能力。
这才是关键!
我是旻宏,咱们下期见~
本文仅作科普分享使用,欢迎小伙伴们点、收藏、关注,以备不时之需,当然更欢迎您把 介绍给周边可能需要的更多伙伴们呀。
热门跟贴