2024年,美国企业花在生成式AI上的钱超过130亿美元。但一个更隐蔽的数字正在浮现:麻省理工和波士顿大学的最新研究发现,传统自动化评估模型可能严重低估了AI对就业的真实冲击——不是替代某个任务,而是整个工作流程的"一键删除"。
研究人员把这个盲区称为"任务级测量的幻觉"。过去二十年,经济学家用Acemoglu-Restrepo框架拆解职业:把法官拆成阅读、推理、法律分析、写作等独立技能,分别评估AI替代概率。这套方法预测了制造业的机器人浪潮,却在新一轮AI面前突然失灵。
问题出在"串并联"的质变。
单个AI系统不需要在任一技能上超越人类。但当它能自主串联起"读取案卷→检索先例→识别争议点→起草意见书→标记存疑环节"的完整链条,且中间无需人类介入时,法官这个岗位的存在逻辑就被抽空了。旧框架盯着每个技能点说"还行",却没看见技能组合成的闭环已经自给自足。
研究团队为此设计了全新指标:Agentic Task Exposure(代理式任务暴露度,简称ATE)。这个复合指标不再问"AI能做什么",而是问"一个连贯的职业工作流能否被单一AI系统端到端执行"。
ATE的三层拆解:能力、整合、冗余
ATE分数由三个维度构成。第一层是AI能力分,基于O*NET职业数据库,测算当前AI对职业内各任务的胜任比例。这层数据相对直观——GPT-4能写代码、能润色文案、能做基础财务建模,这些已有共识。
第二层是整合难度分,评估任务之间的依赖关系是否允许无缝串联。有些工作天然碎片化:医生的诊断、沟通、手术操作分布在不同场景,物理隔离让AI难以接管。但有些工作流高度数字化且闭环,比如信用分析师的"接收申请→跑模型→评估风险→撰写建议→提交审批",所有环节都在屏幕内完成。
第三层是冗余风险分,判断人类在流程中的"胶水作用"是否可被替代。旧框架假设人类擅长"协调例外情况",但agentic AI的决策链已经内置了异常处理分支——不是遇到红灯就喊人,而是自己看灯、自己刹车、自己换道。
三层叠加后,ATE给出的是一个职业被"整岗自动化"的概率,而非零敲碎打的任务替代率。
信用分析师:一个被误读的典型案例
用传统模型看信用分析师,结论通常是"部分替代、人类仍具价值"。AI能做财务建模?可以。能评估信用风险?基本能。能写推荐报告?越来越行。但人类需要监督、需要把关、需要处理边缘案例。
ATE框架的视角完全不同。如果单一系统能完成" ingest applications, run all the models, evaluate comparables, identify red flags, and draft approval or rejection with reasoning"——从 ingestion 到 output 无人介入——那么分析师不是被"辅助",而是被"绕过"。
这种区别类似于马车夫和汽车司机的断层。汽车没有让马车夫"监督"引擎,而是直接取消了马车夫这个位置。Agentic AI对信用分析师的威胁,不是"你的一部分工作被工具化了",而是"你的工作流被重新封装成了一个黑箱,箱子上不需要操作员"。
研究团队没有公布具体职业的ATE分数排名,但暗示了评估方向的剧变:高数字化、高流程标准化、低物理交互的白领岗位,风险被系统性低估。
为什么旧框架成了"结构性盲区"
Acemoglu-Restrepo模型在2018年提出时,AI还停留在"工具"层面——Excel替代手工计算,CAD替代绘图板,人类仍是决策中枢。模型的隐含假设是:任务可分割,人类负责整合。
但agentic AI的架构设计本身就是整合者。AutoGPT、Devin、各类AI Agent框架的核心卖点,正是"给定目标后自主拆解步骤、调用工具、迭代执行"。这不是人类用AI做任务,而是AI用人类做验证——而且只在最终环节。
研究人员在论文中写道:「The old frameworks look at each skill separately and miss how dangerous the combination becomes.」技能组合的毒性,来自自主串联带来的涌现性风险。单个任务的安全边际,在端到端闭环中被指数级放大。
更麻烦的是政策层面的滞后。各国政府的AI就业影响评估,大多仍基于O*NET的任务级数据。这意味着官方统计可能正在系统性地低估失业风险,就像用体温计量血压——工具本身没坏,但测错了东西。
测量革命之后:我们还能做什么
ATE框架的提出,本质上是一次测量工具的换代。但测量本身不解决问题,只是让问题可见。
对于企业,ATE提示的决策逻辑很残酷:如果你的岗位ATE分数高,投资"人机协作"培训可能是伪命题——不是人类+AI,而是AI+少量人类兜底。与其让员工学Prompt Engineering,不如重新设计岗位存在的必要性。
对于个人,技能组合的"抗拆解性"成为新护城河。单一技能再精深,若可被无缝嵌入AI工作流,价值就会向流程两端转移:要么做AI的输入源(定义问题、提供上下文),要么做AI的输出阀(最终裁决、承担责任)。中间环节的"执行层"正在变薄。
对于政策制定者,ATE意味着需要新的社会保障设计。任务级替代是渐进式的,给人转型窗口;工作流级替代可能是突发性的,一个SaaS更新就能让某类岗位批量消失。失业保险、再培训体系、收入支持政策,都需要为这种"断崖式"冲击做准备。
论文最后没有给出乐观或悲观的结论。研究人员只是强调:「Our measurement tools can't see it」——如果我们连问题有多大都测不准,任何解决方案都是盲人摸象。
ATE框架是第一个试图睁眼的尝试。但睁眼之后看见什么,取决于AI agent的进化速度,以及我们愿意多快承认:有些岗位的存在,从来不是因为必要,只是因为之前没有更好的串联方式。
下一个被端到端重构的工作流会是什么?研究团队没有点名,但给出了筛选标准:数字化程度高、决策链封闭、人类协调成本显著。按这个清单,法律助理、初级会计、标准合同审核、基础医疗分诊——都在射程之内。
热门跟贴