AI要取代知识工作者的 headlines 已经让人审美疲劳。麦肯锡估算,到2030年,AI驱动的智能体(AI agents,即自主执行任务的AI系统)和机器人每年可能创造约2.9万亿美元的美国经济效益。这个数字够大,大到让董事会心跳加速,让投资人连夜改PPT。

但同一份研究里埋着一句话,几乎没上过热搜: capturing that value "depends less on new technological breakthroughs than on how organizations redesign workflows — especially complex, high-value ones that rely on unstructured data."

翻译成人话:钱能不能赚到,不看你模型多先进,看你有没有搞定那些乱糟糟、分散在各处、格式千奇百怪的非结构化数据。而维护这些数据的人,名片上写的是"财务分析师""供应链经理""营收运营",实际每天干的活,骨子里全是数据工程。

这是一个几乎没人讨论的市场。但它大得离谱。

246,000 vs 1,500,000:统计学的障眼法

246,000 vs 1,500,000:统计学的障眼法

美国劳工统计局的数据很好查:2024年美国约有24.6万名数据科学家,预计2034年前增长34%。金融分析师也有数十万,每年新增约3万个岗位。

这些数字的问题是——它们漏掉了真正干活的人。

IBM在2020年估算过,美国每年与数据分析相关的职位空缺会达到270万个,涵盖数据驱动决策者、职能分析师、分析经理。麦肯锡更早的一份报告指出的缺口不是14万到19万"深度分析专家",而是150万需要理解数据、用数据驱动决策的管理者和分析师。

150万这个数字才是理解市场的关键。他们的头衔里没有"数据"二字。他们是消费品公司的需求预测员、中型制造商的财务规划与分析(FP&A)分析师、SaaS公司的客户成功运营负责人、医疗系统的营销分析师。每天建模型、跑查询、维护数据管道、产出报告——在职能头衔的掩护下,从劳动力统计的雷达里消失了。

全球范围内,这个群体以千万计。他们有一个共同点:从来不用单一工具。

一个分析师要会6种工具,但没人教他们怎么连起来用

一个分析师要会6种工具,但没人教他们怎么连起来用

2025年对1355份数据分析师招聘帖的分析显示:SQL出现率超过50%,Excel超过40%,Power BI占29%,Tableau占26%——这还没算Python、Alteryx、dbt、Databricks、Snowflake,以及已经成为标准基础设施的云数据市场。

四到六种不同工具出现在大多数职位描述里,每种代表数据工作的一个独立层级。问题是,这些工具的设计哲学是"各自为政"。Excel假设你是财务专员,Snowflake假设你是数据工程师,Tableau假设你是BI专家。没有人假设同一个人需要在三小时内切换这三种身份。

结果就是:1500万人每天在不同界面之间搬运数据,手动对齐字段格式,在Slack里追问"这个数为什么对不上",然后把80%的精力花在数据准备上,只剩20%真正分析。

AI本该解决这个问题。但目前的AI工具走了两条极端路线:要么给技术专家用的(Copilot写代码、Cursor改脚本),要么给完全不懂技术的人用的(聊天式问答)。中间这1500万人被晾在原地——他们够 technical 到不会被"智能对话"糊弄,又不够 technical 到能自己搭 pipeline。

为什么"替代"叙事漏掉了最肥的市场

为什么"替代"叙事漏掉了最肥的市场

硅谷喜欢讲"替代"故事,因为估值模型吃这个。但企业采购部门的实际行为暴露了真相:Gartner预测2025年全球IT支出增长9.8%,其中企业软件增长12%,而"数据与分析"子类别的增速更快。花钱的方向不是"少雇人",而是"让现有人多做对的事"。

一个未被充分报道的趋势是"数据运营"(DataOps)工具的兴起。这不是传统意义上的ETL(抽取-转换-加载,数据集成的基础流程),而是面向业务用户的"最后一公里"自动化:自动发现表格间的关联、标记数据血缘、同步跨工具的变更通知。估值较高的初创公司如Monte Carlo、Bigeye、Metaplane都在这个赛道,但它们主要服务有专职数据团队的企业。

更大的机会在下游——那些没有数据工程师编制的中型公司。他们的FP&A分析师可能同时管着三个ERP系统的数据抽取,用Excel做转换,再手动上传到Tableau。这不是"效率低下"可以概括的,这是每天都在发生的、数以千万计的工作小时。

AI对这个群体的真正价值,不是替代,而是消除"上下文切换税"。想象一下:分析师在Excel里选中一列异常数据,AI自动识别它来自Salesforce的哪个对象、上次更新是什么时候、与Snowflake里的哪张表关联——而不需要他打开五个标签页、登录三个系统、发两条Slack消息确认。

这不是科幻。Microsoft Fabric和Google的Looker已经在尝试"语义层"统一,但进度缓慢,因为大厂商的利益在于锁定生态,而非打通异构环境。创业公司更有动力做这件事,但融资环境让它们倾向于服务大客户、卖高客单价,而非啃中端市场的硬骨头。

1.5万亿缺口的另一面:谁在给隐形人做工具

1.5万亿缺口的另一面:谁在给隐形人做工具

回到麦肯锡的2.9万亿。这个数字的隐含前提是:企业真的完成了"工作流程重新设计"。现实是,大部分公司的数据架构是过去十五年"最佳实践"的层层堆叠——Hadoop时代留下的数据湖、云迁移时建的仓库、SaaS爆发时长出的数百个应用孤岛,再加上最近两年紧急上线的AI试点项目。

这种架构下,1500万数据工作者不是"被替代"的候选人,而是"被赋能"的最优解。他们懂业务语境(为什么这个指标这个月异常)、懂工具局限(为什么Salesforce的报表不能直接用)、懂组织政治(为什么那个数据源需要VP审批)。这些知识无法被LLM(大语言模型,即当前主流AI的核心技术)自动习得,因为它们从未被文档化。

一个被低估的细分赛道正在浮现:"AI副驾驶"(AI Copilot)的业务用户版本。不同于GitHub Copilot面向程序员,这类工具面向的是会写VLOOKUP但不会写Python、知道什么是JOIN但记不住语法的人群。代表产品包括Julius AI(对话式数据分析)、Equals(AI增强的电子表格)、以及Notion和Coda最近集成的数据功能。

它们的共同假设是:用户不想学新工具,想在熟悉的环境里获得超能力。这个假设对不对,将决定谁能吃到1500万人市场的蛋糕

目前的数据并不乐观。Julius AI的增长主要靠技术爱好者传播,Equals的付费转化集中在初创公司财务团队,尚未突破传统企业的大规模采购门槛。产品形态也还在摇摆:对话界面是否比公式栏更高效?自动生成的图表是否比手工调试更可信?这些问题没有标准答案,因为用户自己也在学习"和AI协作"的新习惯。

但市场规模的计算是清晰的。假设1500万美国数据工作者每人每年产生1万美元的工具支出(相当于当前Excel+BI工具+云服务的组合成本),这就是1500亿美元的年度市场。全球放大3-4倍,5000亿美元量级。如果AI工具能替代其中20%的人工耗时,按人均成本10万美元计算,又是3000亿美元的效率价值。

这些数字的粗糙程度,恰恰说明市场的早期阶段。没有人真正知道"业务用户的AI工具"应该长什么样,就像2007年没有人确定iPhone该有物理键盘还是全触屏。

一个值得追踪的信号是微软的动向。Excel每月有7.5亿用户,是地球上最广泛使用的"编程环境"。Microsoft 365 Copilot的定价是每个用户每月30美元,但目前的演示集中在"生成内容"(写邮件、做PPT),而非"操作数据"(跨系统查询、自动建模)。如果微软把Copilot的重心转向后者,整个赛道将被重新定义。如果它继续押注"内容生成",就留给创业公司一个窗口期——可能是3-5年——去建立面向数据工作者的独立品牌。

另一个信号来自人才流动。过去18个月,从Snowflake、Databricks、Fivetran等数据基础设施公司离职的工程师,创业方向 increasingly 偏向"业务用户层"而非"基础设施层"。他们带着对数据管道复杂性的深刻理解,试图把技术抽象成非技术人员能用的产品。这种"降维创业"的成功率 historically 不高,因为技术背景创始人容易高估用户的工具学习意愿,但这次的市场条件不同:AI降低了交互门槛,企业预算向效率工具倾斜,且1500万人的痛点是真实、高频、愿意付费的。

所以真正的问题可能是:当AI终于学会理解业务语境,而不是仅仅生成代码,这1500万人的工作会变成什么样?他们会变成"AI管理者"——审核机器输出、处理异常案例、维护人机协作的规则——还是会分化成两个群体,一端是深度技术专家,另一端是纯粹的业务决策者,中间层被压缩消失?

历史经验不支持"中间层消失"的预测。ATM(自动柜员机)的普及没有减少银行柜员数量,反而让柜员从数钱转向销售理财产品,总数在随后二十年增长。电子表格没有消灭会计,而是让每个管理者都能做财务分析,会计的工作复杂度随之上升。技术对知识工作的典型影响不是替代,而是重新定义"基础任务"的边界,把人的精力推向更高阶的判断。

AI对1500万数据工作者的影响,大概率遵循同一剧本。区别在于速度:ATM和电子表格的渗透用了十年以上,而AI工具的迭代周期以月计算。这意味着"重新设计工作流程"的压力来得更快,企业的组织学习能力将成为真正的竞争壁垒——比模型能力更重要的壁垒。

那个在消费品公司做需求预测的分析师,明年会不会有一个AI界面,让她用自然语言追问"为什么华东区的预测偏差连续三周超过15%",然后自动追溯到底层的POS数据、天气数据、促销排期,生成假设并建议验证路径?技术上是可行的。产品化是艰难的。组织采纳是未知的。

而这正是市场的全部空间。