美图拒绝被 AI 吞噬|工作流|引擎|知名企业|编程|美图|调用

当人人都会编程，软件公司卖的是什么？

文丨李赓

过去十年，Salesforce、Adobe、Intuit 等 SaaS 巨头建立了一套确定性极高的商业规则：按员工席位收租。公司规模越大，员工越多，软件公司就能获得更多收入。

但时间进入 2026 年，受 Anthropic 发布 Claude Cowork 等自主工作流工具影响，外国论坛上的科技博主推演了一条逻辑链：“自然语言编程” 让代码生成成本趋近于零；AI 智能体接管数据分析与执行；企业不再需要庞大的基础团队，按人头计费的软件席位随之被掏空，最终将标普指数拖入长达数年的回撤。他们还为此创造了一个新词 “SaaS pocalypse（SaaS 末日）” 。

在代码生成唾手可得的当下，这种判断听起来相当符合直觉。恐慌快速越过讨论阶段，直接凝结为市场的抛售共识。这些行业风向标的股价在几周内下跌 25% 至 30%。公开软件公司 ETF 单日蒸发约 3000 亿美元，直接抹去 ChatGPT 发布以来的所有涨幅。

从铁路狂热到互联网泡沫，颠覆性技术落地前，资本的第一波反应永远过激。然而当人工智能成为 “基础设施”，大模型转而寻求商业化，应用软件能够内化 AI 能力，市场将开始重新审视叙事的合理性。

人人编程，为什么不等于杀死软件公司？

3 月初，知名风投机构 a16z 发文反对 “SaaS 末日” 恐慌。2011 年，正是这家机构抛出 “软件正在吞噬世界” 的论断，确立了过去十年的 SaaS 投资叙事。

面对如今 “AI 吞噬软件” 的市场共识，a16z 给出了一套反向推演：AI 是软件业发生过的最好的事。大模型只是提供生成能力的 “引擎”，把引擎装配成解决具体业务需求的 “整车”，才是软件最终的卖点。

在这个比喻下，部分软件的溃败成了必然：当软件原有的能力被大模型 “引擎” 直接覆盖，或自身 “整车” 的价值在 “引擎” 之外比重过小，淘汰便不可避免。只会照本宣科、做信息搬运与规则执行的审批系统和客服机器人属于前者，其生存空间正被大模型的推理能力全面接管；而近几年涌现的、仅在大模型上套一层简单界面的薄 SaaS 属于后者，它们缺乏深层工作流壁垒，同样会被底层能力的迭代抹除。

在 a16z 的推演中，幸存软件的价值在于与 “工作流” 的结合程度：只有把大模型的生成能力装进企业真实的工作流程里，才能实现价值。一家服装公司修图不是靠一句提示词，而是要依次跑抠图、光影校正、风格统一十几个步骤——把这些步骤串成自动流水线，才是客户愿意付费的东西。

以输出一张高要求的品牌宣传图像为例，极少能靠一句提示词一次性完成，往往需要依次调用图像生成、去背景、超分、重绘与风格控制等十几个不同模型。软件仍需要通过代码组织起 “编排调度层”，负责将接口与错误率各异的碎片化模型，缝合成一条多步骤流水线。并通过工作流设定结构化的约束机制，允许人类在关键节点进行纠偏，将 AI 盲盒式的 “黑盒概率”，强行收敛为稳定、可复现的工业级确定性交付。

当软件不再只是辅助工具，而是能直接输出确定性成果的数字流水线，客户可以根据最终的业务结果来支付费用，软件 “按席位收租” 的旧模式自然瓦解，部分应用采取的 “订阅制” 也可以转变为 “Token 消耗”。

这种商业趋势，已经在部分应用公司的业绩中得以呈现。中国影像应用公司美图近期公布一季度数据，截至 2026 年 3 月，全球付费用户数超过 1790 万，一季度以付费订阅为主的 “影像与设计产品” 收入 8.52 亿元。

其 3 月的 AI 算力点消耗金额对比去年 12 月增长 59%。这部分增长主要源于美图的生产力应用，而这些应用也正是之前被认为很大可能被大模型取代的软件类型。但美图在订阅基础上延伸出的 AI 算力点消耗，让市场看到了应用成为 “Token 加工厂” 的潜力。

摩根士丹利与瑞银在研报中指出，纯粹的自然语言无法独立完成复杂的图像编辑，大模型存在能力极限。他们认为美图的产品牢牢守住了大模型无法跨越的 “最后一公里”。高盛甚至将美图的估值方法从市盈率（P/E）切换为更苛刻的现金流折现（DCF）。分析师不再只看当期利润，而是押注美图的商业模式能持续产生自由现金流。

AI 应用，能成为 “Token 加工厂” 吗？

愈演愈烈的行业竞争态势下，二级市场需要看到，这个 “Token 加工厂” 怎么运转起来，并源源不断地产生经济效益。

在生成式 AI 的浪潮中，美图所在的图像与视频编辑行业，受到的冲击也最为直接。过去，传统算法只能对已有像素进行搬运或形变；如今，大模型直接赋予机器 “无中生有” 的像素级推理能力。交互门槛被自然语言击穿，一句话便能完成复杂的渲染工作。

但在真实的商业落地中，愿意为软件付费的客户并未直接投向通用大模型。因为商业交付追求的不是单次生成的 “画面好看”，而是极高的确定性、一致性与工业化生产效率。

电商与商拍场景中，客户对违反物理规律的错误零容忍。某大型服装企业在测试 AI 生成时，曾抛出涵盖抠图、扩图、融合的 46 道考题，结果被评估为 “完全不可用”。核心原因在于光影逻辑错误 —— 人像光影由内向外，背景光影却从外向内，画面一眼假。此外，当客户需要用一件平铺的衣服生成模特上身图时，大模型只能做到将假人替换为真人，无法满足真实的试衣需求。

同时，真实的商业修图充斥着 “眼角抬高 25%” 这类极度主观且精细的微调。用自然语言向大模型描述这些动作极易引发局部结构的生成混乱。

在品牌营销场景中，制作一张符合视觉规范的海报极少能靠一句提示词（One-shot prompting）完成。它需要一条复杂的专业流水线：开发者需要调用 OpenPose 模型固定模特的奔跑动作，调用 Depth 深度图模型确保背景建筑物的透视关系正确，最后还需串联 IC-Light 技术重新计算人物与新背景融合时的阴影方向与色温。

大模型只能承担其中的生成环节，无法提供一套结构化的约束机制。在这种能力断层中，美图找到了重构业务的机会。

以美图旗下的 Agent 产品 RoboNeo 为例，今年 3 月，这款产品的 AI 算力点消耗金额对比去年 12 月增长超过 300%。它把字节跳动 Seedance 2.0 等外部大模型和自研模型编排成工作流，用户只需上传图片、提出需求。系统自动调度合适的模型组合，确保每次出图的光影、颜色、尺寸都符合商用标准，而不是撞运气。

同时，它解决了通用大模型的 “失忆症”。大模型没有记忆，RoboNeo 则用一套记忆系统记录用户的冷暖色调、视频卡点等修图偏好，集中管理品牌 Logo、往期素材。用户换设备或换项目时，不需要每次向 AI 重新解释 ‘我的品牌长什么样’，品牌的一致性不会因为换了操作人而失控。

在更复杂的长链条内容创作中，RoboNeo 打破了单点工具形态，推出 “多智能体协同”，系统会在后台自动组建团队。以视频生成场景为例，系统自动组建团队：“首席编剧” 搭建叙事骨架、“分镜导演” 编写脚本、“艺术总监” 确定场景锚点图、“后期合成” 负责出片。

如果用户对某一步不满意，无需将项目全盘推倒重来。系统引入了节点功能，用户只需在输入框中 “@ 首席编剧” 要求单点重写，或者无缝衔接传统的 AI 改图、无痕消除等手动编辑工具进行二次修正。这种局部控制与多轮收敛机制，精准复刻了专业创作机构的分工协作动作。

行业 Know-how 价值的凸显

落地行业场景的工作流编排，几乎重构了美图所有的生产力应用。

美图设计室将特定场景的行业经验直接打包为 Skills。比如跨境电商卖家真实的诉求是：在 30 分钟内低成本交付一套绝对不变形、高转化的商品图。在 RoboNeo 中，用户上传单张耳机素材后，系统会自动识别材质与卖点，规划主图、细节图与对比图的结构，并直接对齐各大电商平台的尺寸规范。

像线下咖啡店这类没有专业剪辑团队的实体店，店主用开拍，只需输入一句 “帮我生成一条引流视频”，系统就会自动打包撰写剧本、剪辑生成、自动配乐，完成视频包装的全流程。它帮咖啡店老板生成引流视频，老板不用雇人、不用学剪辑，付钱就行。

将大模型隐藏在 “懂生意、懂排版、懂协作” 的业务流底层，美图补齐了面向中小商家的短板。美图的商业逻辑也因此完成闭环：其核心价值不再是提供单纯的修图工具，而是成为普通人调用 AI 能力最趁手也最流畅的工具。

曾经九死一生的美图，近几年把影像与设计产品作为主业，一心打磨工具。曾经处于互联网鄙视链底端的工具，在 AI 时代赶上了技术红利的浪潮。

对于产品形态和商业模式的变革，美图 CEO 吴欣鸿曾给出判断，AI 时代生产力工具的核心目标已经发生转移，软件必须直接交付高质量的商业成果。只有当工具实打实地替用户压降成本并创造可见利润，B 端客户才愿意通过购买订阅或持续消耗 Token，来为这种确定性的最终结果买单。

近年来，美图的主要收入已从广告切换为订阅付费，AI 功能为这条商业路径提供了更高的确定性。如今，部分高频用户在订阅的基础上，开始为额外的 AI 算力付费。他们可能是每天用美图设计室出几十套商品图的跨境电商卖家，也可能是用开拍来制作 AI 营销视频的连锁咖啡店区域营销负责人。

过去十八年，美图只需要做好一件事：让产品好用。现在它得做好另一件事：让产品靠得住。卖家今天出的图和明天出的图不能有色差，咖啡店老板换了一个店员操作，生成的视频不能改变风格。这听起来似乎不是什么难事，但在某种意义上，这正是应用不会被模型吞噬的原因。