领导也不懂,但是要追风
去年初 DeepSeek 爆火,领导一拍脑袋下令:「咱们内部也必须全面拥抱 AI」。紧接着,公司 OA 系统首页就突兀地多了一个鲸鱼的图标。点进去确实能聊天,但只要问点带业务门槛的专业问题,它给出的回答就显得极其弱智。甚至因为安全考虑,没法联网,所以会把几年前的一些新闻找出来给你。
新鲜感一过,这东西彻底沦为摆设。
作为打工人,这个又会作为领导又一次的形式主义闹剧。
但如果站在现在这个时点来看,当时这种形式主义,反而可能是最低成本的做法。
因为一旦真的被高频使用,不断取追求新的模型,公司的支出可能要变得更加可怕,按照彼时的Token计费标准,一个百人团队的高频AI协作,月均成本轻松突破数十万元。
2026年3月,中国市场日均Token调用量已达140万亿。而且走出了相反的趋势,Token单价跌了280倍,但企业的AI总支出反而翻了3倍。
对的,当所有人都以为 AI 会像云计算那样带来成本优化时,现实给出了截然相反的答案。单次调用成本在下降,但调用量暴涨到足以对冲掉所有降价红利。连OpenAI、Anthropic这样的顶级玩家,也在为成本焦虑,OpenAI收入翻倍,毛利率却从40%跌至33%。
Token,中文名词元,成为了新的经济学的研究对象。
我们在互联网平台经济时期我们建立起来的一些观念,例如规模越大,成本越低;边际成本趋近于零,利润空间无限扩展;技术进步必然带来价格下降与社会福利增加。
这些规律在过去几十年的互联网浪潮中被反复验证,塑造了一代投资人与创业者的底层认知。但如果我们试图把它放进我们熟知的一些理论中去,会发现一些矛盾冲突的地方,这可能也是Token经济学需要我们重新去理解的角度。
几个与互联网平台发展规律相悖的现象
规模效应失效和边际成本上升
我们看一下OpenAI的财务数据,规模越庞大,盈利越艰难。
年份
营收
推理成本
毛利率
2024
~50亿美元
~20亿美元
40%
2025
~100亿美元
~84亿美元
33%
这与传统的对于行业成长期描述的「规模经济」有偏离。按照传统逻辑,企业规模扩张后,应当获得更低的采购成本、更高的运营效率、更强的定价权。但AI公司的账本上的等式似乎是:
用户增长=Token消耗增长=算力成本增长=毛利率下降
Anthropic的数据同样佐证了这一悖论。2026年4月,Anthropic的ARR(年度经常性收入)飙升至300亿美元,首次超越OpenAI,成为行业新王。但亮眼数字的另一面是:毛利率仅为40%,同样低于45%的目标线。
头部两家尚且如此,腰部与尾部的AI公司处境可想而知。
问题的根源在于,AI服务不是「零边际成本」的软件产品,而是每次调用都消耗真实算力的「数字服务」。当用户规模扩张时,GPU的电力消耗、服务器折旧、带宽费用都在同步线性增长。
技术进步带来的成本上升
这个年代搞IT的人,都会有一个预设:算力成本只会越来越便宜。经历也确实如此,2024年4月,阿里云宣布史上最低20%的降幅,部分产品最高55%。这在云计算产品的长久时代来说,是几乎已经成为刻板印象。
但对应地,2026年3月,阿里云、腾讯云云等厂商纷纷上调AI算力价格,涨幅最高达 34%。
这个背离在互联网经济显得说不通,但我们再往前看1865年,经济学家威廉·杰文斯发现:蒸汽机效率提升导致煤炭总消耗量反而增加。他的逻辑是,效率提升降低了单位成本,从而刺激了更广泛的应用,总消耗量不降反升。
用户增长带来的成本上升
用户增长反而收紧服务。2026年,随着Claude用户数量爆发式增长,Anthropic非但没有开放更多算力,反而开始收紧使用限制。原本的「200美元包月无限用」被废除,取而代之的是「基础费+按量付费」的混合模式。甚至开始强迫KYC,让用户手持护照认证,以此排除掉很多过量使用地用户。
这与SaaS时代的软件地逻辑是反地。在SaaS场景下,用户增长是好事。边际成本为0意味着更多的付费席位会带来更多的经常性收入。但在AI时代,用户会区分为重度、中度、轻度用户。重度用户消耗的Token量是普通用户的数百倍,但支付的溢价可能远不足以覆盖成本。
于是我们看到了一个矛盾,用户越喜欢这个产品,公司越要想办法限制它被使用。
所以我们就可以看到对于互联网经济时代的常识,在AI场景下的矛盾。
这些理论的失效,问题出在哪里?
答案是,AI更像是新时代的电力基础设施,因此我们要用更古典的思路来理解它。
AI的本质是「数字电力」
传统软件建立在「代码是静态的,复制是免费的」假设上。当微软开发出Windows系统后,向第二个用户、第一百万用户、第一亿用户提供服务,边际成本几乎为零。这就是为什么软件时代能够诞生那么多「赢家通吃」的巨头。一旦建立产品与用户规模的优势,边际成本趋近于零,甚至会形成用户的壁垒。
SaaS时代延续了这一逻辑。Salesforce、Workday、ServiceNow都是如此,高毛利率(80%-90%)、经常性收入、高客户留存率。这都是因为,同一套代码运行在云端,向所有客户提供服务,边际成本几乎为零。
但大模型不是这样工作的。
每当你向ChatGPT提出一个问题、让Claude生成一段代码、让Midjourney画一幅图,都有一块GPU在燃烧真实的电力来完成计算。
换个说法就是,相比于云计算、软件服务的「从服务器上取文件」,AI是「工厂开动机器生产产品」。
这就像比较自来水厂与出版社的商业模式。自来水厂每向一户供水都需要抽水、过滤、输送,成本随用户量线性增长。出版社则不同,一本书定稿后,印刷一百万份与印刷一份的成本差异可以忽略不计。
随着AI的推进,一个新的术语开始在产业界流行:推理经济学(Inference Economics)。有兴趣的可以去读一下NVIDIA的这篇文章。(https://blogs.nvidia.cn/blog/ai-inference-economics/)
为什么是「推理」而不是「训练」?因为在AI的全生命周期中,推理成本才是决定商业模型能否成立的关键变量。
训练成本和推理成本是大模型不同阶段发生的费用。
训练成本的增长是在加速的。
GPT-3(2020年)的训练成本约460万-1200万美元
GPT-4(2023年)的训练成本已攀升至超过1亿美元
到了2026年,头部模型的单次训练投入已突破10亿美元门槛
另一方面,推理成本仍在按摩尔定律的节奏下降。NVIDIA Blackwell平台比上一代Hopper的推理效率提升10倍,Vera Rubin平台承诺再降10倍。
但是,推理成本下降的速度,远跟不上Token消耗量增长的速度。Reasoning模型(GPT的o1、o3、DeepSeek-R1等)是2025-2026年最火热的AI产品形态。但这类模型的Token消耗量是普通对话的50-600倍。
大模型的每次推理,都是一次制造行为。
Token是什么
Token的中文叫做「词元」,从字面意义来看,好像就是将文本切分后的最小单位。输入你好,可能被切成2个Token。给AI一篇文章,可能是几百甚至几千个Token。
但我们穿透表面,Token的真正含义其实是被量化的算力、被量化的电力、被量化的GPU折旧。
理解AI是电力,对于产业分析与投资决策具有深远影响:
AI公司的估值逻辑不应当参考软件公司。传统SaaS用「ARR×倍数」来估值,但AI公司需要考虑算力成本的刚性与Token消耗的不确定性。如果公司的收入增长来自重度用户的算力消耗而非付费意愿的提升,增长可能是陷阱。
商业模式需要重新设计。「包月无限用」的订阅模式在AI领域是商业自杀。按Token消耗的「用多少付多少」才是符合成本结构的定价方式,但这个和原本的包月模式产生的差异,会让个人用户接受度降低。
AI产业的上游,芯片、算力、能源这些产业才是真正的利润中心。
NVDIA一直在用「五层蛋糕理论」来拆分整个AI产业,那这个里面分别包含怎样的极润分配和行业定位呢。
AI行业的五层蛋糕
黄仁勋去年在某次采访中,把AI产业描述成一块五层蛋糕,今年3月,NV的网站上也是刊登出来这篇文章。
https://blogs.nvidia.cn/blog/ai-5-layer-cake/
每一层都对应着不同的价值创造环节、不同的成本结构、以及截然不同的利润分配格局。
L1 能源:沉默的定价者
每一行代码的执行,都是电子的流动。GPU运转需要电力,冷却系统需要电力,网络传输需要电力,数据中心的每一个角落都离不开能源。
当我们focus在NVIDIA的GPU定价权、OpenAI的收入增长时,一个更底层的需求是电力,作为整个AI产业最上游的「原材料」,而它的价格正在被重估。
2026年,全球AI数据中心的电力消耗已占全球用电量的3%以上。这个数字在2024年还不到1%。美国弗吉尼亚州(全球最大的数据中心集群之一)的电网已经出现局部紧张,多个州开始讨论为AI数据中心建设专用电网。
能源层正在从成本项转变为战略资源。微软、Google、AWS都在大规模投资核电和可再生能源项目,不只是为了ESG形象,而是为了锁定未来的电力供应。当能源成为稀缺资源时,能源的拥有者将拥有新的定价权。
L2 芯片:NVIDIA的王者护城河
无论AI应用如何风起云涌,无论哪家大模型最终胜出,有一件事是确定的,它们都需要芯片。而芯片的定价权,牢牢掌握在少数几家厂商手中。 代表选手就是NVIDIA,以及背后的台积电、三星
NVIDIA的毛利率常年维持在75%以上。这是什么概念?消费电子领域的苹果,毛利率约为46%;企业软件领域的Oracle,毛利率约为74%;即便是被公认为暴利的SaaS行业,平均毛利率也只有80%左右。
NVIDIA比大多数软件公司还赚钱,因为它处在整个价值链的最上游,拥有最稳固的定价权。NVIDIA不仅仅卖硬件,还构建了CUDA生态。
全球数百万开发者在CUDA框架上编写代码、培训模型、优化应用。这种生态锁定意味着,即使竞争对手在硬件性能上迎头赶上,转换成本也是重要的障碍。
公司
毛利率
年收入
定价权评估
NVIDIA
>75%
~2000亿美元
极强
大模型厂商(平均)
<40%
头部数百亿美元
AI应用厂商(平均)
亏损
不等
极弱
所以某种程度上, DeepSeek-V4华为昇腾首发,意味着 模型厂商开始具备脱离单一算力生态的可能性。
L3 基础设施:资本密集型产业
基础设施层指的是 AWS、Azure、阿里云、百度智能云、Google Cloud为代表的云厂商,他们的运行模式基础是, 谁掌握了AI算力的「配送网络」,谁就掌握了中间层的定价权。
我们可以把云厂商看做地产商,它们建楼、提供水电接入,然后向入驻企业收取租金。
AWS在全球拥有32个区域、102个可用区;阿里云在中国运营着规模最大的云计算基础设施;Google Cloud的AI工厂正在服务于下一代模型训练。
相比NVIDIA 75%的毛利率,云厂商需要承担服务器折旧、机房租赁、带宽成本、人力运维等多重支出。因此,它们更像是喝汤,比模型层过得好,但比芯片层差得远。
尤其是在过去云计算越用越便宜的场景下,2026年许多云厂商提出算力涨价,就体现出压力的存在 。
L4 模型:夹心饼干的困境
模型层是我们最普通概念里的AI,它是整个AI产业的技术中枢,聚集了最多的顶尖人才、烧掉了最多的资本、也承受着最沉重的成本压力。 代表选手包括我们熟知的OpenAI、Anthropic、Google Gemini
2026年,OpenAI与Anthropic的合计ARR已突破550亿美元,听起来是个惊人的数字。但如果我们细看成本结构,就会发现这笔钱并没有想象中那么好赚。
OpenAI 2025年的推理成本高达84亿美元,占营收的47%。Anthropic虽然增长迅猛,ARR飙升至300亿美元,毛利率也只有40%,低于目标10个百分点。
为什么基础模型层这么苦?因为每次模型升级,都需要重新训练,这是一次性的大额资本支出。同时,每次用户调用,都需要推理,这是不随规模增长的持续运营成本。当用户量增加时,推理成本线性上升,但价格竞争却不允许同步提价。
其次,我们刚刚提到的悖论之一,Token单价每年下降约10倍,但Token消耗量增长得更快。数学上对模型厂商天生不利,收入增长跑不赢成本增长。
最后就是上游是NVIDIA的强势定价(芯片层的75%毛利率是铁板一块),下游是用户与竞争对手的双重价格压制(Claude的200美元无限用套餐说废就废)。模型层被卡在中间,既没有芯片层的定价权,也没有应用层的差异化空间。
L5 应用:最卷的生存竞争
应用层是整个AI产业金字塔的最顶层,也是最卷的一个层面。应用层可以分为两类:
一、垂直行业解决方案
一种是AI编程工具的商业模式已经跑通,因为它替代的是年薪数十万美元的高级程序员。另一种是to B的业务模式,一些制造企业,比如美的集团AI应用累计节约成本7亿元人民币,生产效率提升80%,排产响应速度提升90%。
这些应用的共同特点是利用AI替代的是昂贵的人力。当AI能够替代年薪百万的律师、金融分析师和工程师时,用户愿意支付的价格足以覆盖Token消耗。
二、套壳应用
2024-2025年涌现大量Midjourney/Stable Diffusion AI绘画套壳应用,很多都没有能够活下来。
这些应用天然缺乏护城河,因为本质上它表演的是融合和通道的角色。这种基于通用API开发的应用,都面临同质化竞争。
而且, 国内AI应用市场特点是大厂免费补贴(豆包、千问、DeepSeek都是免费或极低价),所以基于模型层开发的应用,很难建立付费习惯。因此很多根本没起来就消失了。
但这两个场景,都会面临运营的脆弱性。我们可以做一个具体的商业推演。假设有一款AI产品叫做专业级财报分析助手,我们给他们的定价为固定包月订阅,20元/月。
这个应用的成本是向L4/L3(OpenAI API + 阿里云)按Token计费支付推理成本。20元的订阅费用于来覆盖轻度用户的Token消耗,薄利多销。
什么时候这个应用会做不下去呢,就是发生在产品获得成功之后,也就是获取高粘性专业用户之时。
我们可以对用户进行画像
重度专业用户可能是券商分析师每天处理几十家公司的财报,投顾用于为客户准备尽调报告,或者机构投资者构建量化因子数据库
这类用户的特征是高价值、高粘性、高消耗。他们愿意付钱,他们用得越多越离不开产品,听起来是最理想的客户画像。
但对供应商而言,这些最理想的客户反而是风险最大的客户。因为重度用户用的越多,应用的成本越高。
他们可以不断地定高价来覆盖成本,但用户也会不断流失到定价更低的竞品去,所以他们没法实现高利润率,又要不断建立护城河。
而当它试图限制用量时,用户会给出功能阉割的差评。
这是什么啊,这就是一根筋变成两头堵了。
因此,NV描述的五层蛋糕,不一个均匀分布的产业,而是一个金字塔。越往上游,壁垒越高,利润越丰厚;越往下游,竞争越激烈,利润越微薄。
Token经济学带来的投资端的启示
从刚刚讨论的内容,我们可以试着引申在投资方面可以投资的三个方向
上游卖铲人
在AI产业的价值链中,越靠近上游,定价权越稳固。NVIDIA之所以能维持75%以上的毛利率,是因为无论下游的模型如何迭代、应用如何风起云涌,芯片始终是不可替代的基础设施。
同样的逻辑也适用于能源,当AI数据中心的电力消耗占全球用电量3%以上时,电力供应本身就成为战略资源。
投资上游的本质,是押注「稀缺性」。在需求爆发而供给有限的环节,利润必然向这里集中。
芯片代工、HBM存储、数据中心专用电网,都是这条逻辑的延伸。
垂直领域数据壁垒
通用AI的能力正在快速普及,真正的差异化来自行业专有数据。 在通用能力商品化的时代,行业Know-how才是稀缺品。
医疗AI需要医院授权的脱敏病例,工业AI需要工厂多年积累的生产参数,法律AI需要海量判例库。这些数据无法用钱买到,需要时间、关系和资质。
当一个垂直应用的护城河建立在竞品即使拿到相同资金,也需要时间积累才能追平的基础上,这条护城河就是有效的。投资垂直的本质,是押注时间壁垒。
效率提升的技术
Token成本的下降是确定性趋势,能最早推动这场下降的企业,能在价值链中占据有利位置。
几个可能的发展方向包括:端侧推理将计算从云端分流到本地设备,定制芯片用专用架构打破通用GPU的定价权,推理优化技术让同等算力产出更多Token。
这些都是在做同一件事,让Token变得更便宜,对应到国内的芯片,DeepSeek链等。投降本的本质,是押注普惠化。就像光伏产业中,最终成为最大赢家的不是某个光伏电站运营商,而是那些让发电成本不断下降的技术供应商。
策略
核心逻辑
代表标的
投上游
NVIDIA、芯片代工厂、电力基础设施
卖铲人逻辑
投垂直
医疗AI、工业AI、精密制造
数据壁垒逻辑
投降本
推理优化、端侧芯片、新型架构
效率提升逻辑
总结
回到文章开头那个场景。
2025年初,那些部署内部AI助手的公司,错了吗?从拥抱新技术的角度看,没有错。从商业逻辑的角度看,大概率是错的。
这些领导有一个认知错误,那就是把AI当成了买来就用的工具,而没有想清楚这台机器能产出什么。
这完全不是一个正常的企业经营思路。
一家企业购买机床时,不会只问这机器多少钱,而是问这台机床能生产多少产品、能带来多少产值。
AI也是一样的道理,Token是数字电力,但Token本身不是价值。Token驱动的大模型推理,只有在解决具体业务问题、创造真实经济价值时,才有意义。
一百多年前,电力刚进入工厂时,许多企业主会有这样的困惑,为什么交了电费账单,工厂的利润没有自动增长?
答案在我们目前看来似乎很简单,电力是动力来源,但不是价值来源。但当时需要花一定时间才能理解。
AI给我们带来的,也是新的基础设施的变革。
本文数据来源:
清华大学《Token经济学全景报告2026》
OpenAI财务披露(2026年2月)
Anthropic G轮融资披露(2026年4月)
国家数据局Token调用量数据(2026年4月)
NVIDIA五层蛋糕理论(https://blogs.nvidia.cn/blog/ai-5-layer-cake/)
NVIDIA推理经济学理论( https://blogs.nvidia.cn/blog/ai-inference-economics/)
整理时间:2026年4月26日
作者:坦桑尼亚老云 | 编辑:栗加
每个视角都是拼凑世界真相的碎片,听真诚的行业观察者讲述独特的故事。我们有深耕行业的资深顾问,连续跨界探索的未来创业者,专注细节的产品匠人,和许多志同道合的你们,如果你有想要分享的故事或者感想,可以留言或者邮件联系(AiysJY@outlook.com),也欢迎点分享给需要的朋友们,记得点一下在看和星标,期待共同在这个行业的宏大叙事中,留下一句诗。:)
热门跟贴