Token经济学让经济理论失效了吗|nvidia|token|经济学|经济理论

领导也不懂，但是要追风

去年初 DeepSeek 爆火，领导一拍脑袋下令：「咱们内部也必须全面拥抱 AI」。紧接着，公司 OA 系统首页就突兀地多了一个鲸鱼的图标。点进去确实能聊天，但只要问点带业务门槛的专业问题，它给出的回答就显得极其弱智。甚至因为安全考虑，没法联网，所以会把几年前的一些新闻找出来给你。

新鲜感一过，这东西彻底沦为摆设。

作为打工人，这个又会作为领导又一次的形式主义闹剧。

但如果站在现在这个时点来看，当时这种形式主义，反而可能是最低成本的做法。

因为一旦真的被高频使用，不断取追求新的模型，公司的支出可能要变得更加可怕，按照彼时的Token计费标准，一个百人团队的高频AI协作，月均成本轻松突破数十万元。

2026年3月，中国市场日均Token调用量已达140万亿。而且走出了相反的趋势，Token单价跌了280倍，但企业的AI总支出反而翻了3倍。

对的，当所有人都以为 AI 会像云计算那样带来成本优化时，现实给出了截然相反的答案。单次调用成本在下降，但调用量暴涨到足以对冲掉所有降价红利。连OpenAI、Anthropic这样的顶级玩家，也在为成本焦虑，OpenAI收入翻倍，毛利率却从40%跌至33%。

Token，中文名词元，成为了新的经济学的研究对象。

我们在互联网平台经济时期我们建立起来的一些观念，例如规模越大，成本越低；边际成本趋近于零，利润空间无限扩展；技术进步必然带来价格下降与社会福利增加。

这些规律在过去几十年的互联网浪潮中被反复验证，塑造了一代投资人与创业者的底层认知。但如果我们试图把它放进我们熟知的一些理论中去，会发现一些矛盾冲突的地方，这可能也是Token经济学需要我们重新去理解的角度。

几个与互联网平台发展规律相悖的现象

规模效应失效和边际成本上升

我们看一下OpenAI的财务数据，规模越庞大，盈利越艰难。

年份

营收

推理成本

毛利率

2024

~50亿美元

~20亿美元

40%

2025

~100亿美元

~84亿美元

33%

这与传统的对于行业成长期描述的「规模经济」有偏离。按照传统逻辑，企业规模扩张后，应当获得更低的采购成本、更高的运营效率、更强的定价权。但AI公司的账本上的等式似乎是：

用户增长=Token消耗增长=算力成本增长=毛利率下降

Anthropic的数据同样佐证了这一悖论。2026年4月，Anthropic的ARR（年度经常性收入）飙升至300亿美元，首次超越OpenAI，成为行业新王。但亮眼数字的另一面是：毛利率仅为40%，同样低于45%的目标线。

头部两家尚且如此，腰部与尾部的AI公司处境可想而知。

问题的根源在于，AI服务不是「零边际成本」的软件产品，而是每次调用都消耗真实算力的「数字服务」。当用户规模扩张时，GPU的电力消耗、服务器折旧、带宽费用都在同步线性增长。

技术进步带来的成本上升

这个年代搞IT的人，都会有一个预设：算力成本只会越来越便宜。经历也确实如此，2024年4月，阿里云宣布史上最低20%的降幅，部分产品最高55%。这在云计算产品的长久时代来说，是几乎已经成为刻板印象。

但对应地，2026年3月，阿里云、腾讯云云等厂商纷纷上调AI算力价格，涨幅最高达 34%。

这个背离在互联网经济显得说不通，但我们再往前看1865年，经济学家威廉·杰文斯发现：蒸汽机效率提升导致煤炭总消耗量反而增加。他的逻辑是，效率提升降低了单位成本，从而刺激了更广泛的应用，总消耗量不降反升。

用户增长带来的成本上升

用户增长反而收紧服务。2026年，随着Claude用户数量爆发式增长，Anthropic非但没有开放更多算力，反而开始收紧使用限制。原本的「200美元包月无限用」被废除，取而代之的是「基础费+按量付费」的混合模式。甚至开始强迫KYC，让用户手持护照认证，以此排除掉很多过量使用地用户。

这与SaaS时代的软件地逻辑是反地。在SaaS场景下，用户增长是好事。边际成本为0意味着更多的付费席位会带来更多的经常性收入。但在AI时代，用户会区分为重度、中度、轻度用户。重度用户消耗的Token量是普通用户的数百倍，但支付的溢价可能远不足以覆盖成本。

于是我们看到了一个矛盾，用户越喜欢这个产品，公司越要想办法限制它被使用。

所以我们就可以看到对于互联网经济时代的常识，在AI场景下的矛盾。

这些理论的失效，问题出在哪里？

答案是，AI更像是新时代的电力基础设施，因此我们要用更古典的思路来理解它。

AI的本质是「数字电力」

传统软件建立在「代码是静态的，复制是免费的」假设上。当微软开发出Windows系统后，向第二个用户、第一百万用户、第一亿用户提供服务，边际成本几乎为零。这就是为什么软件时代能够诞生那么多「赢家通吃」的巨头。一旦建立产品与用户规模的优势，边际成本趋近于零，甚至会形成用户的壁垒。

SaaS时代延续了这一逻辑。Salesforce、Workday、ServiceNow都是如此，高毛利率（80%-90%）、经常性收入、高客户留存率。这都是因为，同一套代码运行在云端，向所有客户提供服务，边际成本几乎为零。

但大模型不是这样工作的。

每当你向ChatGPT提出一个问题、让Claude生成一段代码、让Midjourney画一幅图，都有一块GPU在燃烧真实的电力来完成计算。

换个说法就是，相比于云计算、软件服务的「从服务器上取文件」，AI是「工厂开动机器生产产品」。

这就像比较自来水厂与出版社的商业模式。自来水厂每向一户供水都需要抽水、过滤、输送，成本随用户量线性增长。出版社则不同，一本书定稿后，印刷一百万份与印刷一份的成本差异可以忽略不计。

随着AI的推进，一个新的术语开始在产业界流行：推理经济学（Inference Economics）。有兴趣的可以去读一下NVIDIA的这篇文章。（https://blogs.nvidia.cn/blog/ai-inference-economics/）

为什么是「推理」而不是「训练」？因为在AI的全生命周期中，推理成本才是决定商业模型能否成立的关键变量。

训练成本和推理成本是大模型不同阶段发生的费用。

训练成本的增长是在加速的。

GPT-3（2020年）的训练成本约460万-1200万美元

GPT-4（2023年）的训练成本已攀升至超过1亿美元

到了2026年，头部模型的单次训练投入已突破10亿美元门槛

另一方面，推理成本仍在按摩尔定律的节奏下降。NVIDIA Blackwell平台比上一代Hopper的推理效率提升10倍，Vera Rubin平台承诺再降10倍。

但是，推理成本下降的速度，远跟不上Token消耗量增长的速度。Reasoning模型（GPT的o1、o3、DeepSeek-R1等）是2025-2026年最火热的AI产品形态。但这类模型的Token消耗量是普通对话的50-600倍。

大模型的每次推理，都是一次制造行为。

Token是什么

Token的中文叫做「词元」，从字面意义来看，好像就是将文本切分后的最小单位。输入你好，可能被切成2个Token。给AI一篇文章，可能是几百甚至几千个Token。

但我们穿透表面，Token的真正含义其实是被量化的算力、被量化的电力、被量化的GPU折旧。

理解AI是电力，对于产业分析与投资决策具有深远影响：

AI公司的估值逻辑不应当参考软件公司。传统SaaS用「ARR×倍数」来估值，但AI公司需要考虑算力成本的刚性与Token消耗的不确定性。如果公司的收入增长来自重度用户的算力消耗而非付费意愿的提升，增长可能是陷阱。

商业模式需要重新设计。「包月无限用」的订阅模式在AI领域是商业自杀。按Token消耗的「用多少付多少」才是符合成本结构的定价方式，但这个和原本的包月模式产生的差异，会让个人用户接受度降低。

AI产业的上游，芯片、算力、能源这些产业才是真正的利润中心。

NVDIA一直在用「五层蛋糕理论」来拆分整个AI产业，那这个里面分别包含怎样的极润分配和行业定位呢。

AI行业的五层蛋糕

黄仁勋去年在某次采访中，把AI产业描述成一块五层蛋糕，今年3月，NV的网站上也是刊登出来这篇文章。

https://blogs.nvidia.cn/blog/ai-5-layer-cake/

每一层都对应着不同的价值创造环节、不同的成本结构、以及截然不同的利润分配格局。

L1 能源：沉默的定价者

每一行代码的执行，都是电子的流动。GPU运转需要电力，冷却系统需要电力，网络传输需要电力，数据中心的每一个角落都离不开能源。

当我们focus在NVIDIA的GPU定价权、OpenAI的收入增长时，一个更底层的需求是电力，作为整个AI产业最上游的「原材料」，而它的价格正在被重估。

2026年，全球AI数据中心的电力消耗已占全球用电量的3%以上。这个数字在2024年还不到1%。美国弗吉尼亚州（全球最大的数据中心集群之一）的电网已经出现局部紧张，多个州开始讨论为AI数据中心建设专用电网。

能源层正在从成本项转变为战略资源。微软、Google、AWS都在大规模投资核电和可再生能源项目，不只是为了ESG形象，而是为了锁定未来的电力供应。当能源成为稀缺资源时，能源的拥有者将拥有新的定价权。

L2 芯片：NVIDIA的王者护城河

无论AI应用如何风起云涌，无论哪家大模型最终胜出，有一件事是确定的，它们都需要芯片。而芯片的定价权，牢牢掌握在少数几家厂商手中。代表选手就是NVIDIA，以及背后的台积电、三星

NVIDIA的毛利率常年维持在75%以上。这是什么概念？消费电子领域的苹果，毛利率约为46%；企业软件领域的Oracle，毛利率约为74%；即便是被公认为暴利的SaaS行业，平均毛利率也只有80%左右。

NVIDIA比大多数软件公司还赚钱，因为它处在整个价值链的最上游，拥有最稳固的定价权。NVIDIA不仅仅卖硬件，还构建了CUDA生态。

全球数百万开发者在CUDA框架上编写代码、培训模型、优化应用。这种生态锁定意味着，即使竞争对手在硬件性能上迎头赶上，转换成本也是重要的障碍。

公司

毛利率

年收入

定价权评估

NVIDIA

>75%

~2000亿美元

极强

大模型厂商（平均）

<40%

头部数百亿美元

AI应用厂商（平均）

亏损

不等

极弱

所以某种程度上， DeepSeek-V4华为昇腾首发，意味着模型厂商开始具备脱离单一算力生态的可能性。

L3 基础设施：资本密集型产业

基础设施层指的是 AWS、Azure、阿里云、百度智能云、Google Cloud为代表的云厂商，他们的运行模式基础是，谁掌握了AI算力的「配送网络」，谁就掌握了中间层的定价权。

我们可以把云厂商看做地产商，它们建楼、提供水电接入，然后向入驻企业收取租金。

AWS在全球拥有32个区域、102个可用区；阿里云在中国运营着规模最大的云计算基础设施；Google Cloud的AI工厂正在服务于下一代模型训练。

相比NVIDIA 75%的毛利率，云厂商需要承担服务器折旧、机房租赁、带宽成本、人力运维等多重支出。因此，它们更像是喝汤，比模型层过得好，但比芯片层差得远。

尤其是在过去云计算越用越便宜的场景下，2026年许多云厂商提出算力涨价，就体现出压力的存在。

L4 模型：夹心饼干的困境

模型层是我们最普通概念里的AI，它是整个AI产业的技术中枢，聚集了最多的顶尖人才、烧掉了最多的资本、也承受着最沉重的成本压力。代表选手包括我们熟知的OpenAI、Anthropic、Google Gemini

2026年，OpenAI与Anthropic的合计ARR已突破550亿美元，听起来是个惊人的数字。但如果我们细看成本结构，就会发现这笔钱并没有想象中那么好赚。

OpenAI 2025年的推理成本高达84亿美元，占营收的47%。Anthropic虽然增长迅猛，ARR飙升至300亿美元，毛利率也只有40%，低于目标10个百分点。

为什么基础模型层这么苦？因为每次模型升级，都需要重新训练，这是一次性的大额资本支出。同时，每次用户调用，都需要推理，这是不随规模增长的持续运营成本。当用户量增加时，推理成本线性上升，但价格竞争却不允许同步提价。

其次，我们刚刚提到的悖论之一，Token单价每年下降约10倍，但Token消耗量增长得更快。数学上对模型厂商天生不利，收入增长跑不赢成本增长。

最后就是上游是NVIDIA的强势定价（芯片层的75%毛利率是铁板一块），下游是用户与竞争对手的双重价格压制（Claude的200美元无限用套餐说废就废）。模型层被卡在中间，既没有芯片层的定价权，也没有应用层的差异化空间。

L5 应用：最卷的生存竞争

应用层是整个AI产业金字塔的最顶层，也是最卷的一个层面。应用层可以分为两类：

一、垂直行业解决方案

一种是AI编程工具的商业模式已经跑通，因为它替代的是年薪数十万美元的高级程序员。另一种是to B的业务模式，一些制造企业，比如美的集团AI应用累计节约成本7亿元人民币，生产效率提升80%，排产响应速度提升90%。

这些应用的共同特点是利用AI替代的是昂贵的人力。当AI能够替代年薪百万的律师、金融分析师和工程师时，用户愿意支付的价格足以覆盖Token消耗。

二、套壳应用

2024-2025年涌现大量Midjourney/Stable Diffusion AI绘画套壳应用，很多都没有能够活下来。

这些应用天然缺乏护城河，因为本质上它表演的是融合和通道的角色。这种基于通用API开发的应用，都面临同质化竞争。

而且，国内AI应用市场特点是大厂免费补贴（豆包、千问、DeepSeek都是免费或极低价），所以基于模型层开发的应用，很难建立付费习惯。因此很多根本没起来就消失了。

但这两个场景，都会面临运营的脆弱性。我们可以做一个具体的商业推演。假设有一款AI产品叫做专业级财报分析助手，我们给他们的定价为固定包月订阅，20元/月。

这个应用的成本是向L4/L3（OpenAI API + 阿里云）按Token计费支付推理成本。20元的订阅费用于来覆盖轻度用户的Token消耗，薄利多销。

什么时候这个应用会做不下去呢，就是发生在产品获得成功之后，也就是获取高粘性专业用户之时。

我们可以对用户进行画像

重度专业用户可能是券商分析师每天处理几十家公司的财报，投顾用于为客户准备尽调报告，或者机构投资者构建量化因子数据库

这类用户的特征是高价值、高粘性、高消耗。他们愿意付钱，他们用得越多越离不开产品，听起来是最理想的客户画像。

但对供应商而言，这些最理想的客户反而是风险最大的客户。因为重度用户用的越多，应用的成本越高。

他们可以不断地定高价来覆盖成本，但用户也会不断流失到定价更低的竞品去，所以他们没法实现高利润率，又要不断建立护城河。

而当它试图限制用量时，用户会给出功能阉割的差评。

这是什么啊，这就是一根筋变成两头堵了。

因此，NV描述的五层蛋糕，不一个均匀分布的产业，而是一个金字塔。越往上游，壁垒越高，利润越丰厚；越往下游，竞争越激烈，利润越微薄。

Token经济学带来的投资端的启示

从刚刚讨论的内容，我们可以试着引申在投资方面可以投资的三个方向

上游卖铲人

在AI产业的价值链中，越靠近上游，定价权越稳固。NVIDIA之所以能维持75%以上的毛利率，是因为无论下游的模型如何迭代、应用如何风起云涌，芯片始终是不可替代的基础设施。

同样的逻辑也适用于能源，当AI数据中心的电力消耗占全球用电量3%以上时，电力供应本身就成为战略资源。

投资上游的本质，是押注「稀缺性」。在需求爆发而供给有限的环节，利润必然向这里集中。

芯片代工、HBM存储、数据中心专用电网，都是这条逻辑的延伸。

垂直领域数据壁垒

通用AI的能力正在快速普及，真正的差异化来自行业专有数据。在通用能力商品化的时代，行业Know-how才是稀缺品。

医疗AI需要医院授权的脱敏病例，工业AI需要工厂多年积累的生产参数，法律AI需要海量判例库。这些数据无法用钱买到，需要时间、关系和资质。

当一个垂直应用的护城河建立在竞品即使拿到相同资金，也需要时间积累才能追平的基础上，这条护城河就是有效的。投资垂直的本质，是押注时间壁垒。

效率提升的技术

Token成本的下降是确定性趋势，能最早推动这场下降的企业，能在价值链中占据有利位置。

几个可能的发展方向包括：端侧推理将计算从云端分流到本地设备，定制芯片用专用架构打破通用GPU的定价权，推理优化技术让同等算力产出更多Token。

这些都是在做同一件事，让Token变得更便宜，对应到国内的芯片，DeepSeek链等。投降本的本质，是押注普惠化。就像光伏产业中，最终成为最大赢家的不是某个光伏电站运营商，而是那些让发电成本不断下降的技术供应商。

策略

核心逻辑

代表标的

投上游

NVIDIA、芯片代工厂、电力基础设施

卖铲人逻辑

投垂直

医疗AI、工业AI、精密制造

数据壁垒逻辑

投降本

推理优化、端侧芯片、新型架构

效率提升逻辑

总结

回到文章开头那个场景。

2025年初，那些部署内部AI助手的公司，错了吗？从拥抱新技术的角度看，没有错。从商业逻辑的角度看，大概率是错的。

这些领导有一个认知错误，那就是把AI当成了买来就用的工具，而没有想清楚这台机器能产出什么。

这完全不是一个正常的企业经营思路。

一家企业购买机床时，不会只问这机器多少钱，而是问这台机床能生产多少产品、能带来多少产值。

AI也是一样的道理，Token是数字电力，但Token本身不是价值。Token驱动的大模型推理，只有在解决具体业务问题、创造真实经济价值时，才有意义。

一百多年前，电力刚进入工厂时，许多企业主会有这样的困惑，为什么交了电费账单，工厂的利润没有自动增长？

答案在我们目前看来似乎很简单，电力是动力来源，但不是价值来源。但当时需要花一定时间才能理解。

AI给我们带来的，也是新的基础设施的变革。

本文数据来源：

清华大学《Token经济学全景报告2026》

OpenAI财务披露（2026年2月）

Anthropic G轮融资披露（2026年4月）

国家数据局Token调用量数据（2026年4月）

NVIDIA五层蛋糕理论（https://blogs.nvidia.cn/blog/ai-5-layer-cake/）

NVIDIA推理经济学理论（ https://blogs.nvidia.cn/blog/ai-inference-economics/）

整理时间：2026年4月26日

作者：坦桑尼亚老云 | 编辑：栗加

每个视角都是拼凑世界真相的碎片，听真诚的行业观察者讲述独特的故事。我们有深耕行业的资深顾问，连续跨界探索的未来创业者，专注细节的产品匠人，和许多志同道合的你们，如果你有想要分享的故事或者感想，可以留言或者邮件联系（AiysJY@outlook.com），也欢迎点分享给需要的朋友们，记得点一下在看和星标，期待共同在这个行业的宏大叙事中，留下一句诗。：）