卖算力时代结束，卖智力时代来了：Token经济万亿赛道全景解码|token|卖算力|底层逻辑|推理|时代|智能体

作者：快思慢想研究院田丰，每经经济新闻记者张梓桐，余婷婷

编者按：Token经济，是一场重塑文明底层的智力革命。中国人日均消耗140万亿——这个数字，正在改写人类使用无限智力的方式。

引言

图美国主流大模型与DeepSeek V系列模型的价格对比（信息来源：快思慢想研究院）

2026年3月，国家数据局发布了一组让全球科技界震惊的数据：中国日均Token调用量突破140万亿，而这一数字在两年前的2024年初，不过区区1000亿。

增长超过千倍。

与此同时，OpenRouter的实时监测数据显示，在全球每周约27万亿Token的调用洪流中，中国大模型贡献了12.96万亿，连续数周超越美国。OpenRouter首席运营官Chris Clark坦率承认，中国模型之所以赢得海量调用，是因为它们"在美国公司运行的Agent工作流中占比非常高"——这句来自硅谷的评价，是对中国AI竞争力最有力的旁证。快思慢想研究院院长田丰将这一现象定名为：在真实的AI模型工业化曲线上，中国"精益型AI"正在飞速超越美国的"高算力AI"。

就在这场数字革命的浪头上，一家名为无问芯穹的中国AI基础设施企业，于5月7日高调宣布完成超7亿元新一轮融资，累计融资额突破22亿元。本轮由杭州高新金投集团、惠远资本联合领投，国兴资本、秦淮数据、广发乾和、力合清瞳、中保投资、AEF NextGen、腾瑞资本、卡莱特、中信建投资本、宽德智能学习实验室等机构跟投，君联资本、上海国投孚腾、元智未来等老股东持续追加。值得一提的是，本轮融资实际已于数月前完成，选在此时公开披露，恰好踩在全球AI产业从模型比拼转向AI生产力落地的关键拐点上。

这笔融资证明了产业资本对未来十年AI底层逻辑的坚定下注。

一、新的"度量衡"诞生了

要理解Token经济的崛起，必须先理解一个经济学的基本命题：每一次产业革命，都伴随着新计量单位的确立。

蒸汽时代，马力是单位；电气时代，度电是单位；互联网时代，DAU（日活用户数）流量是单位；云计算时代，CPU时与存储GB是单位。但这些度量单位有一个共同的局限：它们计量的是资源消耗，而非智力产出。

Token打破了这个局限。它同时计量输入理解与输出生成，天然与任务复杂度挂钩——这在计量经济学的历史上，是一次质变。用田丰的话来说，这是从互联网时代的"存储经济"（内容经济），向AI时代"推理即智力"的范式转移。

Anthropic联合创始人Dario Amodei在2024年预言："AI能力终将像电力一样按使用量计费，而Token就是那个电表。"这句话如今已不再是愿景，而是正在落地的商业模式现状。“模型即服务”（MaaS）云厂商正是通过出售模型调用服务、推理能力和配套工具获利，Token需求的激增直接推高调用量并带动收入增长。

图国产大模型的价格对比（信息来源：快思慢想研究院）

田丰对此有更犀利的判断："大厂布局Token经济，本质是在争夺AI时代的计量标准制定权。顶尖模型的Token存在N倍的价格溢价，比腰部流模型定价更高、性能更优；或用平价抢占市场垄断地位，建立大众通过网页、API调用AI平台的海量Token入口，锁定整个应用层的数据流向。阿里成立Alibaba Token Hub事业群、字节跳动把MaaS业务收入目标两度上调，动作背后是相同的产业逻辑——卖的是智力，不是算力。"

二、清华系的赌注：从电能到Token

无问芯穹的故事，始于一间清华实验室。

2023年5月，清华大学电子工程系教授汪玉——中国最具影响力的AI芯片学者之一——发起创立了这家公司。联合创始人兼CEO夏立雪、联合创始人兼首席科学家戴国浩、首席技术官李伯勋，均出自汪玉门下。这支从清华走出的班底，选择了一条许多人还未完全看清楚的路：不造模型，不堆算力，专注建设Token经济时代的"数字炼油厂"。

在产业范式切换的背景下，AGI基础设施承担着类似传统石化炼化厂的角色——将电力能源高效率地转化为“智力石油”Token词元，为各类AI终端、智能体应用提供底层核心资源，是整个Token经济生态运转的关键枢纽。

自成立以来，无问芯穹的融资节奏一直较为稳健：天使轮之后，2024年8月完成近5亿元A轮融资，2025年11月完成5亿元A+轮融资，至今公开披露的累计融资已超过22亿元。本轮超7亿元新资金，将集中投向三个方向：其一，夯实多元异构技术领先地位，扩大Token经济时代极致优化的可用算力规模；其二，强化软硬协同优势，加快从"电能到Token"的生产效率跃升；其三，构建具备自主进化能力的AI基础设施，通过企业级智能体服务平台，面向不同行业提供从"Token到生产力"的价值转化解决方案。

数据是最好的证明。截至2026年4月底，无问芯穹旗舰产品Agentic MaaS大模型服务平台日均Token调用量，较2025年底实现超20倍增长。该平台已上线160余种大模型，坚持对开源模型Day0适配上架，实现开箱即用；在精度上与原厂模型对齐率超99.9%，系统吞吐量提升2至3倍，已构筑起稳健的商业化服务能力。

联合领投方杭州高新金投集团表示，此次布局看重其清华创业基因、技术深耕实力与产业落地能力，更是对国内AGI基建自主可控赛道的长期押注。惠远资本则直言：AGI基础设施是Token经济的产业底座，其变革价值堪比当年电力与互联网的普及，产投融合将助力企业成长为国内AGI基建标杆。

三、指数爆炸：从聊天到智能体，Token消耗的量级跃迁

很多人还没有意识到，Token需求的增长，并非简单的线性扩张，而是一场结构性的量级跃迁。

田丰给出了一组令人震惊的直观对比数据：人和AI一次普通文字对话，消耗约50至200个Token；一次含多模态排版的PPT生成，消耗约10万Token；而生成一分钟720p AI视频（Seedance类产品），消耗超过100万Token。三者算力成本比例接近1:500:5000。

这还只是多模态的维度。更深刻的变化来自Agent范式的兴起。

传统Chatbot的消耗模式是线性的：一问一答，Token按轮累积。但Agent的本质是任务执行循环——一个复杂用户指令，可能触发数十乃至上百轮模型调用，每轮消耗数十万Token，循环往复直至任务成功完成。这是Token消耗从算术级数向几何级数跳跃的临界点。在计算经济学上，从LLM到Agent，资源消耗模式完成了从"按需调用"到"持续运行"的根本转变——这是两种截然不同的商业模型。

Agent框架OpenClaw、Hermes爆发后，火山引擎数据显示，过去一个多月来自个人用户的Token消耗增长了约16倍。MiniMax在OpenClaw带动下，2个月内Token消耗增长6倍。豆包大模型截至2026年3月日均Token调用量已超120万亿，较3个月前接近翻倍，是2024年5月发布时的1000倍以上。

田丰将这一现象提炼为一个更本质的判断：“当前市场普遍把Token增长理解为'需求扩大'，其实背后是全人类对AI智力的需求密度飙升——同一个任务目标所需消耗的Token量，因Agent范式增加了1至2个数量级。Token经济的营收天花板，不是用户总数，而是任务复杂度曲线，两者的扩张速度完全不是同量级。”

这里还有一个容易被忽视的经济学差异值得格外重视。互联网内容经济依靠流量实现边际成本趋近于零——内容一次创作，万人共享体验。但AI时代，每个人咨询AI、使用AI都是定制化任务，Token推理的边际成本因此不会趋近于零。这是两种商业模式之间最根本的结构性差异，也是AI企业之间比拼的核心战场——“推理毛利率”。Anthropic的推理基础设施毛利率在最近一年内已从38%跃升至70%以上，完成了从科研项目到工业级盈利业务的惊人跨越，正是这一逻辑的有力验证。

更深远的转变还在前方：行业普遍预判，随着智能体从概念走向规模化落地，未来机器自主消耗的Token规模将大幅超越个人用户需求，带动整个产业进入指数级增长周期——如同3G时代手机流量的起步，Token经济正处于S曲线的陡峭拐点之前。

四、巨头混战：Token时代的"高速公路收费站"争夺战

嗅到Token经济巨大潜力的，绝不止无问芯穹一家。

阿里率先打响巨头布局战。今年3月，阿里官宣成立Alibaba Token Hub独立事业群，整合通义大模型与阿里云MaaS全链路资源，将Token消耗量纳入集团核心经营考核，同步落地企业AI原生工作平台，抢占Agent场景Token消耗高地。紧随其后，腾讯云升级全域TokenHub平台，打通多模型统一Token调度、按量计费与跨模型无缝切换，以工程化效率构建Token服务壁垒，与阿里形成行业双龙头对峙格局。

阿里云百炼则以"7.9元/月"的激进定价，将千问Qwen3.5、智谱GLM-5、Kimi K2.5、MiniMax M2.5四大顶流编程模型打包进同一套餐，以"全家桶"模式颠覆了各家各自为战的割裂格局，向MaaS调度层的终极形态——智能多模型路由——迈出了关键一步。

这正是田丰所定义的Token经济最重要的"高速公路收费站"：MaaS调度层。其价值不在于提供最好的单一模型，关键在于为用户任务匹配调度最优的模型、精益化综合使用成本管理。当Token消耗量以每月数倍的速度增长，企业真正需要的是能动态路由不同任务到不同成本与性能模型组合的智能调度层，而非绑定单一模型。

亚马逊AWS管理层在财报电话会议上透露，长远来看MaaS的收入贡献将与EC2（传统云计算）不相上下。MaaS的商业模式也正在进化：从"按量收费"向"按结果分成"演变——Token分成模式已在落地，算力方分润70%至80%，模型方分润20%至30%，行业整体毛利率有望从15%至20%上移至30%以上。

而MaaS层面还存在一个被市场严重低估的飞轮效应：调用量越大，对不同场景的模型性能数据积累越丰富，智能路由准确性越高，用户成本越低，调用量进一步扩大。这个正反馈机制，与搜索引擎的相关性反馈高度类似。最先达到千万级日活调用的MaaS平台，将形成其他平台难以复制的调度数据壁垒——这是MaaS竞争中真正的隐藏护城河，目前市场尚未充分定价。

五、中美价差：52倍背后的文明竞争

如果说Token是新时代的“智力石油”，那么中美之间正在上演一场关于"AI油价"的深层博弈。

数据最为直白。按最新旗舰模型对比，每100万Token的输入价格：DeepSeek V4 Pro为1.74美元，OpenAI的GPT-5.5 Pro为30美元，相差17倍；而在输出价格上，OpenAI（180美元）是DeepSeek（3.48美元）的52倍。

中国的成本优势来自何处？田丰的分析直指根本：中国数据中心PUE（能源效率指标）已优化至1.2以下，电力占Token成本70%以上，低电价加上高绿电比例，形成全球最低推理成本——这个价差来自真实的工程效率与能源成本优势。

这也是为何OpenRouter的数据显示，中国模型在美国公司运行的Agent工作流中"占比不成比例地高"。其根本原因在于：美国顶级闭源模型（OpenAI、Anthropic、Google、xAI）的高定价，来自高额研发投入和算力芯片采购量；而中国开源模型的极低定价，来自架构创新、充足电力和相对较低的研发投入，进而通过"用全球化Token流量换生态话语权"实现长期战略落地。

当然，美国顶级闭源模型并未停步。Gemini 3.1 Pro的输入/输出价格为4美元/18美元每百万Token，是DeepSeek的2.2倍与5.2倍；Claude Opus 4.7的输入/输出价格为5美元/25美元每百万Token，是DeepSeek的2.9倍与7.2倍。与两年前相比，美国基础模型的"性价比"也在快速优化改进，差距已大幅收窄。Sam Altman和Dario Amodei均公开提及"模型成本每年降低约10倍"的趋势。

最新研究论文亦证实，通过递归协作推理架构，Token使用量可减少34.6%至75.6%，同时准确率提升8.3%。这意味着Token消耗量的绝对增长，会被单Token的效率提升部分对冲，导致营收增速低于调用量增速——算力投资的回报期估算，必须将这个效率折旧因子纳入模型，这是乐观情绪容易遮蔽的系统性隐患。

田丰对此保持清醒：当前中国AI应用ARPU（每用户平均收入）仅为美国的1/3至1/4，高消耗尚未完全转化为高毛利。春节后中国日均140万亿Token中，大部分来自豆包等AI视频生成，而视频生成的货币化路径尚未清晰，与企业生产力应用的Token消耗性质截然不同。"Token消耗量"这一数字，在不区分场景属性的前提下，是一个可能被高估的价值信号。

两种模式将在未来2至3年内共存：美国企业级市场偏向2B闭源大模型，中国与亚洲国家偏向开源模型，各自在全球不同区域市场形成差异化定位。

六、推理芯片：被错过的投资窗口

市场关注的焦点，长期集中在训练算力的国产替代。这或许是一个方向性的误判。

田丰的研究指出了一个更紧迫、更确定的投资窗口：推理端的国产芯片适配。技术门槛低于训练端，市场时间窗口更近，且受益于Agent化带来的持续增量需求。2026年国产GPU市场份额已达45%，但训练端自给率不足20%；推理端国产化进展明显快于训练端。推理专用芯片（NPU/ASIC）的国产化，不需要追赶英伟达Blackwell的训练性能，只需满足特定模型的高并发推理吞吐——这是最确定的近期投资机会。

2026年，全球AI算力芯片市场规模已突破2800亿美元，推理芯片需求首次超越训练芯片，稳居市场主流。Agent框架爆发后，每次指令交互需经云端大模型、Token费用持续累积，端侧AI芯片由此成为破局关键——多家芯片厂商推出面向Agent端侧部署的专用处理器，实现本地推理、实时响应与数据隔离。推理算力的形态，正从"云端集中"向"云边端协同"演进，对应的投资机会延伸至边缘推理芯片、高带宽内存和AI网络互联设备。

从训练时代到推理时代，商业模式的本质在改变：训练算力是少量客户的一次性科研弹性消耗，推理算力是全民参与的可持续刚性基础设施——复利性不同，天花板不同，估值逻辑也应当不同。综合来看，Token经济的投资逻辑，应当锚定在推理算力基础设施国产化和MaaS调度层网络效应这两个高确定性环节。

尾声