谁在消耗5万亿模型算力？|人工智能|大模型|智能体|算力|编程

经济观察报记者郑晨烨

2026年2月9日至2月15日，在线人工智能托管平台OpenRouter发布了一组数据：中国大模型的单周调用量达到4.12万亿Token，历史上首次超过美国模型的2.94万亿Token。

OpenRouter是一个聚合全球大模型接口的平台，被称为人工智能界的“超级接口”。开发者不需要逐一去注册大模型公司的账号，只需通过该平台的统一接口，就能自由调用全球各家公司推出的各类模型，因此，该平台的使用量数据通常被视为全球大模型受欢迎程度和真实应用强度的风向标。

紧接着的2月16日至2月22日这一周，中国大模型的周调用量进一步冲高至5.16万亿Token，三周内增长了127%，在当周全球大模型周调用量排名前五的榜单中，MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5与深度求索DeepSeek V3.2占据了四个席位。

根据官方用户数据，在OpenRouter平台近47.17%的用户来自美国、中国开发者仅占6.01%的背景下，这组数据反映出海外开发者对中国模型的使用意愿正在快速上升。

Token是人工智能处理语言的基本单元。在算力市场中，Token调用量是衡量大模型使用强度、商业价值与渗透深度的核心指标，海外开发者对中国模型的高频调用，标志着人工智能产业的重心正在发生转移，行业不再单纯比拼构建大模型时的“一次性训练成本”，而是进入了高频度、常态化的“应用推理”阶段。

应用重心的迁移直接导致了下游采购标准的转向，国产AI芯片厂商也由此获得了加快进入市场的机会。

五万亿Token流向了哪里

要厘清这五万亿Token的去向，首先需要观察用户使用人工智能的方式发生了什么变化。

根据OpenRouter与风险投资机构a16z联合发布的《2025 AI使用报告》，该平台处理的编程任务Token占比已从2025年初的11%增加到了50%以上，成为最大的单一使用品类。这一转变背后，是人工智能应用模式从“问答式”向“智能体（Agent）”模式的切换。

在早期的问答模式下，用户提一个问题，模型给出一个回答，单次交互消耗的Token通常在几百到几千个之间。一旦用户停止提问，消耗也就随之停止。但进入智能体模式后，人工智能开始在后台持续执行多步骤任务。

上海一家算力芯片厂商的负责人告诉记者，以编程场景为例，一个智能体在接收到指令后，会经历编写代码、运行测试、识别报错、自我修正、再次运行的循环，为了让机器记住此前的操作，每次调用都需要携带完整的对话历史。

比如，目前国产大模型诸如智谱GLM-5等新一代模型已经支持200K（约20万Token）的超长上下文窗口。这种多轮自我修正和工具链级联的模式，使得单次活跃会话的Token吞吐量呈几何级数增长。

另外，多模态应用的落地则进一步推高了消耗量。根据公开数据，年初爆火的Seedance 2.0视频模型生成一条10秒、1080p规格的视频，大约需要消耗35万Token。

视频生成场景单位时间内产生的Token消耗，是传统文本问答的数百倍。

“当前数万亿Token级别的调用量，已不再主要由测试性场景构成，而是由一批高频、规模化、可持续付费的商业应用所支撑。”弗若斯特沙利文（Frost & Sullivan）中国业务主管合伙人兼董事总经理陆景向经济观察报记者表示。

陆景介绍，从头豹研究院对国内大模型商业生态的调研来看，目前集中买单的领域主要包括互联网、金融、跨境电商与娱乐行业。

具体场景则涵盖了以下三类：第一类是企业级应用，如智能客服、智能营销、代码辅助开发、办公自动化工具等，这类应用在金融、电商、游戏行业已实现规模化部署；第二类是互联网平台中的生成式内容服务，包括智能搜索、对话式助手与虚拟角色；第三类是AIGC（人工智能生成内容）生产工具，如短视频脚本生成、广告文案创作、跨境电商商品描述生成等。

这些行业的共同特征是，业务流程中存在高比例的文本或多模态内容生成需求，且企业能够承接大模型服务产生的算力成本。

2026年2月10日，在郑州举行的“国产万卡算力赋能大模型发展研讨会”上，中国科学院自动化所研究员陈盈盈表示，驱动行业发展的核心动力依然是大算力、大数据与大参数。但随着模型参数量增长带来的性能提升进入瓶颈期，行业正迈向智能体、合成数据和推理计算，数据决定了人工智能的高度，环境将决定模型演进的方向。

应用模式的改变，解释了调用量为何飙升，那为何国产大模型又能在新的范式下，承接住来自全球高频的调用需求呢？

前述算力芯片厂商负责人告诉记者，目前，MiniMax M2.5、Kimi K2.5等国产模型普遍采用了“混合专家（MoE）”架构。与传统的稠密模型（Dense Model）在每次运算时都要激活全部参数不同，MoE架构通过按需激活特定的专家网络，使推理时的显存占用降低了约60%，吞吐量得到显著提升。

稠密模型的设计逻辑是，处理每一个输入请求时，神经网络中的每一个参数都必须参与计算。这意味着随着模型规模的增大，所需的算力与显存开销会同步呈线性增长。

混合专家架构则改变了这种全量运算的模式，它将模型参数划分为多个功能组，即“专家”，在执行具体任务时，路由系统会识别需求并只激活与之相关的部分参数。这种分工机制使得模型可以在保持巨大参数量的同时，大幅降低单次推理所需的有效算力。

技术上的优化直接反映在了售价上。目前中国模型的输入价格约为0.3美元/百万Token，而部分海外同类产品的价格在5美元左右。此外，电力成本也是一个变量，中国西部算力节点的电力成本约为每度0.2元至0.3元，而欧美地区的成本在1元至1.5元之间。

这种成本优势促成了供需关系的再平衡。2026年春节期间，国产大模型迎来密集发布潮。2月11日，智谱上线底座模型GLM-5；2月12日，MiniMax开源文本模型M2.5；2月14日，字节跳动发布豆包大模型2.0系列，与此同时，大厂围绕AI应用的红包战同步打响：百度投入5亿元，腾讯元宝10亿元，阿里推出30亿元免单计划。

密集的应用落地也拉动了算力消耗的急剧攀升。公开数据显示，中国日均Token消耗从2024年初的1000亿攀升至2026年2月的180万亿级别，在这种爆发式的需求驱动下，此前深陷价格战的国内大模型厂商开始集体调头。

比如，2026年2月12日，智谱AI在发布新模型的同时，宣布上调其API（应用程序编程接口）调用价格，部分海外订阅价格涨幅达到30%至60%，API调用价格涨幅最高达到100%。智谱对此回应称，用户规模与调用量快速提升，公司需同步加大算力投入。另外，月之暗面旗下的Kimi K2.5发布不到一个月，其海外收入便超过了国内收入。

也就是说，大模型公司正在告别亏本引流的价格战，开始有了实打实的业务收入。五万亿Token的流向表明，人工智能正在从单纯的对话框，转变为金融、电商与编程场景中在后台自动运转的工业流程。

而顺着这股成倍增长的数据流往上游看，那些承载运算任务的智算中心，挑选算力硬件的眼光也发生了变化。

算力采购的标准变了

算力市场的核心指标正在从抢夺计算卡转向核算单位产出成本。

2025年，中国GPU算力租赁市场经历了价格下调。比如，英伟达H100计算卡的租赁价格从高峰时的每小时90多元人民币，跌至15元到20元；A100的价格则降至每小时3元到5元。

这种价格走势背后是采购逻辑的更替。在大模型开发初期，由于高性能芯片稀缺，市场处于资源囤积阶段，追求的是单卡的算力峰值（FLOPS）。但当推理负载成为常态后，企业开始核算总拥有成本（TCO）。

“客户不再只盯着单卡的绝对算力峰值，而是开始计算每投入一元钱能换取多少吞吐量，每消耗一瓦电能处理多少Token。”前述算力芯片厂商负责人向经济观察报记者表示。

该负责人认为，当前的算力需求呈现出推理与渲染的双重特征。除了文本生成，AI智能体云底座、云手机、数字孪生及工业仿真等场景对实时交互的需求，正在拉动对全功能GPU的采购。进入推理阶段之后，国产芯片迎来了切入窗口——训练阶段行业高度依赖英伟达的CUDA生态，而推理任务则更聚焦于能耗、稳定性和供应安全。

TrendForce集邦咨询分析师龚明德在回复经济观察报记者采访时亦预计，2026年推理型AI服务器在整体出货结构中的比重有望提升至44%，相较于2025年上升3个百分点。

龚明德认为，相比追求算力密度的大模型训练集群，推理型服务器在底层硬件架构设计上更注重性价比和能效比，推理端对高端封装（如CoWoS）和高带宽内存（HBM）的严苛要求有所下调。

在龚明德看来，这种规格的放宽，有利于中国本土企业在取得HBM受限的情况下，发展中等规模算力的推理芯片，并在互联网、车载系统等领域提供机会。

随着行业重心转向推理和微调，企业客户在规划智算中心预算时，投入结构也发生了改变。

对此，陆景分析称，过去在训练阶段，投入主要集中在高端训练型GPU集群、超高速互联网络以及高性能存储系统，以满足长时间、高并行度的训练需求。而在推理需求增长的背景下，企业开始更多采用推理优化型GPU、国产AI芯片或异构算力组合。在投入结构中，软件平台、算力调度、模型优化工具以及推理加速框架的占比逐步提升。

陆景认为，国内人工智能芯片在底层软件生态建设方面，正处于由可用向规模化商用过渡的阶段，主要国产芯片厂商已构建起包括驱动层、编译器、算子库、运行时环境在内的基础工具链体系，能够支持大模型训练、推理及智算中心部署。

目前的算力采购也已经从单卡送测进入了系统级工程交付阶段。由于推理任务对响应延迟极其敏感，万卡规模的集群在协同工作中，网络通信和散热能力往往比单张计算卡的“跑分”更具决定性。

2026年2月5日，国家超算互联网郑州核心节点正式上线试运行。在这个节点上，部署了3套由中科曙光（603019.SH）提供的scaleX万卡超集群，最大可提供超过3万张国产加速卡的算力，这是全国首个实现3万卡部署且实际投入运营的国产AI算力池。

中科曙光高级副总裁李斌告诉经济观察报记者，郑州核心节点的上线，验证了国产算力基础设施的工程化能力，行业已从早期的单点突破，转向大规模落地部署。此前各家厂商在硬件设计、软件栈和互连协议上自成体系，导致算力资源难以跨平台调度。

“万卡集群的落地不仅是IT技术问题，更是冷却、供电等跨学科的工程化挑战。”李斌强调，如果单点技术出现短板，会直接拖累整个系统的效率，目前的系统研制突破了传统IT技术与其他工程技术的结合瓶颈。

目前，该国产算力系统已完成了千款应用的适配。根据国家超算互联网郑州核心节点运维主任安磊的介绍，超算互联网第一期已有645家第三方商家适配了该节点，超过7200款软件和源码接入。

在这些资源的支持下，已有超过70%的国产新能源汽车在该平台上进行流体和碰撞仿真实验，例如，针对国家新出台的规范可能要求禁用新能源车隐藏把手的变化，车企需要利用大集群模拟门把手改为开放式后对能效与风阻的影响。

此外，该集群还支撑了国产羽绒服顶级面料的研发，以及为国际奢侈品品牌提供智算资源支持其在国内的优化设计。

这种由下游应用爆发倒逼上游基建升级的逻辑，也正在转化为国产芯片厂商的业务收入。比如，根据2026年初中国移动的人工智能通用计算设备集采结果，在总价值超过50亿元的订单中，采购推理型AI服务器7499台。其中，华为昇腾系厂商斩获了34亿元的份额，昆仑技术等国产企业的占比显著提升。

另外，国产算力厂商的业绩也在过去一年实现了爆发性增长。比如，2月27日，寒武纪（688256.SH）发布的业绩快报显示，2025年营收增长453.21%，达到64.97亿元，并实现了20.59亿元的归母净利润，这是该公司上市以来的首次年度盈利，寒武纪表示，收入增长受益于人工智能行业算力需求的攀升，公司推动了应用场景的落地。类似地，摩尔线程（688795）、沐曦股份（688802）、海光信息（688041.SH）2025年度的业绩表现亦均有大幅提升。

瀚博半导体创始人兼CEO钱军则向经济观察报记者表示，物理人工智能正接近关键拐点，实现路径依赖于从虚拟到现实的闭环。瀚博半导体成立于2018年12月，是一家国产高性能GPU芯片提供商。

钱军表示，图形渲染作为构筑仿真与数字孪生的基础，是连接人工智能与物理世界的第一步，该公司已在AI推理与云渲染领域建立了基本盘，目前其产品已在超10家头部互联网公司、多家运营商和央国企落地。

根据伯恩斯坦（Bernstein）发布的《2025年中国AI芯片产业报告》，中国本土AI芯片品牌市场渗透率已从2024年的约29%提升至2025年的42%。这也意味着，在数万亿Token持续消耗的背后，国产算力通过对行业应用的适配和成本结构的优化，正在完成从边缘备选向市场首选的跨越。

（作者郑晨烨）

免责声明：本文观点仅代表作者本人，供参考、交流，不构成任何建议。