1、Token出海商业模式与参与主体

·参与主体与协作模式:Token出海商业模式由多方协作搭建完成,核心参与主体及协作逻辑如下:

a. 模型方:由大模型厂家提供大模型镜像文件,目前全球范围内激活平台聚合的不同大模型共计两三百个,其中头部模型约十几个,包含五六个海外模型,其余为国内大厂及创业公司推出的相关模型,是大模型服务能力的核心供给端支撑。

b. 算力方:为大模型响应推理请求提供稳定的算力支持,可选择自行部署算力资源或采用云计算方案,后续需与电力网络运营商、电力服务商结算电力相关成本,是链路成本端的核心对接环节。

c. 激活平台:作为前端流量入口,类似Open Router这类聚合平台会将不同厂家的API整合至统一入口,通过高流量外部网站引导客户接入,为用户提供一站式的大模型接入选择,是对接海外用户需求的核心触点。

业务链路及收益分成逻辑清晰:海外需求方在激活平台选择对应大模型并提出需求,若选择国内开源大模型,模型方完成推理后交付对应的Token服务,由激活平台统一按百万Token的计价标准向用户收取服务费用,后续激活平台再与模型方、算力方按照约定规则进行收益分成,整体形成激活平台、算力提供方、模型厂商三方联动的业务架构,共同向海外客户输出相关服务完成商业化落地。

2、全球大模型需求侧市场概况

·区域市场分布:全球大模型下游需求侧,中美两国大模型发展速度较快,AI应用渗透率较高。全球大模型市场区域分布特征清晰:北美市场是全球大模型行业的绝对主导,收入占全球总量的1/3以上;亚太是增长最快的热点区域,覆盖日韩、新加坡、印尼、菲律宾等人口密集国家;欧洲市场占比约15%,增速超过31%,区域内核心竞争厂商包括法国Mistral,其在开源社区较早推出支持法语、德语等欧洲多语种的开源大模型,是欧洲客户的重要选择。当前全球大模型使用活跃区域主要集中于北美、东南亚、欧洲、中东等核心区域。

·收费与价格差异:不同区域大模型的收费模式与定价水平存在显著差异:a. 国内AI大模型目前暂未收费;b. 美国大模型已全面收费,头部厂商均采用直接付费的BM模式,整体定价远高于国内,海外定价为国内的8-10倍,国内定价仅为美国的1/8至1/10,价差空间较大;c. 日韩、欧洲区域的大模型同样采取收费模式,即便区域内存在开源类大模型产品,用户部署开源模型仍需支付相关费用。

3、Token出海渠道与用户采购模式

·出海途径与交易体量:Token出海共有三类核心途径,第一类是模型厂商将自身模型部署在微软、Google、AWS等第三方海外云平台,面向客户提供服务;第二类是模型厂商将模型部署在自有海外站点对外输出服务;第三类是通过激活平台完成出海,平台在海外拓展客户资源,背后对接模型仓匹配算力服务,将模型镜像集成到平台后对外输出服务。当前主流出海渠道为云平台,流量规模最大;激活平台尚处于发展初期,市场占比不高,目前行业内已有包括OpenDOTA在内的五六个玩家,整体市占率接近10%,单家市占率仅为几个百分点。交易体量方面,Openroad等头部平台2026年一季度日均Token规模超过50万亿,对应年规模约1800万亿,叠加全市场其他平台后,全年Token输出总规模超1万万亿,行业整体处于发展初期。

·B端采购与合规要求:B端不同规模用户的Token采购偏好存在差异:a. 小型用户可采购头部模型公有云的API调用服务;b. 租赁公共算力资源,将开源模型部署在公共算力平台完成推理;c. 中小开发者、中小企业更偏好选择聚合平台渠道,该渠道可提供优惠折扣,支持灵活切换不同模型,还可实现路由功能,且作为中立第三方不受大厂生态绑定限制,更受图片类AI企业欢迎。而头部云计算平台仅提供自有模型及少量头部模型,存在生态割裂问题,比如AWS主要提供微软、OpenAI体系的模型。合规要求方面,不同风险等级的业务对应不同合规标准:低风险业务(如普通AI对话)可使用国内算力链路,无合规风险,国内算力服务海外低风险业务的延迟仅为数百毫秒,可满足使用需求;中高风险业务(如法律、编程等敏感业务推理)需满足本地合规要求,站点、存储、推理数据均需部署或托管在海外合规云站点。平台在路由过程中会采用混合策略路由,按场景、路径、风险等级将不同数据分配给对应节点完成推理,实现动态均衡分布,帮助客户规避合规风险。大模型厂商的合规部署路径成熟,早期业务量较小时以国内站点推理为主,后续为覆盖全场景需求,会同时布局本土站点与海外站点,海外站点可选择与中小云厂商合作部署模型,无需自行搭建,也可自行部署后为客户提供合规访问路径,合规问题并非Token出海的核心阻碍。

·C端采购与平台定价:C端用户及面向C端的产品主要采用按使用量付费的预充值模式(pay as you go),C端产品背后会调用激活平台的Token,运营方预先充值对应额度的Token,后续根据实际调用量扣减,可路由不同模型支撑前端用户体验,既能够低成本推出免费基础服务,也可设置每日免费额度,超出部分向用户收费,AIGC、虚拟社交类产品均普遍采用该模式,以100万Token为单位进行计费充值。不同聚合平台的定价策略存在差异,并非价格越低竞争力越强,定价差异核心来自平台提供的增值服务,核心增值服务包括智能路由、低延时、API接口兼容性、定价透明度等,其中API接口兼容性可降低客户切换模型时的接口改造成本,各家平台会根据自身服务体量、客户群体特征提供差异化定价。

4、API聚合平台竞争格局与动因

·玩家分类与市占:API聚合平台的核心玩家主要分为三大类,各类玩家的市场份额和发展特征差异明显。a. 独立聚合平台:代表平台包括OpenRooter、AI点CC、Together点AI等,整体市场占比接近30%。其中OpenRooter是该类别的主导平台,在独立聚合平台激活市场中占据40%-50%的市场份额,当前服务的开发者数量超过500万,年增速达400%,是领域内增速最快的平台;AI点CC的市场占比约15%,其余还有五六家长尾独立平台,市场份额相对较低。b. 大厂激活平台:由互联网及科技大厂自建运营,代表主体包括AWS、Google、微软、vivo、grok等,整体市场占比约60%,是当前市场份额最高的玩家类别。c. 垂直平台:代表平台包括Pax and AI、POE、port key等,这类平台聚焦特定垂类的相关服务,满足细分场景的用户需求。

·行业增长节奏:独立聚合平台所属的独立站点是近年刚兴起的流量赛道,增长节奏具备清晰的时间节点特征。2024年、2025年两年是独立站点的初步发展期,流量规模逐步抬升;2025年下半年行业增长速度明显加快,用户规模和流量水平快速攀升,迎来爆发式增长阶段;进入2026年第一季度后,行业依然延续高速增长的态势,整体发展处于快速上升通道。

·增长核心动因:独立聚合平台近年快速增长主要有两大核心动因。a. 国内大模型竞争力大幅提升:国内头部大模型包括智谱清言、月之暗面、Minimax三类,2025年三四季度这类模型在全球大模型排名中仅处于9-10位,甚至存在掉出前十的情况;2026年这类模型的整体排名已进入全球前6-7位,其中智谱清言基本稳定在全球前6位,产品竞争力得到显著提升。b. 国内大模型性价比优势凸显:海外头部K、W、D等模型的定价一直维持在较高水平,2026年国内头部厂商推出的模型主打较强的编程能力,过往开发者普遍习惯使用定价较高的Cloud模型,单个工程师工作日单日token消耗量可达数百万,若全部使用高定价的Cloud模型,单日成本可达数十甚至上百美金。目前开发者可采用性能稍弱但处于同一水平的国内高性价比模型做前置处理,先批量生成代码,再通过Kimi、智谱等模型交叉验证,确认内容无误后再提交给高定价的Cloud模型做最终处理,大幅降低了高成本模型的流量消耗,进而带动独立聚合平台的流量规模快速攀升。

5、Token定价机制与成本构成

·平台定价机制:A API平台的Token交易定价整体低于官方价格,采用多维度差异化定价机制,具体可分为三类核心模式,不同模式对应不同适用场景与优惠力度。第一类为输入输出拆分定价,作为基础定价逻辑,分别针对Token的输入、输出环节设置不同价格,其中输出价格为输入价格的4-6倍,定价规则清晰透明。第二类为命中率关联定价,针对高频重复请求场景,平台可通过缓存、KV存储直接返回请求结果,命中缓存的订单价格较标准定价低20%-30%,可帮助高频需求客户降低开支。第三类为预留容量定价,主要面向B端客户,客户可预先约定月消费阈值,当实际月消费量达到约定值时即可享受对应折扣优惠,例如月消费达到1万亿Token时可享受7折优惠,若未达到约定消费量则按实际使用量正常计费。除此之外,平台还采用路由切换机制动态匹配不同价格的服务资源,平摊后的动态成本整体低于固定定价模式,可进一步降低客户的综合使用成本。

·海内外模型价差:海内外主流大模型的Token定价水平存在明显差距,国内大模型在性能达标基础上具备显著的性价比优势。定价层面,海外头部模型如OpenAI、cloudy等的Token价格区间为10-25美元/百万Token,多数处于十几到二十美元区间,价格较高的可达25美元/百万Token;国内大模型的Token价格明显更低,最低为0.8美元/百万Token,价格较高的型号也仅为2.x美元/百万Token,海内外价差比例约为8:1至10:1。性能层面,国内大模型的核心指标与海外头部模型处于同一层级:服务延时方面,海外模型延时约为30多毫秒,国内模型可达到35-40毫秒,完全处于同一水平;训练侧的代码、数学能力方面,国内模型水平为90-95,海外头部模型水平为92-97,能力差距极小。差异化优势方面,海外模型的语料适配以欧美语种为主,国内模型可支持泰语、越南语、老挝语等东南亚小语种,小语种适配能力显著优于海外模型,整体性价比远高于国际主流大模型。

·Token成本构成:Token生成的成本主要由四大核心项构成,各成本项占比明确且受对应因素影响。第一类为算力折旧成本,按GPU通常5年的使用寿命折算每小时的算力消耗成本,该项占Token生成总成本的25%-35%,具体占比与所使用的GPU相关。第二类为电力成本,是占比最高的成本项,占比区间为35%-45%,具体成本与所使用的GPU功耗直接相关,不同型号GPU功耗从400瓦到700瓦不等,需核算每百万Token对应的耗电量来确定最终电力成本。第三类为带宽成本,需向运营商支付对应带宽费用,其中国际带宽价格显著更高,该项占总成本的10%-15%,具体占比与是否使用国际带宽相关。第四类为运维及固定人力成本,涵盖平台日常运维、固定人力投入,该项占比为15%-20%。四大类成本加总构成Token生成的整体成本。

6、国内大模型出海竞争力分析

·核心竞争优势:国内大模型主打效率优先路线,训练侧所需算力更少,推理侧同等参数下性价比优势显著,万亿级参数的图模型激活比例仅约4%,激活规模仅400多亿,推理效率优于海外竞品。差异化竞争优势主要体现在三方面:一是多语种支持能力突出,海外主流模型侧重覆盖欧美主流语系,对小语种的精细化支持不足,而国内头部模型支持语种已从119种提升至超200种,覆盖东南亚、阿拉伯语系、泰语等细分小语种,多语系理解能力优于海外竞品;二是采用异构算力架构,可兼容英伟达与国产算力,集群推理速度不输海外;三是首token生成速度比海外快20%,性能表现具备差异化优势。

·出海算力要求:国内大模型出海的算力布局受延迟影响较大,若面向中国本土用户提供服务,延迟约为100毫秒;若算力出海服务海外用户,受国际光缆绕路影响,延迟可达200~500毫秒,该延迟水平对普通场景仍可接受,但1秒以上延迟用户感知较为明显,若延迟超过500毫秒则会导致语音等实时交互场景出现明显卡顿,用户体验大幅下降。为解决出海延迟过高问题,算力出海需通过布局边缘计算节点优化,可将延迟降低至300毫秒以下,有效提升推理速度,适配不同场景使用要求。

·境内外部署价差:国内大模型在境内外服务器部署的定价存在明显差异,部署在国内服务器时,价格约为海外头部模型的1/10;若部署在新加坡等海外站点,定价为海外头部模型的1/4,为国内部署价格的2倍,整体仍低于海外竞品。定价差异主要来自三方面额外成本:a.合规成本,国内模型出海上线需完成海外合规流程,产生相应合规成本;b.电力成本,海外部署使用当地电力,成本高于国内本土电力;c.带宽成本,海外部署需使用当地运营商的带宽资源,成本显著高于国内带宽。虽然海外部署定价有所提升,但受成本刚性抬升影响,利润仅实现微增。

7、Token消耗量预测与前景风险

·Token消耗量预测:2025年国内Token日均消耗量为30万亿,对应全年消耗约10.95千万亿。在AI推理需求提升、部分出海需求释放的行业背景下,2026年国内Token消耗60%来自头部大厂,字节、阿里等头部大厂日均消耗至少超百万亿,头部大厂整体日均消耗达500万亿级别,叠加占比30%-40%的中、小厂消耗,2026年整体日均Token消耗量达七八百万亿,全年对应约100000万亿。2027年Token消耗将受益于两大核心驱动:一是全模态模型迭代,下半年头部模型将从当前的文图多模态升级为音视频全模态,Token处理消耗显著提升;二是产品端Agent普及,与Agent单次对话的Token消耗明显高于传统文本对话,简单场景单次约5000个,中等复杂场景约2万个,平均达1.5万个,是当前文本对话Token消耗量的7-8倍。在此驱动下,2027年日均Token消耗量将在2026年基础上至少乘以5,达到3500-4000万亿。

·出海发展机会:Token出海为中国算力、人员出海提供了新的发展路径,随着国产模型在海外的行业排名逐步领先,可向海外开发者输出高性价比的模型服务,覆盖市场不局限于北美,还可拓展至东南亚、日韩、中东、部分欧洲区域。模型出海将同步带动国产算力、国产电力的输出,后续可重点关注出海模型的海外业务量占比、背后采用的国产算力类型及电力分布情况。边缘计算服务是模型出海的重要配套设施,需同步布局以输出完整的算力解决方案,边缘计算设施既可以将国内的算力、电力资源布置到海外,也可使用海外本地的算力及电力资源。

·核心风险因素:Token出海主要面临四类核心风险:a. 地缘政治风险,为最大影响因素,若模型落地地区与中国存在地缘关系问题、贸易纠纷等,可能直接限制模型在当地的销售推广;b. 成本波动风险,Token出海定价高度依赖硬件、电力等供给要素,若供应链成本出现大幅波动,将直接影响相关业务的定价水平;c. 生态封锁风险,国内模型凭借价格优势对标海外头部模型时,可能遭遇海外平台的生态封锁,被限制在相关平台上架使用;d. 技术路径迭代风险,若国内模型技术方向与海外存在代差,例如海外已普及最先进的全模态模型而国内仍以语言模型为主,将被海外开发者摒弃,需保持与全球头部模型同节奏的迭代速度,才能获得开发者选用。

8、核心问题补充答疑

·海外站点选择差异:大模型厂商的海外调用站点选择与自身算力部署情况直接相关。创业公司大模型多调用国内站点,大厂同时布局境内外站点。创业类大模型厂商海外算力部署较少,例如智谱、Kimi等,服务站点以国内站点为主,海外用户调用此类厂商模型时,多数调用中国本土服务器的算力。头部互联网大厂本身在境内外均有算力布局,海外区域主要使用自有的海外站点提供服务,站点选择的核心差异来自于厂商自身的海外算力基础设施部署完备程度不同。

·OpenRouter用户画像:OpenRouter作为公开披露大模型Token调用量的聚合平台,核心用户主要分为三类,核心用户包括自由开发者、中小工具厂商、海外中小企业。a.自由开发者及小型个人工作室:海外大量仅数人组成的单人公司及小型工作室需要调用大模型开发软件、游戏类产品,是平台的核心调用群体;b.具备一定C端流量的中小工具厂商:例如Windows Cursor等拥有万级用户的编程工具类产品,会集成聚合平台的API接口,通过路由配置帮助用户降低使用成本;c.海外中小企业:这类企业会将平台上的低成本大模型作为产品底座,嵌入自身的运维SaaS等传统产品中,搭建自有AI PaaS对外输出服务。用户选择聚合平台而非官方API的核心原因是聚合平台可提供多模型统一接入能力,同时能帮助中小客户降低接入和使用成本。

·模型选型与调用量:当前国内大模型厂商在OpenRouter平台的Token调用量增长较快,2026年2月底国内模型在OpenRouter的Token调用量占比约60%,总调用量约22万亿,粗略估算对应日均调用量约30多万亿。Token调用量与模型使用成本直接挂钩,调用量越高对应支出越高。用户选择大模型时的考量优先级明确,用户选型优先考虑成本,其次为性能:在成本相近的情况下,用户会优先选择排名靠前、用户体量更大、性能表现更优的模型;若头部模型价格更高,用户则会转向排名次之、性价比更高的模型。OpenRouter平台本身的智能路由机制也会影响用户选择,平台可提供同官方API相比至少7-8折的价格优惠,同时会根据用户所在区域动态调度算力,提升推理性能,进一步降低用户的使用成本。

·开源模式分成规则:开源大模型在聚合平台的商业模式与自身采用的授权协议直接相关,目前主要分为两类授权模式:a.MIT协议,采用此类协议的模型(例如Deepseek)允许使用者免费商用,无需向模型方支付分成;b.Apache2.0协议,采用此类协议的模型商用需获得模型方授权,并向模型方支付分成,例如Minimax、Kimi等均采用该类协议。MIT协议无分成要求,Apache2.0协议需授权分成,聚合平台抽成约25%,模型方与聚合平台合作时,聚合平台会抽取约25%的利润作为抽成,剩余部分扣除平台运营成本后为模型方的实际收益。此外,聚合平台的调用量不代表大模型的总流量,部分头部大模型的核心流量来自于自有官方渠道,仅将非核心的次新版本模型上线聚合平台,其核心高性能模型仅向承诺月度消耗量的大客户开放,无需依赖第三方聚合平台获客。

Q&A

Q: Token出海的商业模式是怎样的?

A: Token出海商业模式由模型方、算力方、激活平台三方协作构成:模型方提供大模型镜像文件;算力方提供推理算力,并与电力网络等服务商结算成本;激活平台将不同厂家API聚合至统一入口,通过高流量网站引导客户接入,覆盖全球数百个模型,用户接入后按百万token计费,再与模型方、算力方分成,最终通过三方联动将服务推向海外客户实现商业化输出。

Q: 下游需求侧大模型发展较快的国家是否为中国与美国?整体AI应用渗透率是否较高?以及中美大模型在收费模式上有何区别?

A: 美国大模型头部采用BM模式,需直接付费,整体定价远高于国内,平均价差为国内是美国的1/8甚至1/10。

Q: 日韩及欧洲市场大模型使用目前是否收费?

A: 日韩及欧洲市场大模型使用目前均收费,尽管部分为开源模型,但开源模型部署环节仍需收费。

Q: 中游渠道端中,Token的出海途径有哪些?

A: Token出海主要有三种途径:一是模型厂家将模型部署至微软、Google等海外云平台;二是模型厂家将模型部署至自身海外站点;三是通过激活平台,激活平台在海外获取客户,整合模型仓及算力服务,将模型镜像集成后对外输出。其中云平台为主要途径,流量较大;激活平台占比不大但处于增长阶段,当前玩家包括OpenDOTA等五六个,总占比近10%。

Q: 能够用到中国本土算力和电力的途径是否只有聚合平台?

A: 聚合平台涉及电力时,因电力需从国内走,故使用中国本土电力。

Q: 从电力相关聚合平台国内出海途径维度来看,目前偷token出海的交易体量是多少?

A: Openroad等公司今年一季度日均偷token出海交易体量约50万亿,年度日均约1800万亿;叠加其他平台后,年度交易体量可能超一万万亿,目前处于初始阶段。

Q: 上述出海途径中,低端用户主要采用哪些方式采购token?

A: 低端用户采购token主要有三种方式,一是基于公有云采购API调用;二是租用算力,将开源模型部署在公共算力上推理;三是通过OpenRoot等聚合平台,此类平台提供优惠折扣、可切换不同模型,且中立性强、模型选择多,不受大厂限制,更受中小微企业及开发者青睐。

Q: B端企业采用聚合平台时,数据确权及数据安全性的考量方式及是否存在壁垒?

A: 存在壁垒,主要基于合规政策考量。普通业务不涉及合规,采用国内链路及算力服务海外,延时几百毫秒可接受;中高风险业务需满足本地合规要求,站点、存储及推理数据需在海外托管或通过合规云部署,通过混合策略路由分场景、路径、风险将数据传递至不同节点推理,实现动态均衡分布,帮助客户规避合规风险。

Q: 国内大模型需在海外布局边缘计算或相关数据中心以满足分层存储及推理计算要求吗?

A: 早期业务量较小时主要通过国内站点提供服务,目前客户主要使用编程、日常文字处理等非高风险场景;高风险场景需将模型托管至海外合规站点,可通过与中小云合作或自行部署实现,向客户提供合规接入路径,客户无需关注背后算力位置,因此需同时布局本土及海外站点以对外提供服务。

Q: 数据确权及合规问题是否是阻碍token出海的重要因素,且是否可解决?

A: 数据确权及合规问题可解决。

Q: Token出海业务中,C端用户最主要的付费方式有哪些?

A: C端个人消费者主要采用云上按使用量付费的方式,需预先充值Token,再根据实际调用量扣减;通过路由不同模型支撑前端用户体验,可低成本实现C端免费服务,同时对用户侧设置每天限量,超出部分需付费;产品挂在聚合平台上,按实际消耗流量以100万Token为单位计费。

Q: 一开始是否需先配置资金按单位token购买对应token,不同平台价格不同的情况下,资金是否与大模型绑定?

A: 每个平台有自身定价策略,部分平台主打智能路由、低延时以实现差异化竞争,定价并非越便宜越好,背后包含路由效率、兼容性、定价透明等增值服务,各家会根据服务体量及客户需求提供差异化定价。

Q: API主流平台有哪些,经营格局及对应市占率情况如何?

A: API主流平台主要分为三类:一是独立聚合平台,知名的有OpenRooter、AI.CC、Together.AI等,占市场约30%;二是大厂的激活平台,包括AWS、Google、微软、Cohere、Grok等,占市场约60%;三是垂直平台,包括Pax and AI、POE、Portkey等,聚焦垂类服务。独立聚合平台中OpenRooter主导,占独立激活市场40%-50%的份额,服务超500万开发者,年增速400%,为领域内最快;AI.CC占比约15%;另有五六家长尾玩家。独立站点近两年起步,2025年下半年爆发,2026年第一季度仍高速增长。

Q: 独立API聚合平台在当前时间点发展较快的原因是什么?

A: 主要有两方面原因,一是国内模型全球排名提升,去年三四季度排名约第9或10,今年进入前七甚至前六;二是海外模型定价较高,而国内模型性价比更高,开发者用国内模型前置生成代码,再用贵的海外模型交叉验证,节约成本,推动独立API聚合平台快速发展。

Q: A API平台上Token交易的定价机制是怎样的?价格是根据实时供需决定还是采用固定价格?

A: A API平台Token定价整体低于官方价格,具体机制包括:按输入输出分开定价,输出价格为输入的4-6倍;按命中率定价,高频请求通过缓存、KV回复的命中价格较标准定价低20%-30%;B端客户预留容量定价,承诺月消费达到1万亿Tokens可享7折优惠,未达标则按实际消费结算;部分价格公开固定,但通过路由切换机制动态分摊成本,较固定模型更便宜。

Q: 目前国内外不同大模型的价格水平如何,例如国内模型及国外Gemini等模型的价格情况?

A: 目前大模型价格以百万token计,海外模型如OpenAI、cloudy等价格为十几至二十美金,贵的达25美金;国内模型最便宜0.8美金,贵的二点几美金,价格比约10:1或8:1。服务延时方面,国外约30多毫秒,国内35~40毫秒,处于同一水平;训练侧代码、数学能力国内为90~95,海外为92~97,亦处于同一水平。此外,海外模型偏欧美语言,国内模型支持泰语、越南语、老挝语等小语种,小语种能力更强,整体性价比更高。

Q: 中国大模型token生成的成本构成及各部分占比情况如何?

A: 中国大模型token生成成本主要包括四部分:算力折旧占25%~35%,电力占35%~45%,带宽占10%~15%,运维及固定人力占15%~20%。

Q: 从性能维度,中国大模型与核心竞争对手的差异化优势及不足有哪些?

A: 国内大模型以效率优先为核心,训练侧需较少算力,推理侧实现极致压缩,推理性价比及效率优于海外同参数模型;多语系支持从119种拓展至超200种,覆盖东南亚、阿拉伯语系、泰语等细分语种,多语理解能力强于海外模型;采用异构架构,集群推理速度不逊海外;首token生成速度比国际快20%。

Q: 国内出海token与海外布局数据中心的延迟是否相近?出海算力与国内内部算力的数据传递延迟有何区别?算力出海对数据中心布局是否有更高要求?

A: 中国本土向海外用户提供服务时延迟约100毫秒以内;出海服务因需经国际光缆,延迟为200-500毫秒,该延迟可接受,但超过1秒用户感知明显,且对实时性交互是卡点,超过500毫秒会明显卡顿、体验较差。算力出海通过边缘计算节点可弥补高延迟问题,将延迟缩短至300毫秒以下,提升推理速度。

Q: 国内模型部署在国内服务器时价格为海外的1/10,若部署在新加坡等海外服务器,报价情况如何?

A: 调用海外站点时定价会区分路由至国内或海外,海外站点价格为海外的1/4,虽比国内贵一倍,但整体仍比某某便宜。

Q: 海外站点调用价格较国内翻倍而非三倍的原因及成本构成如何?

A: 海外站点价格翻倍主要源于三部分成本:一是中国本土模型海外上线的合规成本;二是海外算力使用当地电力,成本高于国内;三是带宽采用新加坡电信等海外运营商,成本高于国内。

Q: 已知25年日均Token消耗量30万亿、全年约10.95千万亿,在AI推理需求提升及部分出海需求背景下,26年、27年全国Token消耗量大致水平如何?

A: 26年Token消耗量中60%来自字节、阿里等大厂,大厂日均至少过百万亿,几家大厂加起来过500万亿/天,加上占40%的中中小厂,整体日均约七八百万亿。27年受两大因素驱动,一是模型从图文多模态转向音视频全模态,下半年头部模型将支持全模态,增加token消耗;二是产品Agent化,单次交互token从文本对话的千级增至中等复杂的1.5万级,因此27年日均消耗量为26年的5倍,即3500-4000万亿。

Q: 日均七八百万亿的市场规模乘以365天是否约为100000万亿?2027年市场规模情况如何?

A: 2027年市场规模增长主要受两大趋势驱动:一是模型从当前文图多模态向音视频多模态演进,下半年头部模型将支持全模态,token处理消耗增加;二是产品Agent化普及,单次交互token从过去千级提升至中等复杂场景的15000个。基于此,2026年日均七八百万亿的市场规模,2027年日均将至少增长5倍,达到3500-4000万亿。

Q: token出海的后续发展机会及相关风险点如何?

A: token出海为中国算力及人员出海提供新方式,在国产模型海外排名领先背景下,可向海外开发者提供高性价比模型输出,市场可拓展至东南亚、日韩、中东及欧洲部分区域,同时输出国产算力与电力;需关注模型海外量占比、背后国产算力及电力分布,且边缘计算服务需作为配套设施搭配以完整输出算力方案。

Q: 在海外布局边缘计算时,用到的算力和电力是否均为海外的,与国内无关?

A: 算力可以是国内带出去并布置到海外的。

Q: token出海面临的合规及其他壁垒等风险点有哪些?

A: token出海面临四大风险:一是地缘政治风险,为最大风险,模型输出地区与中国的关系及贸易纠纷会影响产品售卖许可;二是成本波动风险,因依赖硬件、电力等供给,供应链成本波动将影响定价;三是生态封锁风险,国内以价格对标海外头部模型时,可能面临平台选择限制;四是技术路径迭代风险,国内外技术存在代差,若海外已发展全模态模型而国内仍聚焦语言模型,会被开发者摒弃,需快速迭代以保持与头部模型同等水平。

Q: 海外用户调用中国本土服务器与海外属地服务器的Token消耗情况如何?

A: Token消耗情况与模型提供方类型相关,智谱、kimi、minerva等创业公司海外算力部署较少,主要使用国内站点;阿里等大厂国内外均有部署,海外主要使用自有海外站点。即创业公司的海外用户多调用中国本土服务器,大厂的海外用户多调用海外属地服务器。

Q: 目前无特别公开token量的渠道,仅Open Router平台公布了相关调用量,该平台的token调用量主要来自哪些客户?这些客户不选择官方API的原因是什么?请从B端和C端用户画像维度介绍。

A: Open Router平台的token调用量主要来自三类客户,不选择官方API的核心原因是降低成本:一是海外自由开发者,这类团队人数少但可开发大型软件或游戏产品,是平台核心用户;二是拥有万级C端用户的编程工具,这类产品此前多选用cloud模型,现在集成Open Router接口至产品末端,让用户自主选择或通过路由帮助降低成本;三是海外中小企业,这类企业并非开发软件产品,而是将低成本模型作为自身运维类SaaS等传统产品的底座,类似国内金迪的企业会将其打造成AI pass并对外输出。

Q: Open Router平台上近期国内模型厂Token调用量增量较快,Token量与工作量的对应关系如何?各家大模型之间是否存在较大差异?客户选取模型的考量优先级是怎样的?请分B端与C端客户介绍。

A: MinMax月销量已超5万亿,截至2月底中国企业在Open Router的月Token调用量约22万亿,占平台总量的60%左右;钱量粗估约44万亿上下,日均三十几万亿。平台用户主要为自由开发者。平台通过智能路由优化提供增值服务:一是价格折扣,同样模型比官方低,至少8折甚至7折;二是动态路由,根据用户区域或推理需求调整,提升推理性能。用户选取模型时优先考虑排名、用户量、性能及性价比,价格相近选性能更好的模型,若价格较高则选择排名第二的模型。

Q: 开源模型在Open Router上的商业模式是怎样的?Open Router上的token调用量一般能解析出哪些信息?O Cloud模型调用量不高但口碑及能力较强的信息不对称情况如何看待?

A: Cloud模型的核心流量来自自身平台的直接购买用户,Open Router仅占其流量的小部分,非绝对主力,其在Open Router上投放的多为次新版本,近期才放出欧帕斯模型。因此Open Router上的流量不代表Cloud总流量少,其核心客户为承诺消耗量客户,最强模型仅对承诺流量的用户开放,部分客户月承诺量达1万亿,100多个客户总承诺量即可达100万亿。其他厂商因自身海外站点流量不高,选择通过Open Router获客且可享受折扣,因此Open Router上的排名不代表其总流量少。开源模型在Open Router上的商业模式分为两种:一是MIT协议,如Deepseek,允许自由使用且无需分成;二是Apache 2.0协议,如Minimax、Kimi,商用需授权并分成,通常平台抽取约25%的利润,剩余部分由平台覆盖成本后再分配给模型方。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片