打开网易新闻 查看精彩图片

4月21日至22日,以“奔赴AGI 重塑未来”为主题的2026中国生成式AI大会(北京站)圆满举行。

这场大会集结73位产学研投嘉宾,通过1场开幕式、3场专题论坛、6场技术研讨会,全景式解析AI产业的产业脉络、创新范式、Token经济与中国机会。

议题跨度很大,从大语言模型、多模态模型、世界模型、智能体、AI眼镜等前沿模型与应用,到数据、芯片、存储、通信、云服务等基础设施。

在这场信息密度超高的大会上,GMI Cloud中国区总裁蒋剑彪带来了题为《全球AI产业的范式转移——从“模型为王”到“系统制胜”》的主题演讲。

蒋剑彪在演讲中指出,大模型从2023年进入大众视野,到2026年全面渗透到各行各业,行业竞赛的核心已发生根本性转移:不再是比谁的模型参数更大、谁的研究论文更多,而是看谁能构建一整套完整的系统工程能力。从单个模型的性能比拼,到数据、算力、调度、应用的全链路系统集成,AI产业的胜负手正在从“模型为王”转向“系统制胜”。

GMI Cloud是英伟达在全球遴选的七家Reference Platform NVIDIA Cloud Partner之一,其总部位于美国硅谷,在美国、欧洲及亚洲多地拥有基于H200、B300、GB200、GB300等自建智算中心。

在蒋剑彪看来,2026年的AI市场呈现出四大鲜明特征:第一,推理几乎完全取代训练,成为AI基础设施的主战场,客户需求从千卡集群迅速收缩至256卡级的轻量化推理集群,且追求低延时与高性价比;第二,AI Agent从实验室走向生产,国内大厂对Token业务的规划已是十倍、百倍的增长,算力市场彻底转为卖方市场,客户不得不提前8-10个月锁定资源;第三,AI Coding推动“一人公司”(OPC)爆发;第四,智算中心正从“存储仓库”重构为“算力工厂”,即面向大规模AI训练与推理的一体化AI Factory,追求极致算力密度、能效比和Token吞吐量,实现统一编排与全局调度。

面对这四大浪潮,GMI Cloud的应对策略清晰而坚决:在全球自建万卡集群,快速迭代Inference Engine平台,以帮助AI出海企业获取高性价比算力。据悉,不久后,GMI Cloud还将上线全新产品「The GMI CLAW MARKETPLACE」。

值得一提的是,GMI Cloud启动了全球AI探路者计划,面向全球AI领域KOL、企业伙伴、社区伙伴共建出海内容生态,实现平台与创作者双向赋能;下半年,GMI Cloud全球AI Startup 加速计划也将陆续推出,入选团队将有机会获得价值万元美金的Token、对接全球顶级VC及多地路演机会。

以下是演讲实录:

一、GMI Cloud:英伟达的全球七家Reference Platform NVIDIA Cloud Partner之一

各位下午好,非常荣幸有机会与大家分享GMI Cloud在近两年AI快速发展历程中的一些经验。

打开网易新闻 查看精彩图片

从2023年大模型进入大众视野,到2026年它已逐步深入各行各业的生产环境之中。这四年的发展极为迅猛,从最初大家专注于各类算法的研究,到如今人手一个“小龙虾”,这种变化给我们带来了极为强烈的震撼。

我先简单介绍一下GMI Cloud。GMICloud是一家基于AI Native原生人工智能)的NeoCloud公司,我们在全球部署了大量的数据中心,这些数据中心全部采用最新的英伟达顶尖算力卡,包括B300、GB300等。同时,GMI Cloud也是英伟达全球七家Reference Platform NVIDIA Cloud Partner之一GMICloud协同英伟达全球多地构建AIFactory

打开网易新闻 查看精彩图片

除了拥有顶级算力的AI Factory,GMI Cloud还打造了面向AI应用的云原生算力管理调度平台——Cluster Engine。此外,因为现在越来越多的业务已经从底层的算力开始变成上层的Token,我们在去年底又推出了新的产品GMI Cloud Inference Engine(推理引擎),在全球市场,尤其是北美市场,集成全球最先进、最新的顶尖模型,提供MaaS(模型即服务)服务,满足AI应用企业直接API调用需求。

接下来我重点讲一下GMI Cloud的整体布局。GMI Cloud的总部在硅谷,所以我们在美国的算力布局是最密集的,其次是在欧洲,亚洲的日本、中国台湾,以及澳大利亚。在这些地区,我们陆续上线的集群基本上基于英伟达的H200B300、GB200、GB300。比如即将在曼谷和中国台湾上线的集群就是基于GB300,明年将在日本上线的集群则是基于Vera Rubin

二、行业四大趋势:推理主战场、Agent爆发、AI Coding与“一人公司”、智算中心重构

如今,行业普遍认识到,AI领域的发展节奏极快,几乎每隔半年或一年便会涌现出全新的热点。纵观整体AI市场,竞争焦点已发生根本性转移:从最初局限于算法本身的比拼、算法研究的较量,逐步演进为系统层面的综合能力竞争。

对于企业而言,若想在AI领域真正取得成功,单纯依靠构建一个出色的算法已远远不够。核心在于打造一整套完备的系统能力,唯有如此,方能在激烈的市场竞争中赢得主动权。

打开网易新闻 查看精彩图片

具体来看,这套系统能力包含四个层面:推理系统负责统一调度全球算力,在保证低延迟的同时最大限度优化吞吐与成本;Agent协同系统支撑高Token比、复杂任务规划及多工具、多API的调用,实现智能体的快速构建与高效协作;智算基础设施系统将分散的智算中心整合成高效的“算力工厂”,提升资源利用率;全球化交付与安全系统则用一套架构覆盖全球,确保数据合规、链路可控、运维统一,让企业无需为每个区域重做一套AI。唯有构建起这四个系统协同发力的完整能力,才能在这场竞争中真正实现“系统制胜”。

打开网易新闻 查看精彩图片

具体来说,趋势一:模型能力决定上限,推理效率决定商业价值。前几年,行业集群主要聚焦于训练任务,每个集群需配备大规模的GPU及存储资源。然而今年,一级市场上涌现的主要是各类推理服务,整个一级市场已转变为卖方市场。客户对推理集群的需求也从原先的千卡、两千卡规模,逐步下降至仅需32台(即256卡)即可满足。

这表明推理市场的竞争已日趋激烈,企业的关注重点正从单纯追求模型参数规模,转向落地效率、高性价比以及低延时推理服务,这一领域已成为行业角逐的主要战场。

打开网易新闻 查看精彩图片

趋势二:Token消耗呈现千倍级增长,推动推理系统革新2025年,AI Agent虽然已成为行业热点,但当时更多停留在概念讨论层面,尚未真正融入用户的工作与生活场景。因此,大多数人对Agent的感知并不强烈,它主要存在于AI初创公司的产品概念中。

然而,进入2026年,Agent已开始从实验室走向实际生产环境。尤其是Claude Code等产品的问世,其后端任务复杂度极高,导致Token调用量的增长速度远超我们去年的预期。

去年,业界对Token增速的预期约为十倍。进入2026年,包括国内大量头部企业,其对Token业务的规划已达到十倍乃至百倍的增幅。需求的急剧膨胀,给底层基础设施带来了巨大压力。

与此同时,整个算力市场已由买方市场彻底转向卖方市场,GPU资源供不应求。在此背景下,绝大多数海外客户已开始提前八至十个月锁定未来的定制化算力资源。2026年最为显著的特征将是AI的规模化商业落地,Token总量预计将飙升至千倍量级,这对整个推理架构构成了前所未有的挑战。

打开网易新闻 查看精彩图片

趋势三:AI Coding大幅降低开发门槛,催生OPC模式爆发AI Coding在去年已经比较热了,今年随着Claude推出Claude Opus 4.5、Opus 4.6、Opus 4.7,在性能和效率方面越来越高,也推动了“一人公司”的爆发。

大量AI生成的音乐、数字人、短剧、视频乃至虚拟音乐会开始涌现,在B站等平台上随处可见,这些内容已逐步融入大众日常生活,且呈现出极高的制作水准。随着2026年下半年新一代多模态大模型的陆续发布,内容生产门槛将进一步降低。

打开网易新闻 查看精彩图片

趋势四:智算中心从存储仓库转向算力工厂以往数据中心主要聚焦于“通算”,如今已全面转向“智算”。智算的目标也从充当通算的替代品,逐步转向追求极致的算力密度、能效比以及Token吞吐量,这些已成为衡量智算中心的核心指标。

Vera Rubin将于今年7月实现量产,预计明年全球范围内的Vera Rubin智算中心将陆续投入交付,其在Token吞吐能效比方面的表现将更为突出。

三、GMI Cloud的策略:AI工厂、万卡集群与Inference Engine

所以作为一家全球AI Native Cloud公司,GMI Cloud如何去承载这些行业未来发展的趋势?

打开网易新闻 查看精彩图片

第一,我们会在全球构建AI工厂。GMI Cloud有最快的、最优的GPU供应链,具备顶级的渠道,基于与英伟达的深度联动,能够确保最新、最顶级的卡最快速供给,同时我们的交付速度以及性能调优都有助于提供给用户一个非常强大的AI Factory。

第二,我们已在全球多地启动万卡集群的自建工作。包括位于中国台湾桃园的机房,以及计划于明年在日本和泰国建设的数据中心,均已陆续开始部署GB300这一级别的顶尖算力。

四、基于Inference Engine的优秀实践:ModCraft——用Agent为《我的世界》生成模组

除了上述提到的算力中心的布局,GMICloud还提供MaaS级Token服务。GMI Cloud Inference Engine(推理引擎)平台,旨在帮助用户快速获取最新模型及相应专属折扣,助力出海AI应用公司以较高性价比获得Token资源。

打开网易新闻 查看精彩图片

该平台具备广泛的模型聚合能力、原生托管支持以及生成优化功能。目前,已有众多用户基于Inference Engine平台开展业务,并打造出优秀的产品。

接下来,有请我们的优秀创作者代表,分享他如何借助Inference Engine平台进行产品创作。欢迎ModCraft团队:

大家好,我是刘澈,是ModCraft的负责人。与GMI Cloud合作以来,我们已取得多项产出。在介绍具体成果之前,先简要说明一下项目背景:我们致力于为《我的世界》游戏开发一款用于自动生成模组的Agent。

打开网易新闻 查看精彩图片

部分观众可能对《我的世界》较为陌生。作为全球最知名的沙盒游戏之一,《我的世界》月活跃用户高达2.04亿。所谓模组(MOD),是指玩家将自创内容添加至游戏中的载体。例如,若要添加家具类物品(即玩家可放置、使用或交互的装饰性元素),或创作一个魔法主题、战斗主题的模组,开发者需先编写相应代码,随后安装至游戏,方可呈现预期内容。

根据统计数据,MOD玩家达到4400万左右,而真正开发MOD的开发者却只有10万左右。为什么会有这样巨大差距?主要还是因为创意和开发实践之间存在鸿沟。

开发《我的世界》模组并非易事。开发者需要掌握Java编程语言与Gradle构建工具,深入研读游戏提供的API文档,甚至可能需要直接阅读游戏源代码,因为游戏版本迭代频繁,API可能随之变动。此外,还需具备3D建模、音频工程等多方面的技能。因此,在Reddit、Discord等社区中,经常可以看到大量玩家愿意付费委托开发者为其定制所需的模组。

因此,我们做了这样一个平台,希望用Agent来为《我的世界》生成相关的模组。这样,用户就可以使用自然语言生成自己想要的东西。

以下是我们已部署在ModCraft平台上的一个演示案例。用户可创建一个新的工作空间,例如设计一个名为“海蓝宝石戒指”的物品。界面中央为Canvas模块,右侧为与AI对话的区域。以用户输入“我需要海蓝宝石及其配套工具”为例,AI将解析其需求,判断除了海蓝宝石本身之外,可能还需要剑和镐子等辅助资源,随后在界面中央生成相应的结果。在此过程中,用户可对大量nodes(节点)或DSL(Domain Specific Language,领域特定语言)进行细致的调整与修改。

打开网易新闻 查看精彩图片

我们通过不同的node将游戏中的各类元素进行连接,例如recipe(合成配方),并支持对其进行进一步的微调。此外,平台还支持为游戏内的物品生成相应的texture(纹理贴图),用户可选取某一纹理后进一步编辑,如添加黑色边框、将颜色调整为红色等。

如此一来,用户无需自行学习像素风格绘画,即可创作出符合自身需求的游戏内容。在所有纹理贴图生成完毕后,只需点击相应按钮,即可生成一个可在游戏中实际运行的模组。

以上为前端呈现的效果。那么,底层的Agent架构是如何设计的呢?当前行业内存在一个竞品,其架构相对简单:用户直接向大语言模型发送prompt(提示词),模型直接返回代码并以此生成相关内容。

但是我们希望可以让用户看到中间态的东西,比如刚才看到的那些nodes,并可以进一步对它进行微调,真正让MOD的创作由用户来决定。

为此,我们设计了一套全新的架构:用户输入的prompt经由大语言模型处理后,首先转化为一份被称为spec(规范文档)或DSL的中间表示。我们专门为《我的世界》模组生成编写了一套DSL,其底层直接采用YAML语言实现。

打开网易新闻 查看精彩图片

该DSL支持约63种不同类型的node(节点),涵盖此前展示的items(物品)、blocks(方块)、recipe block(配方块)等,同时还支持自定义维度及生物群系的实现。

根据这样的架构,代码生成都是基于中间那个DSL想要的模块去生成的,所以问题会非常少。其次因为中间态的展示,让用户可以看到很多东西,可以真正意义上理解自己在生成什么,而且是extendable(可扩展)和rollback supported(支持回滚)的。

我们的整个架构就像git commit(代码版本控制系统中的提交操作)一样,每次对话都会向中间表示中提交一部分内容并完成相应修改,用户可以随时rollback到之前的任一版本。

此外,spec作为唯一真实来源,避免了多轮对话中意图丢失的问题。相比之下,竞品在大语言模型多轮交互后,往往会出现注意力分散、意图模糊等情况。而我们始终将中间层的DSL作为唯一真实来源,大语言模型可随时参考该中间表示,清晰知晓已生成的内容、待完成的部分以及各元素之间的关联关系。

此外,该架构采用数据库变更式的迭代方式,即小步迭代,用户可在测试当前生成内容正常运行后,再执行下一步操作。而竞品在生成过程中一旦出现问题,通常需要从头开始重新生成,无法回退至某一中间状态继续迭代。

讲完我们的技术架构之后,再讲一讲我们和GMI Cloud的合作。

打开网易新闻 查看精彩图片

我们借助GMI Cloud的Inference Engine调用了多种模型。由于业务面向北美市场,我们需要将服务器部署于北美,并保持前述的调用速度。

我们利用GMI Cloud Inference Engine调用不同模型以实现不同功能。例如,DSL生成采用Kimi或Arc,Java文件生成则使用Codex,因其代码生成能力较强。自然语言生成方面选用Gemini,目前使用的是Gemini Flash 2.0 Pro版本,主要因其成本较低。未来我们也会在该平台上调用其他模型,如需升级,例如更换为Banana或其他模型,均可实现。

此外,我们的代码生成同样基于Codex模型。此处展示的是我们后端系统的部分实现。目前,我们均可直接通过GMI Cloud调用多种不同模型,且多数接口具备良好的兼容性。非常感谢大家,接下来把时间交还给剑彪。

五、新品发布:GMI Claw Marketplace

基于刚刚讲的一些产品应用场景,我们不久之后,即将推出一个新的产品——TheGMI Claw Marketplace

打开网易新闻 查看精彩图片

基于Claw Marketplace,我们提供端到端的解决方案。在Marketplace上,我们为客户提供开发者工具包、Model Library、API Key的管理,以及大量的生态插件和存储服务。该平台同时面向企业级客户与AI开发者两大场景:

  • 面向企业商业用户,我们将与用户共同探索解决方案,提供一键部署服务与自动化工作流,形成完整的打包方案,携手服务终端市场。
  • 面向AI开发者创作者,我们主要提供企业级托管服务,并针对API接口进行智能调度。在商业化变现与规模化扩展方面,我们将与开发者共同推进更深度的市场合作。

打开网易新闻 查看精彩图片

六、GMI Cloud开放全球生态合作:全球AI探路者计划+AI Starup加速计划

GMI Cloud今年年初推出了一个全球生态计划。我们号召全球AI行业内的大牛和AI应用厂商伙伴、社区伙伴一起加入计划,共同关注AI出海、AI产业发展。

GMI Cloud在全球设有多个办公室,包括新加坡、日本、台湾、美国、香港等地,并将定期举办大量路演活动。

我们希望联合优质内容创作者,通过真实的产品体验与内容输出,打造AI出海的权威发声矩阵,实现平台与创作者之间的双向赋能。目前已有众多品牌合作伙伴加入,我们也诚挚邀请更多社区伙伴、AI应用厂商及基础模型厂商共同参与。

除了刚提到的“全球AI探路者计划”外,GMI Cloud下半年还将在全球多个城市同时面向AI初创企业开启“GMICloud全球AIStarup加速计划。加入此计划的团队,将获得价值一万美金的Token支持,并一站式触达多家全球顶级VC,获得GMI Cloud及其计划其他合作伙伴提供的网络、数据库、算力等创业大礼包,届时大家可以以团队、企业组织的名义,参与计划进阶训练营,在全球多地进行路演。

打开网易新闻 查看精彩图片

以上,感谢大家的聆听,GMI Cloud将持续关注中国AI企业出海与算力基础设施产业发展,请大家持续关注我们。