这四位开发者的讲述,
是观察中国算力生态成熟度的一组真实样本。
DeepSeek之后,中国AI产业最深刻的一个变化,可能是大家终于不再相信“暴力堆算力”了。
当DeepSeek用一系列极致的低精度优化、长上下文压缩、算子工程把模型成本压到行业平均的十分之一以下,它实际上证明了一件事:AI下半场的胜负手,在算力底座的整体效率,而不在某一颗芯片的峰值参数。
“系统工程”并非孤军突围的无奈之举,它几乎是全球性的效率共识——海外的Anthropic、xAI、Mistral也都在沿着类似的方向重写自己的工程栈。
但对中国产业而言,这个范式转移的意义更复杂一些。它一方面意味着中国厂商不必再在制程和算力密度上跟英伟达打一场没胜算的硬仗,另一方面也意味着,如果软件生态跟不上,再多的卡也只是堆在机房里的“沉默资产”。
这也是为什么近两年中国算力的竞争焦点,迅速从芯片切换到了生态。
5月23日,鲲鹏昇腾开发者大会2026的明星开发者团队圆桌上,主持人、中科院计算所学者、老石谈芯主理人石侃谈道:“硬件是基石,生态是灵魂。再强的芯片,如果没有好用的软件生态,只是一种冷冰冰的硬件。”
主持人、中科院计算所学者、老石谈芯主理人石侃
这正是当下中国AI计算产业生态最需要回答的问题——生态够不够好用?开发者愿不愿意来?用了能不能留下?
在KADC现场,四位来自AI大模型、金融、高性能计算领域的开发者,用他们的实战经验回应了这个问题。他们的身份各异——有大模型创业公司的联合创始人,有银行核心团队的技术专家,也有高校的研究者——但他们都把昇腾和鲲鹏当作真实生产环境的基础设施长期使用。
这四位开发者的讲述,是观察中国算力生态成熟度的一组真实样本。
AIGCode陈秋武:65%的
MoE MFU,技术极客如何吃透昇腾
2024年初,AIGCode刚成立,市场上买不到英伟达卡,作为创业小公司,团队只能从昇腾开始。用了一段时间之后他发现“其实还好”——这种从被动接受到逐步认可的过渡,几乎是国产芯片在那一波AI创业公司里普遍的破冰路径。
AIGCode做的是Vibe Coding类应用——用一句自然语言提示词就能生成前端、后端、数据库的完整系统,15分钟内交付一整套应用。
但和大多数Vibe Coding公司不同,AIGCode坚持自研基础大模型。这是因为,在陈秋武看来,应用端的能力上限来自基础模型,“AGI能力的瓶颈并不是后训练或Agent,而是来源于基础模型”。
在和昇腾的合作中,AIGCode团队把MoE MFU(模型算力利用率)做到了“65%”。
MFU(Model FLOPs Utilization)反映的是集群在实际训练中跑出了多少标称算力,是衡量大模型训练效率的核心指标。而MoE(Mixure of Experts)混合专家则是当前大模型的主流模型架构。
这一指标和集群规模、任务规模强相关——单机或密集场景下通信开销很低,MFU做到很高并不难;如Google密集大模型的PaLM540B TPU集群上达到46.2%;但当主流混合专家大模型时,对应的激活专家约二十分之一,冷热不均,专家并行效率低下,任务被切分到成百上千张卡上协同运行时,通信、同步、调度的开销会大幅累积,MFU的提升越发困难。
MoE MFU越高,也意味着算力资产被利用得越充分,训练效率越高,模型出结果的速度也就越快。
能在集群规模下把MFU推到这一水平,意味着AIGCode可以调用昇腾非常底层的调优能力。用陈秋武的话来说,相当于“一张昇腾卡当两张卡用”。(需要说明的是,65%是特定客户在特定算法、模型、集群规模等条件下达成的成果。)
而把MFU推到极致,靠的是一整套体系化能力。
第一层是通信与计算的协同调度,核心是把芯片的等待时间压到最小。第二层更硬核,把attention里占大头的MHA与细碎小块GDN做并行掩盖,再把in_proj、激活函数等小算子做融合, 与DeepSeek V4提到的Mega Kernel思路类似,最后结合QKV重组零拷贝。“大的块扔到瓶子里,小的块再填满”——这是一个典型的需要算法团队和基建团队同时具备能力的工作。
陈秋武还认为,单卡差距可以靠超节点集群体系化优势补齐。
放在更大的产业语境里,这句话其实指向了国产算力的一条隐性突围路径——既然单卡制程暂时追不上,那就用系统级架构(超节点+高速互联+协同调度)在另一个维度上构建优势。
陈秋武如此谈到昇腾CANN生态变化,“2024年初我们去做训练的时候,基本上算是‘荒漠’,很多东西都没有。大概到了去年,整个CANN的生态覆盖率到了80%-90%。8个月就把生态完成到这个程度,我觉得是非常惊讶的。”
陈秋武参加华为的技术闭门会就参加了六七次。从写第一版预训练代码开始,到联合开发PTO和CANN的预训练部分。这种深度共建的关系,某种程度上也定义了AIGCode这类技术型团队与国产算力生态的相处方式——既是用户,也是合作者。
某头部股份制银行郑俊:
把AI放进金融核心生产系统
如果说AIGCode代表的是技术极客对极致性能的追求,那么金融行业代表的是另一个维度的验证——产业核心生产场景。
某头部股份制银行架构办大模型训推核心专家郑俊在圆桌上谈到的,是一个比“AI写文案”重得多的应用场景。
该行AI团队负责基于昇腾软硬件生态,构建大模型训练与推理基础设施,并把这套能力推进到了智能风控的核心链路里——用大模型与小模型的混合架构,叠加增强人脸识别技术,实时拦截境外诈骗等高风险交易。
可以说,AI已经直接介入这家银行的资金流转和风险决策,成为业务运转的关键一环。
这种场景对算力底座的要求,和互联网应用完全不在一个量级上。对于金融级生产环境来说,AI从辅助场景进入核心生产流程要满足四大刚性要求:
第一条是极致低延迟。该行的服务级别目标(SLO)把首Token响应锁定在500毫秒左右,后续Token延迟控制在50毫秒左右。
这种延迟约束放在金融场景里是底线——一次跨境交易的风险判断、一次反欺诈拦截,必须在用户感知不到的时间窗里完成。为了把延迟压缩到业务可接受的范围,该行和昇腾团队联合做了底层调度和算子层面的优化。
第二条是超高通量并发。该行的大模型平台日均处理260亿Token,背后需要数千张算力卡同时跑起来。昇腾的单卡性能和集群通信效率提供了基础能力,但要把这套系统真正跑稳,还需要在系统调优和架构设计上做大量工程投入。
第三条是银行级可用性。99.999%的系统可用性意味着全年故障不超过1分钟,这是金融核心系统的硬约束。这一指标不是单靠硬件就能给出保证的——它是该行和昇腾在硬件稳定性、软件架构上共同打磨出来的结果。
第四条是高利用率下的故障隔离。降本增效的压力要求把硬件利用率持续拉高,但金融场景的另一面是不能因为单点故障导致业务断流。该行和昇腾一起做了隔离机制设计,让高利用率和高安全能够同时成立。
要把这四条指标同时压下来,靠的是一整套软硬协同的工程能力。
郑俊还谈道,“和昇腾一起搞开源之后,开源的代码我们随时可以去看它,小的问题随时就可以修。”而任何模型商用前都要经过48小时以上的长压测试。
值得一提的是,该行在适配过程中对昇腾社区已经实现了反向输出。
该行秉持“源于开源、回馈开源”原则,在昇腾生态适配与算子开发中沉淀的大量优化成果,主动贡献给了社区——截至目前,已经累计向vLLM-Ascend贡献了34个特性,让其他昇腾客户直接受益、无需重复踩坑。
一家股份制银行的AI团队主动做开源贡献,在过去几乎是很少见的。回馈社区也代表着该行选择昇腾已经超出了合规层面的考虑,更像是把它当作了长期基础设施去投入,郑俊表示,“昇腾让我们看到国内的算力平台同样优秀,可以成为业务首选。”
清华大学王一鸣:
让科研者把时间花在科研本身
清华大学HPCA团队助理研究员王一鸣团队和其他高校、科研院所的联合研究工作,让鲲鹏走进了一个更经典的高性能计算场景——地球系统建模。
通过把AI与传统数值模拟结合起来,团队尝试在全球天气与气候模拟中引入AI增强的物理参数化、混合精度计算和大规模并行优化,实现公里级分辨率的全球气象建模——这是一个高性能计算与AI融合的工程。
传统大气模拟里有个长期需要攻克的问题——计算过程中有一部分靠严格的物理公式推导,另一部分则要靠经验公式“估算”,而这部分估算正是模拟结果不确定性的主要来源。
王一鸣团队用AI模型替换了传统的经验估算方案,叠加可扩展性优化和混合精度优化等手段来提升效率,把全球大气模拟的分辨率推进到了公里级,实现了“计算一天就能完成一年以上模式时间的天气-气候演化”的性能突破。在海洋这种动力学相对稳定的场景里,一天甚至可以模拟3年的演变。
这套由清华大学团队联合其他高校和科研院所做的全球地球系统模式软件系统,已成功投稿到2026年戈登贝尔气候建模特奖。
事实上,地球系统建模对算力底座的要求,有两个看似朴实却极其关键的指标——稳和准。
稳的难度,在于大气模拟是连续积分场景。一个完整的模拟结果需要数天甚至数百年等更长时间的连续计算,中间一旦断掉,断点恢复的成本极高,往往意味着前面一段时间的算力白跑。
这种场景对硬件平台的稳定性要求是底层级的——任何一次崩溃,都可能让一个科研项目损失数天的时间。团队迁移到鲲鹏平台之后,集群在大规模长时间作业中的稳定性显著改善,断点续跑机制也更友好。
准的难度,在于科学计算对精度误差的零容忍。一个气象模拟结果背后是数亿轮计算过程,每一步的微小误差累积数亿次后,最终结果可能严重失真。这要求底层平台从编译器到数学库到并行库,每一个环节都得在精度上经得起推敲。
鲲鹏在这一层提供了面向主流科学计算语言和气象软件生态的工具链支持,包括编译器、数学库、并行库和调优工具,让清华大学团队能在一个体系完整、响应高效的平台上快速调试参数、验证模型,减少底层适配对科研节奏的干扰,从而更快地逼近“准”的目标。
但鲲鹏带给清华团队的,不止是稳和准本身。
王一鸣在圆桌上提到一个细节——团队和鲲鹏的合作,已经把硬件特性和工程优化纳入了科学问题设计的早期阶段。过去高性能计算的典型流程是先把科学问题解决了,再回过头来做性能优化,科学和工程是前后接力的两段。
而现在,团队从代码设计阶段就把鲲鹏的NUMA架构、并行方式纳入考量,让科学研发和工程优化从前后接力变成了并行推进。这是一个容易被忽略但意义不小的变化。它意味着开发者对底层平台的信任度,已经高到足以让它进入科学问题设计的早期决策。
这背后必须靠真实的开发体验去积累。在王一鸣看来,鲲鹏对气象软件库的支持很好,基本上把气象模型放到鲲鹏里面,只需要load几个库,基本上就可以跑起来;架构适配性也强,气象软件不需要太改代码就可以跑一个初版。遇到问题,鲲鹏社区还有大量已经沉淀好的解决方案。
一个长期被国产算力生态忽略的维度是,开发体验是否友好。性能数据是少数极客追求的事,开发顺畅度才是大多数科研工作者每天面对的真实问题。王一鸣自己用一句话总结了团队的感受:“鲲鹏让科研者的精力回到科研本身,不用在硬件适配上反复踩坑。”
正是这种对底层工作的解放,让科研人员能够把精力聚焦在算法突破和科学问题的本质上,回到科研创新本来该有的样子。
更宏观来看,气候变化、极端天气、粮食安全、水资源管理,这些都依赖于精准的气象建模能力。一个公里级精度、性能足够支撑长时序推演的地球系统模拟器,是中国应对气候挑战、保障国计民生的科学基础设施之一。
当中国算力底座开始能稳定承接气候建模、生命科学、物质科学等这类基础科研,意味着它的能力边界正在从“产业应用”扩展到“科学发现的基础工具”。在AI4S这个关键方向上,鲲鹏也已经能打通从硬件到工具链再到科研产出的完整链路。
中科大陈俊仕:
硬件决定上限,算法向硬件适配
中科大陈俊仕团队做的工作,在四位开发者里最“底层”,但也最具有方法论价值——面向鲲鹏平台研发了新型LU求解器。
LU分解是科学工程计算中的基础算子,广泛用于结构力学、电路模拟等场景。它看似远离大模型,但本质上同样在回应一个问题:当硬件架构变化之后,算法应该如何重写。
传统LU求解器的难点在于稀疏不规则计算。矩阵中的非零元素分布分散,访存不连续,计算密度不足,很难充分调用现代处理器里的矩阵计算单元和高带宽内存。而陈俊仕团队的解法是,通过算法与体系结构协同设计,把不规则计算转化为规则稠密计算,把访存密集型任务转化为计算密集型任务。
在鲲鹏平台的张量运算部件和高速片上内存加持下,新算法相比传统方法实现了约40倍的性能提升,部分测试场景中接近200倍。
但比性能数字更有意思的,是陈俊仕对鲲鹏架构本身的判断。他说当初被吸引,是因为鲲鹏“另辟蹊径”——和过去十几年统治高性能计算TOP5榜单的异构架构不同,独特的鲲鹏架构走出了一条更简洁的路径。
一个容易被产业忽略的事实是,异构架构(CPU+GPU)虽然带来了算力红利,但也带来了沉重的工程负担。
GPU的计算性能远胜CPU,但代价是程序员必须把代码“撕成两半”:CPU部分跑控制流,GPU部分跑计算密集型kernel。大量历史遗留的Fortran、C/C++、OpenMP代码,很难无缝迁移到异构体系上。
这就是很多高性能计算团队长期面对的“工程税”。算力很强,但开发者要先付出重构代码、处理内存搬运、适配多套编程模型的代价。
当主流计算架构纷纷转向异构设计时,鲲鹏用一套统一的架构解决了过去必须用异构计算才能处理的问题。科研工作者不需要再学习多种计算范式和编程接口,大量原本只能跑在CPU上的科学计算代码,可以更自然地迁移上来。
陈俊仕在圆桌中说,原来没有GPU代码,也可以直接在上面跑起来。对长期做高性能计算的研究者来说,这意味着大量原本只能跑在CPU上的Fortran代码可以直接用OpenMP并行起来,迁移成本极低。据陈俊仕透露,将求解器项目迁移到鲲鹏平台,不到一周就能完成。
“硬件决定性能上限,算法必须向硬件适配”,陈俊仕的这句话听起来像是在描述鲲鹏,本质上讲的是一个更普遍的产业逻辑:AI时代的算力竞争下,软硬协同才是真正的护城河。
过去,芯片性能提升可以较多依赖制程和通用架构演进。但AI驱动算力需求爆发的今天,单纯堆硬件越来越难。真正的性能突破,来自硬件特性、算法结构、编译优化和应用场景之间的耦合。
鲲鹏架构提供了矩阵计算单元和高带宽内存能力,中科大团队则通过算法改造把这些能力释放出来。可以说,当摩尔定律在异构路径上越走越复杂,鲲鹏让高性能计算编程回到了更简洁的范式之上。
中国算力生态究竟走到了哪一步?
当下的昇腾鲲鹏生态或许并不适合用“完美”二字概括。
更准确来说,它已经走过了最艰难的冷启动阶段,进入了一个需要被真实使用、持续打磨、快速补课的青年期。这个阶段的它,不再只靠宏大叙事驱动。
过去谈国产算力,话语常常落在安全、替代和自主创新上。但到了今天,开发者真正关心的是模型能不能训起来,框架能不能跑通,算子能不能适配,迁移成本高不高,出了问题能不能找到人解决。
把四位开发者的实践拼在一起,可以看到昇腾鲲鹏生态正在发生的一个产业级变化:它正在从“能用”迈向“好用易用”。
当一个生态被广泛使用、被业界认可,它便成为了一种潮流。而昇腾鲲鹏掀起的这股潮流,已经在过去一年有了量化的支撑。截至目前,鲲鹏开发者超过415万,合作伙伴超过7000家,解决方案认证超过27000个;昇腾开发者超过410万,合作伙伴超过3000家。
更能说明问题的是CANN生态在开源之后的爆发节奏。2025年12月30日全面开源以来,短短5个月时间,社区开源项目从0增长到65个(平均每3天一个新项目),开源代码从827万行增长到1244万行(每天新增3万行),社区代码下载量跨过千万级别,月活跃开发者超过3000人。
当然,与海外生态相比,客观差距依旧存在。但过去一年里,中国算力生态从“能用”到“好用易用”的跃迁速度,已经比很多人意识到的更快。在最主流的两大开源推理框架上,昇腾已成为vLLM Project中唯一的自主创新硬件厂商,以及SGLang主仓中唯一的自主创新非GPU硬件厂商。
婴儿期是几乎一片空白,青年期是该有的基本都有了,只是还在继续成长。
中国AI计算产业的故事走到这一年,硬件不再是瓶颈,生态还在加速追赶,开发者开始真正用起来。而生态的成熟,从来都不是一家公司的功劳,它是华为、开发者、产业链上每一个共建者共同写出的答案。