从模型开源到全面跑通,只用了不到48小时。摩尔线程再次刷新国产GPU适配速度,而这次的主角,是阿里刚刚发布的千亿级“核弹”——Qwen3.5。
2月17日,国产GPU厂商摩尔线程宣布,已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里巴巴最新大模型Qwen3.5的全面适配。这距离阿里2月16日正式开源Qwen3.5,仅隔不到两天。
这不是摩尔线程第一次跑出这样的速度。2月14日,他们刚完成对MiniMax M2.5的Day-0极速适配;2月11日,智谱GLM-5发布当天,同样第一时间上线。“发布即适配”正在成为国产算力的新常态。
技术突破:3970亿参数的“瘦身”奇迹
Qwen3.5绝非等闲之辈。据阿里千问介绍,该模型采用创新的混合架构,将线性注意力与稀疏混合专家(MoE)技术相结合,总参数量达3970亿,但每次前向传播仅激活170亿参数。
这意味着什么?性能超过此前万亿参数规模的Qwen3-Max模型,部署显存占用却降低60%,最大推理吞吐量可提升至19倍。在定价方面,Qwen3.5-Plus的API价格仅为每百万Token 0.8元,性能更强,成本更低。
MTT S5000是摩尔线程2024年推出的AI训推一体GPU,基于第四代MUSA架构“平湖”打造,单卡AI算力最高可达1000 TFLOPS,配备80GB显存。在适配Qwen3.5过程中,摩尔线程验证了MUSA生态的两大核心能力:原生MUSA C支持让开发者可直接进行内核开发,大幅降低CUDA生态迁移门槛;深度兼容Triton-MUSA则让开发者可使用熟悉的Triton语法编写高性能算子。
春节“不打烊”:国产GPU的集体默契
Qwen3.5的开源,恰逢国产大模型的密集发布窗口。
春节前后,字节跳动发布豆包大模型2.0系列及Seedance 2.0视频模型,智谱上线GLM-5,MiniMax开源M2.5,阶跃星辰发布Step 3.5 Flash。在这场“大模型春晚”中,国产GPU企业进入了随时待命的战斗状态。
“我们的任何人都随时准备着,处在只要有事就能够立刻响应的状态。”摩尔线程首席技术官张钰勃此前对媒体表示。为了抢夺适配时间,有的芯片企业甚至采取人肉递送模式——派人带着硬盘直接去模型公司拷贝,而不是等对方上线后再下载。
这种默契并非偶然。在大模型快速迭代的背景下,国产GPU与大模型之间的适配效率,正成为算力生态建设的关键一环。华为昇腾在Qwen3.5开源当晚就宣布0 Day适配,海光DCU也同步完成深度调优。国产芯片正在从“单点突破”走向“集体协同”。
生态暗战:从“能用”到“好用”
对开发者而言,适配意味着什么?正常情况,很多模型不做专门适配也可能运转,但如果开箱性能只有50%,要调到80%-90%需要时间。
“对于GPU这种通用架构,一个人几个小时能干完的工作量,NPU可能需要几十个人几天。”张钰勃解释。摩尔线程基于SGLang-MUSA推理引擎进行调优,在MTT S5000上实现了Qwen3.5的高性能推理。
据摩尔线程介绍,在Qwen3.5的适配过程中,团队依托MUSA软件栈强大的生态兼容性,成功打通了模型推理全链路,并深度释放MTT S5000的原生FP8加速能力。这意味着,开发者可以像在主流平台上一样,高效完成模型的部署与优化。
从智谱GLM-5到MiniMax M2.5,再到阿里的Qwen3.5,摩尔线程已多次实现国产顶尖大模型在发布当日的即时适配。这种常态化的“Day-0”级响应,不仅源于MUSA架构对主流AI生态的无缝兼容,更标志着国产算力底座已具备“从适配到部署”的全链路支撑能力。
浪潮起点:国产算力进入“加速度”
2025年是国产大模型的爆发之年,DeepSeek、千问等开源模型的惊艳表现,让中国AI在全球舞台上占据一席之地。而2026年,将是国产算力与国产模型协同进化的关键之年。
沐曦股份联合创始人杨建感叹:“国产大模型和国产算力的配合已经渐入佳境了。”国产模型和国产芯片的Day-0适配,正在成为一个常规状态。
从深度学习框架的支持,到推理引擎的优化,再到开发者工具链的完善,国产GPU生态正在经历一场“由点到面”的系统性升级。摩尔线程近期还推出了业内首个基于国产全功能GPU算力底座的AI Coding Plan智能编程服务,依托MTT S5000的全精度计算能力,联合硅基流动完成高效算子融合与框架优化。
对于开发者而言,这意味着什么?当千问这样的顶尖模型,能在国产GPU上实现“开箱即用”时,国产替代就不再是一个口号,而是一个可选项、一个优选项。
正如天数智芯副总裁石加圣所言:“一定程度上,我觉得国内这些厂商现在还是站在巨人肩膀上,但是我们总有一天要从跟随到并肩跑。”
从48小时的极速适配,到软硬件的深度协同,中国AI的星辰大海,正在被国产算力一点点点亮。而这一次,点亮它的火种,来自我们自己的土地。
热门跟贴