云栖大会，阿里云重磅技术发布速览！

AI全球总部

2025-09-24 16:03 ·北京

刚刚，阿里云在云栖大会上进行了一系列重磅技术发布，不说废话，我带大家快速过一下↓

AI基础设施的三大升级

AI基础设施的三大升级

①算力底座：磐久128超节点。

采用开放架构，兼容多种AI芯片，不再被单一GPU架构绑定，并提供更高性价比。

【磐久超节点真机】

②网络升级：HPN8.0

带宽拉到800G，可支撑数十万张GPU卡组成的大集群，适配训推一体化场景。

【HPN 8.0 可预期网络】

③存储突破：CPFS+OSS

CPFS单客户端吞吐性能提升到40GB/s，直击大模型训练刚需；对象存储OSS的Vector Bucket 让向量存储成本下降95%。

「算力疲软、网络瓶颈、存储成本」，大模型时代，算存网的三大难题，阿里云一步到位，全部帮你搞定。

【AI Stack国产大模型一体机】

灵骏智算集群

灵骏智算集群

前面是算存网的独立升级，而灵骏则是组团干大活儿↓

支持10万卡规模的稳定互联，在万亿参数MoE模型的训练中，有效训练时长占比超过 99%。

阿里云用一系列手段来提升容错率和训练效率：比如通过容器服务优化将GPU故障发现与自愈效率提升 85%，模型冷启动时延降低 90%。

所以，个个能打的算存网+组团能力，最终阿里云打造出了一台“AI Cloud Computer”。

PAI × 通义：1+1>2

PAI × 通义：1+1>2

主论坛环节，阿里放出了最强模型Qwen3-Max，性能超过GPT5、Claude Opus4，跻身全球前三。

并展示了最新的通义模型家谱↓

接下来，阿里云PAI平台登场，与Qwen组起了CP。

阿里云PAI平台与通义大模型的联合优化，展现了全栈协同的放大效应↓

训练层：MoE调度机制让通义千问训练加速比提升 3倍；长序列分块优化，使通义万相单样本训练耗时降低 28.1%。

推理层：推理吞吐TPS提升71%，推理时延TPOT下降70.6%，扩容时长缩短79.6%。

这波秀肌肉的背后是底层算力、调度系统和上层大模型训推三位一体，提升效果拉满。

阿里巴巴CEO吴泳铭说
“阿里云正在全力打造一台全新的AI超级计算机，它同时拥有最领先的AI基础设施和最领先的模型，两者可以在产品设计和运行架构上高度协同，从而确保在阿里云上调用和训练通义千问模型时，能达到最高效率。”

从目前云栖大会这些硬核发布看，阿里云干得不错，至少这台AI超级计算机的雏形，像模像样了。

附录：AI云能力比较1

附录：AI云能力比较1

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴