打开网易新闻 查看精彩图片

刚刚,阿里云在云栖大会上进行了一系列重磅技术发布,不说废话,我带大家快速过一下↓

AI基础设施的三大升级

AI基础设施的三大升级

①算力底座:磐久128超节点。

采用开放架构,兼容多种AI芯片,不再被单一GPU架构绑定,并提供更高性价比。

打开网易新闻 查看精彩图片

【磐久超节点真机】

②网络升级:HPN8.0

带宽拉到800G,可支撑数十万张GPU卡组成的大集群,适配训推一体化场景。

打开网易新闻 查看精彩图片

【HPN 8.0 可预期网络】

③存储突破:CPFS+OSS

CPFS单客户端吞吐性能提升到40GB/s,直击大模型训练刚需;对象存储OSS的Vector Bucket 让向量存储成本下降95%。

算力疲软、网络瓶颈、存储成本」,大模型时代,算存网的三大难题,阿里云一步到位,全部帮你搞定。

打开网易新闻 查看精彩图片

【AI Stack国产大模型一体机】

灵骏智算集群

灵骏智算集群

前面是算存网的独立升级,而灵骏则是组团干大活儿↓

支持10万卡规模的稳定互联,在万亿参数MoE模型的训练中,有效训练时长占比超过 99%。

阿里云用一系列手段来提升容错率和训练效率:比如通过容器服务优化将GPU故障发现与自愈效率提升 85%,模型冷启动时延降低 90%。

所以,个个能打的算存网+组团能力,最终阿里云打造出了一台“AI Cloud Computer”。

打开网易新闻 查看精彩图片

PAI × 通义:1+1>2

PAI × 通义:1+1>2

主论坛环节,阿里放出了最强模型Qwen3-Max,性能超过GPT5、Claude Opus4,跻身全球前三。

并展示了最新的通义模型家谱↓

打开网易新闻 查看精彩图片

接下来,阿里云PAI平台登场,与Qwen组起了CP。

阿里云PAI平台与通义大模型的联合优化,展现了全栈协同的放大效应↓

训练层:MoE调度机制让通义千问训练加速比提升 3倍;长序列分块优化,使通义万相单样本训练耗时降低 28.1%。

推理层:推理吞吐TPS提升71%,推理时延TPOT下降70.6%,扩容时长缩短79.6%。

这波秀肌肉的背后是底层算力、调度系统和上层大模型训推三位一体,提升效果拉满。

打开网易新闻 查看精彩图片

阿里巴巴CEO吴泳铭说
  • “阿里云正在全力打造一台全新的AI超级计算机,它同时拥有最领先的AI基础设施和最领先的模型,两者可以在产品设计和运行架构上高度协同,从而确保在阿里云上调用和训练通义千问模型时,能达到最高效率。”

从目前云栖大会这些硬核发布看,阿里云干得不错,至少这台AI超级计算机的雏形,像模像样了。

附录:AI云能力比较1

附录:AI云能力比较1

打开网易新闻 查看精彩图片