极目新闻记者 周丹

9月20日,在杭召开的2024云栖大会进入第二天,阿里云全面展示了全新升级后的AI Infra系列产品及能力;还发布了全新的弹性计算产品家族;小鹏汽车宣布其车联网、官网、商城、大数据等核心业务已迁移至阿里云倚天实例,节省了超过20%的算力成本。多个行业重磅消息接连发布,引发业内关注。

模型算力利用率提升超20%

阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。

“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,通过整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。

基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持Solar RDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障AI算力的性能和稳定性。

在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。

为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。

通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞吐20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。

面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS即将推出GPU容器算力。

阿里云弹性计算发布全新产品家族

当前,以GPU为代表的加速计算需求快速增长,容器也成为新的技术标准与用云范式。为此,云基础设施处理器CIPU也全新升级到2.0版本。通过软硬一体协同优化,CIPU2.0实现了400Gbps的高吞吐硬件数据加速架构,将整机稳定性提升20%。同时,CIPU2.0还大幅提升了安全性,创新实现数据全生命周期安全。

现场,阿里云还发布了全新的弹性计算产品家族。基于全面升级的云基础设施处理器CIPU2.0,通用计算、加速计算、容器计算等三大弹性计算产品系列均实现性能大幅提升。阿里云全新推出第九代ECS企业级实例,可实现高达30%的性能提升。

据了解,依托自研的“飞天+CIPU”架构体系,阿里云完成了通用计算、加速计算和容器计算的弹性计算产品家族的全新升级。

在通用计算方面,阿里云发布第九代ECS企业级实例。其中,g9i实例基于Intel最新的第六代至强处理器GNR,内存带宽提升70%,在web场景性能相比8代实例最大提升20%;g9a实例基于AMD最新Zen5处理器,搭配阿里云最新的CIPU架构,单核性能提升20%,搜索推广场景下分布式训练集群性能提升30%。

在加速计算方面,阿里云基于CIPU2.0打通高性能网络架构HPN7.0、升级的CPFS并行文件存储等AI Infra,并发布全新的磐久AI服务器。灵骏集群也进一步升级,可支持十万卡级别的AI算力规模。

在容器计算方面,阿里云容器计算服务ACS率先商业化,并将推出全新的GPU容器算力。新升级的ACS以0.5vCPU、1GiB步长递进,实现更柔性的秒级自动热变配;每分钟可弹至10000个pod,并推出按天承诺消费的节省计划,综合算力成本最高可降55%。

阿里云副总裁、弹性计算及存储产品线负责人吴结生
打开网易新闻 查看精彩图片
阿里云副总裁、弹性计算及存储产品线负责人吴结生

为了提供更易用、更智能的基础设施产品与服务,阿里云弹性计算还升级了控制台,推出了AI Copilot服务,并实现全链路可观测,提升运维效率、保障系统稳定。

小鹏汽车核心业务迁移至阿里云倚天实例

20日,小鹏汽车在云栖大会宣布,其车联网、官网、商城、大数据等核心业务已迁移至阿里云倚天实例,节省了超过20%的算力成本。

小鹏汽车是国产新能源车的领跑者之一,过去几年公司业务快速增长并走向全球。为应对业务快速增长的算力需求,小鹏汽车于2019年开始全面上云并采用容器化部署业务,为业务创新提供了技术保障。两年前,为进一步降低云上算力成本,小鹏汽车开始探索将核心业务的通用算力切换至阿里云倚天实例。

将业务从x86架构计算体系迁移至Arm架构计算体系是一项复杂的系统工程,为了实现平滑迁移,阿里云为倚天实例定制了迁移工具和性能调优工具等,为小鹏汽车业务在倚天实例上快速适配提供了基础保障。小鹏汽车副总经理谭蔚华表示:“尽管业务迁移需要涉及中间件重新编译等繁杂工作,但整个迁移过程实现了0故障平滑迁移。”目前,小鹏汽车车联网、官网、商城、大数据等业务已迁移至阿里云倚天实例,未来还将继续切换。

小鹏汽车副总经理谭蔚华
打开网易新闻 查看精彩图片
小鹏汽车副总经理谭蔚华

谭蔚华表示,和传统的x86架构芯片相比,采用ARMv9架构的倚天710芯片在处理能力与能源消耗之间实现了平衡,为云计算高效运行提供了有力支持,并在相同场景和算力的情况下,为小鹏节省了超过20%的成本。“随着规模的进一步提升,成本的优势会更加明显。”谭蔚华说。

据悉,倚天710是平头哥半导体发布的自研通用计算服务器芯片,已在阿里云数据中心大规模部署,是国内首个云上规模应用的自研CPU。倚天ECS实例在数据库、大数据、视频编解码等核心场景中的性价比提升30%以上,单位算力功耗降低60%以上,目前已有数千家企业迁移至倚天实例。

过去几年,小鹏汽车与阿里云在智算平台、大模型等领域展开了全面的合作。例如,在智驾大模型训练上,小鹏汽车早在2022年就携手阿里云在乌兰察布建成中国最大的自动驾驶智算中心,如今这一算力规模已提升超4倍。

(来源:极目新闻)