打开网易新闻 查看精彩图片

在2024云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭表示:生成式AI对数字世界和物理世界的重构,将带来计算架构的根本性变化。过去几十年,CPU主导的计算体系,正在加速向GPU主导的AI计算体系转移。未来几乎所有的软硬件都会具备推理能力,它们的计算内核将变成GPU AI算力为主、CPU传统计算为辅的计算模式。

吴泳铭进一步强调:“今天我们接触到的所有客户、所有开发者、所有CTO,几乎都在用AI重构自己的产品。大量新增需求正在由GPU算力驱动,大量存量应用也在用GPU重新改写。在汽车、生物医药、工业仿真、气象预测、教育、企业软件、移动APP、游戏等行业,AI计算正在加速渗透。在各行各业,看不见的新产业革命正在悄然演进。”

所有行业,都需要性能更强、规模更大、更适应AI需求的基础设施!吴泳铭得出了结论。那么,在此基础上,进一步推导云和IT的下一个大趋势,这就是AI原生。AI原生是这两年来逐渐兴起的一个概念,在大模型的强势催化下成为了一个逐渐固化的IT范式:从芯片、基础设施到操作系统、中间件、数据库一直到应用开发,AI原生正在颠覆云和IT的每一层。

在2024云栖大会上,我们看到云和IT的每一层都在被AI原生颠覆或即将被颠覆。从云原生到AI原生,一个新的IT范式正在快速形成。AI原生,是云和IT的下一个大趋势。我们来看一下,在2024云栖大会上,都有哪些AI原生相关的发布或观点。

吴泳铭说:我们看到,在新增算力市场上,超过50%的新需求由AI驱动产生,AI算力需求已经占据主流地位。这一趋势还会持续扩大。过去一年,阿里云投资新建了大量的AI算力,但还是远远不能满足客户的旺盛需求……阿里云正在以前所未有的强度投入AI技术研发和基础设施建设。我们的单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的AI先进基础设施。

不同于传统IT时代,AI时代对基础设施的性能、效率要求更高,CPU主导的计算体系已快速向GPU主导的AI计算体系转移。阿里云正以AI为中心,全面重构底层硬件、计算、存储、网络、数据库、大数据,并与AI场景有机适配、融合,加速模型的开发和应用,打造一个AI时代的最强AI基建。

打开网易新闻 查看精彩图片

阿里云CTO周靖人说:阿里云正在围绕AI时代,树立一个AI基础设施的新标准,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个AI和应用提供高性能、高效的算力服务。

AI驱动的阿里云全系列产品家族升级包括:最新上线的磐久AI服务器,支持单机16卡、显存1.5T,并提供AI算法预测GPU故障,准确率达92%;阿里云ACS首次推出GPU容器算力,通过拓扑感知调度,实现计算亲和度和性能的提升;为AI设计的高性能网络架构HPN7.0,可稳定连接超过10万个GPU ,模型端到端训练性能提升10%以上;阿里云CPFS文件存储,数据吞吐20TB/s,为AI智算提供指数级扩展存储能力;人工智能平台PAI,已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%;灵骏集群也进一步升级,可支持十万卡级别的AI算力规模。

2024云栖大会现场,阿里云全面展示了全新升级后的AI基础设施系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。

AGI的实现不仅需要海量的算力,也需要对算力的高效调度和利用。Gartner分析师预测“到2027年,超过75%的AI部署将使用容器技术作为底层计算环境”。阿里云结合多年服务客户和云产品AI平台实践经验,沉淀出Cloud native AI参考架构,致力于推动云原生和AI两个领域的系统化融合。阿里巴巴研究员、阿里云容器服务负责人易立在2024云栖大会上分享开放AI原生参考架构。

打开网易新闻 查看精彩图片

开放云原生AI参考架构聚焦几个层次:利用云原生技术充分发挥AI基础设施的高性能、大规模优势,包括对GPU的轻量虚拟化、并行文件存储CPFS、高性能网络RDMA,以及高性能智算集群——灵骏等的支持;通过高效AI资源调度和任务编排,协同优化AI应用性能和资源利用率,同时让AI系统具备更好的弹性与稳定性;支持开放生态和可扩展架构,广泛集成AI云服务、开源AI生态,支持ISV应用框架,比如Nvidia NIM,支持企业构建高效的云原生AI平台,加速AI创新落地。

在操作系统方面,2024云栖大会上,面向“云+AI”应用场景,阿里云服务器操作系统 Alibaba Cloud Linux(简称Alinux)全面升级。阿里云服务器操作系统基于“一云多芯”实现软硬件协同优化,CPU、GPU资源利用率大幅提高,在数据库等核心场景的性能全平台提升20%以上,并支持多种主流机密计算,引领国产服务器操作系统发展。

以阿里云为理事长单位的龙蜥开源社区认为“AI原生操作系统”可分为System for AI和AI for System两大领域。在System for AI领域,阿里云Alinux在OS&Kernel方向推进了RAS、存储、网络等关键技术,提升了AI基础设施的稳定性与性能;在AI容器镜像方向推出了AC2(Alibaba Cloud AI Containers ),提供开箱即用的操作系统分发形态;在Confidential AI机密计算方向,推出了AI机密计算方案,提升AI场景全链路安全水位。在AI for System领域,阿里云Alinux推出了基于AI算法和专家的智能调优工具轻豚(KeenTune)、操作系统智能助手OS Copilot以及智能运维诊断平台扁鹊(SysOM)。

操作系统之上是中间件层。AI兴起带来了非结构化数据的指数级增长,给企业对数据的高效检索和分析管理提出了更大挑战。2024云栖大会上,阿里云重磅推出由“Data+AI”驱动的多模数据管理平台DMS:OneMeta+OneOps,构建企业智能Data Mesh(数据网格),提升跨环境、跨引擎、跨实例的统一元数据管理能力。例如,DMS+Lindorm一站式多模数据解决方案支撑了月之暗面构建AI智能助手Kimi,帮助Kimi准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。

打开网易新闻 查看精彩图片

与云原生的开发范式相比,基于大模型的AI原生开发范式发生了比较大的变化。云原生开发是以容器、微服务、声明式 API 构成的云原生应用架构,这是当下构建在线应用的主流架构,比如电商业务、金融业务、SaaS 服务、社交应用、交通物流等,大部分企业都已经采用了这套架构或者至少已经有一部分业务跑在这套架构上。而AI原生开发是以大模型、AI Agent、面对自然语言编程构成的 AI 原生应用架构,更大的概念是AI基础设施,采用 GPU 资源进行模型的训练和推理,并以模型和自然语言为核心,驱动业务发展,而承接端侧的流量,不再是微服务,而是Agent。

MaaS是AI原生应用架构中新的中间件。阿里云于2023年10月推出了百炼平台。该平台集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,为用户简化了底层算力部署、模型预训练、工具开发等复杂工作。面向政企客户,阿里云于2024年推出百炼专属版,是为政企客户构建的一站式大模型及智能体服务平台。2024云栖大会,百炼专属版再升级,例如在底层算力上,兼容“公共云VPC”和“专有云”环境,并已嵌入阿里云“飞天企业版”云平台;支持多芯异构的算力调度,支持多租户模式下的算力、模型、数据隔离与共享,等等。

在2024云栖大会上,魔搭社区宣布正式上线AIGC专区,为开发者提供从模型到应用的一站式AI创作开发平台,目前所有功能板块及GPU算力全部免费开放。自2022年云栖大会上发布以来,魔搭社区目前已成为国内规模最大、最活跃的AI模型社区,汇聚超过10000款优质模型,为超过690万用户提供了模型及免费算力服务。

通义是阿里云推出的大模型。2024云栖大会,阿里云CTO周靖人发布通义千问新一代开源模型Qwen2.5,旗舰模型Qwen2.5-72B性能超越Llama 405B,再登全球开源大模型王座。Qwen2.5全系列涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架100多个模型,刷新业界纪录。

自从2023年8月开源以来,通义在全球开源大模型领域后来居上,成为开发者尤其是中国开发者的首选模型。性能上,通义大模型逐步赶超美国最强开源模型Llama,多次登顶Hugging Face全球大模型榜单;生态上,通义与海内外的开源社区、生态伙伴、开发者共建生态网络,截至2024年9月中旬,通义千问开源模型下载量突破4000万,Qwen系列衍生模型总数超过5万个,成为仅次于Llama的世界级模型群。

2024 年,随着多模态发展,模型能力持续突破,在过去的两年框架以Python为主,但是对于中国42.9%的Java开发者将选择什么来构建AI应用?阿里云基于Spring AI发布并快速演进Spring AI Alibaba,通过提供一种方便的API抽象,帮助Java开发者简化AI应用的开发,一步迈入AI原生时代。Spring AI Alibaba 已完整提供Model、Prompt、RAG、Tools等AI 应用开发所需的必备能力,将兼具提示词模板、函数调用、格式化输出等低层次抽象,以及 RAG、智能体、对话记忆等高层次抽象。

AI 模型的深入发展,导致了数据处理方式与技术架构的深刻变化,相关应用产生的日志、链路等可观测数据规模呈指数级增长,数据结构复杂度也与日俱增,而AI部署的异构环境、资源及平台也越发多元,都给可观测性的准确、实时、高效与智能化发展带来了巨大挑战。2024云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。

纵观2024云栖大会,“AI原生”正在从技术的方方面面“涌现”出来,汇集起来形成一个切切实实正在发生的大事件,从而夯实“AI原生”这个技术大趋势。而这一切的背后,是阿里云对于大模型AI的判断。据媒体报道,在多次内部会上,阿里云高管都将2024的AI,类比于2012年的移动支付和2017年的短视频。

吴泳铭在主题演讲中说,“新技术革命会在人们的怀疑中成长,让很多人在迟疑中错过”。但显然,阿里云已经做好准备。AI原生,一场新技术革命,已经全面铺开。(文/宁川)