打开网易新闻 查看精彩图片

编辑 | 宋慧

出品 | CSDN(ID:CSDNnews)

生成式 AI 引发了计算、开发、交互范式的全面升级,这既是业务创新增长的机会,但同时也让企业面临算力成本压力。在汽车行业,以端到端大模型量产上车、正在加速走向 L4 自动驾驶的小鹏汽车,既是领先的国产新能源车厂,也是创新科技公司。2024 云栖大会上,小鹏汽车宣布车联网、官网、商城、大数据等核心业务已迁移至阿里云倚天实例,节省了超过 20%的算力成本。

我们都知道阿里云倚天实例基于平头哥半导体自研 Arm 架构通用服务器芯片倚天 710 芯片,目前已经在阿里云数据中心大规模部署。小鹏汽车几年前就已经全面上云,并且在 2022 年与阿里云在乌兰察布建成中国最大的自动驾驶智算中心。现在小鹏汽车也将核心业务逐步迁移到倚天云服务器上,再次印证 Arm 架构在数据中心的优势,也是重要的技术风向。

CSDN 专访了小鹏汽车副总经理谭蔚华,谭蔚华全面负责小鹏汽车运维、安全和研发工作,他分享了小鹏汽车从 x86 迁移到阿里云倚天实例的宝贵经验。

零故障平滑迁移,

小鹏汽车计划全场景迁移至倚天

小鹏汽车是国产新能源车的领跑者之一,过去几年公司业务快速增长并走向全球,为应对业务快速增长的算力需求,小鹏汽车于 2019 年开始全面上云并采用容器化部署业务,为业务创新提供了技术保障。随着小鹏汽车体系化地应用 AI 技术,底层 IT 系统需要进一步随业务需求快速变化,同时保证极致的稳定和安全,并且合理节省成本,用技术控本提效。两年前,为进一步降低云上算力成本,小鹏汽车开始探索将核心业务的通用算力切换至阿里云倚天实例。

将业务从 x86 架构计算体系迁移至 Arm 架构计算体系是一项复杂的系统工程,为了实现平滑迁移,阿里云和平头哥技术团队为倚天实例定制了迁移工具和性能调优工具等,为小鹏汽车业务在倚天实例上快速适配提供了基础保障。

对于架构迁移的工作经验,谭蔚华认为首先要克服的是两套架构技术和运维知识的鸿沟,迁移中小鹏汽车技术团队做了大量性能检测工具,并且在重要的数据库系统迁移时做到多轮压测多轮 check 以确保系统稳定,最后团队对系统监控重构实现对 CPU 性能负载的监控管理。“我们为这个项目重构了整个监控报警系统。迁移过程中经常收到 CPU 占用率资源报警消息,按照以往 x86 的经验我们以为是 CPU 已经到达极限了。但是实际分析下来,由于倚天物理核的特性,实际上倚天仍然可以在高占用率情况下正常工作。”

打开网易新闻 查看精彩图片

谭蔚华表示:“尽管业务迁移需要涉及中间件重新编译等繁杂工作,但整个迁移过程实现了零故障平滑迁移。”目前,小鹏汽车车联网、官网、商城、大数据等业务已迁移至阿里云倚天实例,未来还将继续切换,最终实现全场景采用基于倚天的云产品和服务。

倚天 ECS 实例,

核心场景性价比提升 30%

更加灵活、低功耗的 Arm 架构已经受到全球顶级云厂商自研 CPU 青睐,不过从传统成熟的 x86 架构迁移过来,对于企业来说仍是一个重要的决策。谭蔚华思考后认为,小鹏汽车决定迁移到倚天芯片和服务的决策难度并不大,因为小鹏汽车定义在一家科技公司,始终要求技术创新,另外倚天成本优势明显。

和传统的 x86 架构芯片相比,采用 ARMv9 架构的倚天 710 芯片在处理能力与能源消耗之间实现了平衡,为云计算高效运行提供了有力支持,并在相同场景和算力的情况下,为小鹏节省了超过 20%的成本。“随着规模的进一步提升,成本的优势会更加明显。”谭蔚华说。

倚天 710 芯片是国内首个云上规模应用的自研 CPU,2024 云栖大会上阿里云智能集团弹性计算、存储产品线负责人吴结生在演讲中分享了倚天 ECS 的最新进展。通过全栈优化,倚天 ECS 实例在数据库、大数据、视频编解码等核心场景中的性价比提升 30%以上,单位算力功耗降低 60%以上,目前已有数千家企业迁移至倚天实例。

打开网易新闻 查看精彩图片

除了兼顾性能和成本,转向阿里云倚天实例后,使小鹏汽车同时具备了 x86 和 Arm 两套架构系统运维能力,也让小鹏汽车技术团队拥有更灵活的技术自主性,对 x86 和 Arm 优势和先进技术功能,小鹏汽车都能够更快速上手应用。

未来,小鹏汽车将打造全球 AI 智能云,要实现 AI 加持、全球一体、端云联动、技术栈统一、全场景控本。谭蔚华表示,阿里云倚天实例的经验将复制到国际团队,实现多点研发。

除了通用算力全面向倚天 ECS 实例迁移,小鹏汽车与阿里云在智算平台、大模型等领域也在展开全面的合作。在 AI 引发的新一波科技变革中,双方强强联手深度合作,还将激发智能出行领域哪些创新和变化,CSDN 将持续关注报道。