近期,36氪于北京盛大召开“WISE2024 商业之王”大会,吸引各行各业精英齐聚,共探艰难却正确之事。北京电子数智科技有限责任公司(以下简称“北电数智”)应邀出席,其CMO兼战略与市场负责人杨震发表《“国产算力 PoC 平台”,以场景测评寻找算力最优解》主题演讲,在大会上分享了北电数智对于国产算力应用的深刻见解与前沿探索成果,为行业发展提供了极具价值的思路与方向。

打开网易新闻 查看精彩图片

OpenAI o1发布后,强化学习提升大模型智力的推理模型路线获得了业内认可,不少公司纷纷发布推理模型。而推理模型虽信奉以长思考时间提高智能水平,但实际应用中用户仍看重响应速度快、推理成本低、吞吐能力长这些指标。且推理模型注重垂直场景落地,存在产业链断层,模型方与算力供给需按场景系统化适配痛点。北电数智首个国产算力PoC平台可助力推理模型落地,提供低成本算力,帮大模型适配国产芯片提升推理效果、加速推理速度。

国产算力PoC平台构建于北电数智先进计算迭代验证平台(即前进?AI 异构计算平台)之上,坐落于由北电数智统筹规划建设、设计运营的北京数字经济算力中心。国产算力PoC平台可针对不同厂家的算力芯片,实施算力纳管与统一调度,依据各类模型任务的特性差异,精准调配适宜的算力资源。同时,借助构建丰富的算子库、打造通信库等手段,有力推动模型训练加速进程,为大模型供给兼具高性价比与高品质的算力支持,使其以更低成本、更高效率开展运算,助力大模型落地。

当模型与行业、场景深入结合,定制化的重要性日益凸显。北电数智推出的国产算力PoC平台能够为用户在垂直场景下提供算力集群的评测、适配以及验证服务,协助算力需求方探寻出最为适宜的“软件+硬件”组合方案,以此提升模型训推算力的效率,削减训推所需时间与成本,为用户缔造更优质的使用体验。

国产算力PoC平台大幅提升国产芯片利用率和集群利用率。借助调度、算法以及算子等多层面优化,国产算力PoC平台可大幅改善国产集群的训推效能,混训集群的训练成果能够达到单一集群综合训练效果的1.2倍,在进行混推操作时使平均MFU(模型对算力的利用率)从30%跃升至60%。

经过国产算力PoC平台多层优化后,反映在模型生成速度上表现为基于国产芯片的模型首字延迟最多可优化10倍,解码延迟可达10倍优化,能更迅速地完成数据解析工作,推理吞吐量最高可实现80倍的提升。意味着在单位时间内能够处理更多的数据,进而更快速地响应模型推理需求,有效提升用户体验并提高数据处理效率。

打开网易新闻 查看精彩图片

为进一步提升运行效率并节约资源,北电数智在集群中运用了一系列推理优化策略。例如,凭借scoping to zero特性能够有效缩短冷启动时长;在集群推理环节,支持Continuous batch、Page attention、CPU / GPU 异步等推理策略,提高GPU利用率。

当前,北电数智的国产算力PoC平台已经实现了对十多种国内知名算力芯片的评测支持以及与二十多款主流模型的适配。北电数智的国产算力PoC平台在当下AI发展进程中已彰显出关键价值与强大竞争力。其凭借精准的算力纳管与调度、卓越的模型适配能力以及全方位的优化举措,有效解决了推理模型在落地应用时面临的诸多难题,极大地提升了国产芯片利用率与集群效能,降低了模型训推成本并显著提高了运行效率。

身为肩负“建设数字中国”使命的AI原生国企,北电数智始终坚持做难而正确的事,致力于强化行业间的生态联动,打通模型、场景与芯片在商业运营及研发创新层面的闭环链路。在人工智能产业蓬勃发展的浪潮中,北电数智积极布局,通过持续优化国产算力PoC平台整合行业资源,不仅为产业链上下游企业提供了高效的合作桥梁,也致力于提升我国人工智能产业自主化创新能力,为国家科技战略推进做出创新示范。

责任编辑:张薇