飞象网讯(易欢)在今天“2024年云网智联大会”上,中国电信科技委主任韦乐平分享了为未来大模型跨群跨域跨云面临挑战的思考与建议。

韦乐平指出,由于单站资源受限,未来可能需要在园区、AZ乃至更大范围内由多个物理集群构成一个超级逻辑集群进行联合训练才能支撑超大模型的训练。推理本身与具体业务场景相关,更可能需要跨域跨云实施。

挑战也随着而来,其中,距离增大导致时延变大,高频次通信的效率将降低,导致网络吞吐量降低,影响GPU利用率。此外,故障概率也将增大。“

对此,韦乐平也给出了应对策略,解决不同集群间参数的传递和同步以及大量数据跨群跨域跨云传输的不同时延导致的训练速度减慢的问题。一是训练任务被拆分到不同集群上实行并行训练,根据不同的训练任务和场景,采用数据并行、流水线并行、张量并行等多种不同策略。二是采用空芯光纤从物理层上直接降低数据传递时延(降33%)。

与此同时,韦乐平强调,单站单园区集中训练是首选,跨群跨域跨云的训练依然充满挑战!

编 辑:路金娣