通信世界网消息(CWW)2025年,人工智能算力需求呈指数级增长,超大规模集群成为技术竞争的核心战场。在首届光合组织人工智能创新大会(HAIC2025)上,中科曙光scaleX万卡超集群、开放联合实验室惊艳亮相,以“开放架构”打破行业“生态围墙”,引发全产业链关注。大会期间,中科曙光高级副总裁李斌与高性能计算软件研发总经理吕灼恒共同接受媒体专访,深入解读曙光在智算集群建设、技术创新、生态协同等方面的战略布局,勾勒出2025年曙光在人工智能算力领域的发展脉络与行业思考。
开放是必然:打破内卷困局,重构产业协同生态
在行业普遍追求“生态闭环”、构筑竞争壁垒的当下,曙光毅然选择“开放架构”路线,这一决策背后是对产业痛点的深刻洞察。“人工智能产业链极长,从芯片到系统再到应用,需要各环节紧耦合协同,但当前行业陷入‘各自为战’的内卷困境——企业总想覆盖全链条,结果每个环节都做不精,最终让用户陷入选择困境。”李斌直言,这种分散发展模式既无法满足用户需求,也让企业难以找准自身定位。
中科曙光高级副总裁李斌
曙光提出的AI计算开放架构,核心是让产业链合作伙伴聚焦各自优势领域,实现协同共赢。“我们愿意携手产业伙伴,推动芯片、系统、软件、应用等环节的技术整合与协同规划。”李斌表示,开放不是简单的技术共享,而是通过建立统一标准和协同机制,让不同厂商的产品能够无缝适配,最终为用户提供高效、可靠的一体化解决方案。
2025年,曙光的开放战略在HAIC2025大会上落地为开放联合实验室,成为推动开放架构实践的核心载体。实验室通过设立专项工作组,聚焦芯片互连、底层软件标准、高速网络等关键技术方向,推动产业链协同攻关。对于中小企业而言,这一平台大幅降低了参与门槛——无需投入巨额资源搭建算力平台,即可借助曙光提供的技术支撑和测试环境,专注于细分领域的创新突破。“比如一家专注于算法的小企业,有了开放实验室的支持,就能把‘敢想但没条件做’的技术落地,这正是开放生态的价值所在。”李斌举例道。
scaleX万卡超集群打造国产智算标杆
HAIC2025大会上,曙光scaleX万卡超集群的发布,标志着我国在超大规模智算基础设施领域实现关键突破。这套由16个scaleX640超节点组成的集群系统,算力超5Eflops,能够满足万亿参数大模型训练、科学智能等极致场景需求。然而,超大规模集群的建设绝非简单的设备堆砌,而是对工程技术的全面考验。
“当系统规模扩大到万卡级别,任何单点问题都会被无限放大,可靠性、可扩展性、能效比成为三大核心挑战。”李斌有着二十余年超算建设经验,他坦言,超大规模集群首先要解决互连网络瓶颈——必须具备高带宽、低延迟、可管理的特性,才能避免规模扩大后计算效率下降。曙光自主研发的ScaleFabric高速网络,作为国内首款400G类IB原生RDMA网络产品,带宽与延迟对标国际主流水平,端口密度提升25%,组网成本降低30%,为万卡集群提供了核心支撑。
在可靠性方面,万卡规模意味着故障概率呈指数级增长。曙光通过数字孪生技术构建了与物理集群1:1对应的虚拟模型,实时采集计算、网络、供电等全链路数据,结合AI算法实现故障主动预测与根因定位。“传统运维是被动告警,现在我们能主动发现潜在问题,甚至在故障发生前提前干预,将集群可用性提升至99.99%。”吕灼恒补充道,这套智能运维系统还能根据任务特征实现资源精准调度,让科研人员无需关注底层运维,专注于核心创新。
能效比则是超大规模算力中心的另一关键命题。面对未来五年可能出现的“3吉瓦级”算力中心,曙光采用浸没式相变液冷、高压直流供电等先进技术,将scaleX超节点的PUE控制在1.04的超低水平,在保证系统高效稳定运行的同时,实现了绿色节能目标。“这些技术突破不是孤立的,而是软硬件协同优化的结果,体现了曙光在系统工程领域的深厚积累。”李斌强调。
深度融合区域发展,赋能千行百业智能化
算力的价值最终要通过应用场景实现。2025年,曙光在算力落地方面持续发力,不仅打造了重庆等区域数据中心标杆项目,更通过“光耀百城2.0”计划推动算力资源向全国下沉。李斌表示,区域数据中心的成功关键在于“需求匹配”与“产业赋能”双轮驱动。“我们建设数据中心不是简单堆砌算力,而是要与当地产业需求深度结合,成为吸引投资、培育新兴产业的基础设施。”
以重庆数据中心为例,曙光采用“算力+场景”的合作模式,将超算、智算能力与当地制造业、数字经济发展需求相结合,通过灵活的运营机制,为企业提供定制化算力服务。这种模式既保证了数据中心的高效运转,又为当地产业升级注入了动力。“未来,我们将在更多区域复制这种模式,让算力真正成为区域经济发展的‘数字引擎’。”李斌说。
在行业应用方面,scaleX万卡超集群已展现出广泛的适配性。在金融领域,高带宽、低延迟的特性满足了结算业务的时效性与安全性需求;在制造业,海量算力支撑新能源汽车仿真测试、工业数字孪生等场景,缩短研发周期;在科研领域,为新药研发、材料科学、气象预测等提供强大算力支撑,推动科研模式从“经验驱动”向“数据与模型双驱动”转变。“万卡集群的价值不仅在于算力规模,更在于它能让过去难以实现的科研创新和产业升级成为可能。”吕灼恒补充道。
国产智算高质量发展,必须聚焦核心技术
谈及2025年后的发展规划,李斌表示,曙光将持续聚焦核心技术研发,深化开放生态建设,推动超算、智算、通算的融合发展。“海外超算的核心定义就是‘性能更强、能做一般计算机做不到的事’,并没有刻意区分智算和超算。”他认为,国内过度割裂三者的发展模式不利于产业协同,未来曙光将以统一的开放架构为基础,实现不同计算形态的融合,满足多样化场景需求。
在技术迭代方面,曙光将持续推进高速互连、智能运维、绿色节能等核心技术的升级,同时加大对AI原生应用的支持力度。“我们要让集群不仅能提供算力,更能理解AI应用的需求,实现软硬件的深度协同优化。”李斌表示,曙光将通过开放联合实验室,与产业链伙伴共同制定更多技术标准,推动国产智算产业从“单点突破”向“系统领先”跨越。
对于行业竞争,李斌始终坚持“协同大于竞争”的理念。“国产智算产业与国际仍有差距,这种差距需要大厂牵头、协同攻关才能弥补。”他呼吁行业摒弃内卷壁垒,通过开放架构实现资源共享、优势互补,共同提升国产算力的整体竞争力。
2025年,曙光以scaleX万卡超集群彰显了技术硬实力,以开放架构展现了产业担当。李斌表示,未来曙光将继续以“开放、协同、创新”为核心,与生态伙伴一道破解技术瓶颈、拓展应用场景,让国产智算集群不仅成为算力供给的核心载体,更成为推动中国人工智能产业高质量发展的关键力量。“我们的目标是打造真正好用、易用的智算基础设施,为千行百业的智能化转型提供坚实支撑。”
热门跟贴