做科研的人大概都懂这种痛:想跑个蛋白质折叠模拟,得先跟IT部门扯皮三个月申请算力,配置环境再花两周,最后发现显卡不够,模型跑到一半报错。
中科曙光最近干的事,相当于把这个流程压缩成了点外卖。
4月14日,他们部署在国家超算互联网郑州核心节点的AI for Science计算集群正式投用,6万卡规模,目前国内最大。不是简单的显卡堆砌,而是把超算和智算两套体系揉在了一起——以前做气象模拟和训练大模型得找两拨人、借两批机器,现在一套系统全包了。
这套系统的几个设计挺有意思:
scaleFabric高速网络是国内首款类InfiniBand方案,解决的是显卡之间"说话慢"的问题。6万张卡协同计算,网络延迟高一点,整体效率直接崩盘。"超级隧道"和AI数据加速则是让存储别拖后腿——很多集群算力利用率低,不是因为显卡不行,是数据从硬盘读到显存太慢,显卡干等着。
真正让科研人员省心的可能是OneScience平台。官方说法是"数小时完成科学大模型开发",翻译一下就是:以前你得自己配PyTorch、调CUDA版本、找数据集、写训练脚本,现在像搭积木一样选模型、传数据、点运行。平台已经集成了地球科学、生物信息、流体仿真等领域的几十个热门模型。
更省事的是那个"超级科学计算智能体"。用自然语言描述需求,系统自动拆任务、调模型、分配算力。从"天级"压缩到"小时级"——这个对比可能有点夸张,但方向是对的:让生物学家专注生物问题,而不是先修个计算机学位。
已经跑通的案例里,3万卡规模蛋白质折叠加速1000倍,万亿原子水分子动力学模拟打破世界纪录。这些数字听着唬人,关键是证明了集群真的能用起来,不是PPT算力。
国家超算互联网平台现在链接了300万CPU核和20万GPU卡,个人用户免费Token额度涨到了3000万。对高校课题组和小型科研团队来说,相当于突然有了个按需租用的"算力云",不用自己养机房了。
中科曙光的人在现场提到一句话:打破传统超算与智算壁垒。这话的潜台词是,国内之前超算中心和智算中心各玩各的,资源割裂,现在试图用一套架构两头通吃。能不能成还得看生态,但至少硬件底子先铺开了。
有个细节:平台支持从自然语言需求到端到端交付。换句话说,以后发论文的或许真的不需要再解释"我们用了多少张V100"——算力变成像水电一样的基础设施,科研人员只关心结果对不对,不关心管道怎么铺。
热门跟贴