6万张显卡堆一起，中科曙光搞了个科研界的"中央厨房"

字节漫游指南

2026-04-14 17:06 ·北京

做科研的人大概都懂这种痛：想跑个蛋白质折叠模拟，得先跟IT部门扯皮三个月申请算力，配置环境再花两周，最后发现显卡不够，模型跑到一半报错。

中科曙光最近干的事，相当于把这个流程压缩成了点外卖。

4月14日，他们部署在国家超算互联网郑州核心节点的AI for Science计算集群正式投用，6万卡规模，目前国内最大。不是简单的显卡堆砌，而是把超算和智算两套体系揉在了一起——以前做气象模拟和训练大模型得找两拨人、借两批机器，现在一套系统全包了。

这套系统的几个设计挺有意思：

scaleFabric高速网络是国内首款类InfiniBand方案，解决的是显卡之间"说话慢"的问题。6万张卡协同计算，网络延迟高一点，整体效率直接崩盘。"超级隧道"和AI数据加速则是让存储别拖后腿——很多集群算力利用率低，不是因为显卡不行，是数据从硬盘读到显存太慢，显卡干等着。

真正让科研人员省心的可能是OneScience平台。官方说法是"数小时完成科学大模型开发"，翻译一下就是：以前你得自己配PyTorch、调CUDA版本、找数据集、写训练脚本，现在像搭积木一样选模型、传数据、点运行。平台已经集成了地球科学、生物信息、流体仿真等领域的几十个热门模型。

更省事的是那个"超级科学计算智能体"。用自然语言描述需求，系统自动拆任务、调模型、分配算力。从"天级"压缩到"小时级"——这个对比可能有点夸张，但方向是对的：让生物学家专注生物问题，而不是先修个计算机学位。

已经跑通的案例里，3万卡规模蛋白质折叠加速1000倍，万亿原子水分子动力学模拟打破世界纪录。这些数字听着唬人，关键是证明了集群真的能用起来，不是PPT算力。

国家超算互联网平台现在链接了300万CPU核和20万GPU卡，个人用户免费Token额度涨到了3000万。对高校课题组和小型科研团队来说，相当于突然有了个按需租用的"算力云"，不用自己养机房了。

中科曙光的人在现场提到一句话：打破传统超算与智算壁垒。这话的潜台词是，国内之前超算中心和智算中心各玩各的，资源割裂，现在试图用一套架构两头通吃。能不能成还得看生态，但至少硬件底子先铺开了。

有个细节：平台支持从自然语言需求到端到端交付。换句话说，以后发论文的或许真的不需要再解释"我们用了多少张V100"——算力变成像水电一样的基础设施，科研人员只关心结果对不对，不关心管道怎么铺。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴