2025年的第一个季度,就这样嗖地一下过完了~

打开网易新闻 查看精彩图片

作为算力圈的“老黄牛”,过去的一年,老丘生意可谓风生水起。

可是转过年来,老丘敏锐的感觉到:有点不对劲,生意明显少多了。

打开网易新闻 查看精彩图片

这个不对劲的源头,其实就是DeepSeek

过去两年,国内各种大模型百花齐放,训练需求激增,大巨头、小独角、传统IT大厂,甚至行业大甲方们,都想自己训练个模型出出风头。

所以,老丘的“卖铲子”生意也很火。

打开网易新闻 查看精彩图片

可是,自从DeepSeek新春炸场以来,风云突变,人们发现这市场上根本不需要那么多大模型,有两三个好用的就够了。

于是乎,很多大规模训练的需求,一夜之间退潮了,取而代之的大量的后训练和推理需求。

打开网易新闻 查看精彩图片

老丘很不幸成为这波退潮的“受害者”,他之前手里的那些智算中心,当初建设的初衷都是打谱做预训练用的。

现在客户上来就要推理,尤其还要看跑DeepSeek的效果,纯搞训练不香了。

打开网易新闻 查看精彩图片

每次被客户拷问,老丘都无言以对,眼看Q1就要结束了,也没找到破局之道。

直到3月底,他去参加了一场会…

这场不同寻常的会,让老丘的格局瞬间打开了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这是一场怎样的会议呢?

首先,举办的地点不寻常——

会议的举办地设在甘肃庆阳,瞬间就吊起了老丘的胃口。

下了车,老丘看到那一排排的数据中心机房和墙上那些熟悉的LOGO,就兴奋起来了。

打开网易新闻 查看精彩图片

庆阳今非昔比,这里可是国家“东数西算”工程的八大枢纽节点之一。

作为“中国算谷”,庆阳的智算中心是如何应对DeepSeek带来的新需求?老丘觉的这肯定很值得借鉴。

打开网易新闻 查看精彩图片

第二、参观的项目不寻常——

抵达的第一站,老丘要去参观的是燧弘华创在庆阳枢纽的绿色智算中心。

要知道,燧弘华创是首家入驻庆阳的数据中心企业,目前已经投产2万P高端算力,而且全部售罄。

打开网易新闻 查看精彩图片

老丘心里一边羡慕着同行,一边近距离观摩拍照。

打开网易新闻 查看精彩图片

参观过程中,老丘了解到,在智算中心的落地过程中,燧弘华创在技术研发层面深耕细作。

并与联想协同创新,基于万全异构智算平台,输出融合、稳定和高效的算力。

打开网易新闻 查看精彩图片

最终,大家的目光都被数据中心前厅的一组展示设备吸引,老丘也走过去围观。

原来这里展示的联想为燧弘华创定制的,搭载了燧原国产算力卡的异构智算服务器。

打开网易新闻 查看精彩图片

第三,会议的干货不寻常——

参观结束,接下来进入干货满满的会议阶段。

以前开会,老丘就是捧个场,一落座就犯困。可这次,老丘是全程竖着耳朵从头听到尾,而且频频拍照。

打开网易新闻 查看精彩图片

联想专家的分享,讲到了老丘真正关注的两大问题。

①如何优化智算集群,满足类似DeepSeek这样“泼天”的推理需求。

②如何优化智算一体机,满足DeepSeek等大模型本地化部署的需求。

这两方面,联想都给出了深度实践后的最佳答案。

▌第一通过「联想万全异构智算平台」提升千卡、万卡集群的可管理性和可伸缩性。

从而更加灵活地调度算力资源,满足模型后训练、推理等业务对算力的新需求:突发性强、零散度高、弹性要求高。

打开网易新闻 查看精彩图片

同时,万全异构智算平台支持丰富的GPU、AI加速卡生态,通过“异构”,可引入不同精度的算力,满足当下和未来推理场景对低精度算力的要求。

而且,万全异构智算平台还支持智算、高性能计算异构,从而让不同精度的算力都能最大化使用。

打开网易新闻 查看精彩图片

在现场,联想专家还实操演示了燧弘华创基于万全异构智算平台定制的管理平台,142节点,1136张卡,纳管、监控、调度,一气呵成。

老丘看罢直呼内行,预训练时代大家为了秀肌肉,总喜欢整什么万卡、十万卡,现在到了推理时代,把千卡优化好,效率最大化才是王道。

打开网易新闻 查看精彩图片

▌第二,用「混合精度量化」策略,提升推理速度。

其核心的原理就是:不是所有权重和激活都用同样的精度,而是根据重要性使用不同的精度(FP16/BF16/FP8/INT8/INT4等)。

联想可以根据不同模型的特点、智算中心算力卡的精度支持情况,为运营者制定一套推理效率最大化的量化策略。

打开网易新闻 查看精彩图片

简单讲就是在关键地方(离群点)保留高精度,在其他地方用低精度,配合图结构优化和自动编译工具,提升推理速度、减少算力消耗。

联想给出了实测结果,经过混合精度量化的DeepSeek 32B蒸馏模型,相比原模型吞吐提升近100%,端到端延迟降低50%,且模型性能近乎无损。

打开网易新闻 查看精彩图片

▌第三通过「通信计算重叠」和「访存优化」,来提升算力利用率(MFU)

通信计算重叠,就是在计算单元(CPU/GPU)执行当前任务的同时,后台异步传输下一阶段需要的数据(模型参数、中间结果等),让通信和计算时间部分或完全重叠。

从而充分利用硬件并行能力,隐藏通信延迟,提升系统整体吞吐。

打开网易新闻 查看精彩图片

访存优化,尤其针对长序列场景,通过分块计算和算子融合,就近缓存数据,并采用按需重计算,显著减少显存开销,降低通信延迟。

好比把大任务拆成小块干,把常用的东西放手边,不重要的结果就不存,等需要时再算,这样能省很多空间,还能干活更快更流畅。

打开网易新闻 查看精彩图片

▌第四通过「内核态虚拟化」,精细化调度算力,并严格隔离故障。

联想万全异构智算平台,还提供了一项独门绝技:内核态虚拟化

可实现显存1MB粒度、算力1%精度隔离,虚拟化性能损失低于3%,并具备严格的故障隔离性。

打开网易新闻 查看精彩图片

这波操作,让异构智算平台可以更细粒度地调度算力,满足后DeepSeek时代大模型后训练和推理对算力小快灵的需求。

比如在会议现场,老丘就亲眼目睹了联想专家用单GPU运行100个模型任务,效率跑满,灵活性超强。

打开网易新闻 查看精彩图片

▌第五,通过极致优化,提升DeepSeek一体机吞吐,满足本地化部署需求。

在一体机层面,联想也下足了功夫。

联想专家现场演示,单机8卡运行满血版DeepSeek R1,3000并发下,极限吞吐高达8000+ TPS。

打开网易新闻 查看精彩图片

更让老丘佩服的一点在于,联想的一体机测试,不仅限于展示并发和极限吞吐,还提供了与真实业务场景相匹配的模拟测试。

除了最通用的聊天会话场景,还包括了代码生成、文档翻译、文档解析、知识库应用等等,每种场景都给出了明确的指标。

打开网易新闻 查看精彩图片

就这样,不管是智算集群优化用于大规模运营,还是一体机优化用于本地化部署,联想都拿出了最优解。

一天的会议下来,老丘彻底想明白接下来怎么玩了。

跟着联想走,跟着万全异构智算的方案走,把自己手里的算力重新优化,适配推理和后训练新需求……

2025,我又可以啦!

打开网易新闻 查看精彩图片