最近,我们刷到一个千万级大模型大单↓

一套AI计算集群,中标价2000多万。

猛一看,采购的是AI服务器,这不奇怪,当下AI服务器就是很抢手,大单频出。

可细一看,很多吃瓜人士就开始好奇——

“除了服务器,这里面的KunLun AI Space,是个啥玩意?”

此时,懂行的老司机发话了:嘿嘿,这其实是MaaS!

什么是MaaS,为啥MaaS能卖这么贵?

什么是MaaS,为啥MaaS能卖这么贵?

先讲个真实现状吧:

上半年,你不搞大模型,客户会觉得你Out了,项目都懒得跟你谈。

下半年,你搞大模型没MaaS,客户就会觉得你不是真正搞大模型的,还是懒得跟你谈。

为啥呢?

因为现在开源大模型那么多,你想获得一个大模型其实没啥难度,甚至客户自己都能搞定。

可是,你想真的把大模型优化好、部署好、用好,得到更高的推理效率,更好地适配业务,就没那么简单了。

所以,你就会发现,很多客户虽然有了大模型,却只能“供着”。

要想把大模型真正用起来,就离不开MaaS。

MaaS,就是大模型服务平台(Model as a Service),向下对接算、存、网等AI硬件基础设施,向上对接AI应用开发。

MaaS就像AI时代的奶牛,吃的是草(算力),挤出来的是奶(tokens)。

企业要想用好大模型,对这头奶牛要求可不低↓

第一,客户买了这头“奶牛”,希望它在吃相同草料的情况下(算力),能更快更多的产奶(tokens)。

此时,就需要考量TPOT、TTFT、并发、极限吞吐这些推理性能指标。

但实际上,市面上“奶牛”良莠不齐,能力差别很大,很多“产奶”指标都是测试理想值。

第二,客户还希望这头奶牛好饲养,国产草料、进口草料都能吃,还有配套的饲养员、兽医。

比如,有的牛特别挑食,只偏爱某一两种草料(算力),换了草料就不干活。

再比如,牛有头疼脑热或者水土不服(故障、bug或者部署、适配优化问题),客户就希望厂家能提供兽医或者饲养员团队帮忙(原厂优化适配专家)。

第三,客户需要的不止是鲜奶(Tokens),他们的最终目标是把奶变成各种可口的食物(AI应用)。

光有牛还不够,还要有配套的奶制品生产线,也就是AI应用开发和智能体开发平台。

产奶效率高、不挑草料、有资深饲养员和兽医提供服务,还提供配套的奶产品加工生产需求。

一番盘点下来,这样的“超能牛”可不太好找。

嘿嘿,众里寻“牛”千百度,踏破铁鞋无觅处。

蓦然回首,你会发现,中标公告里的KunLun AI Space,原来就是那头“超能牛”。

KunLun AI Space这头“牛”到底有多牛?

KunLun AI Space这头“牛”到底有多牛?

第一牛,吃更少的“草料”,却能更快更多“产奶”。

不仅省饲料,产奶效率还奇高,这样的牛谁不爱呢?

凭啥有这种效率?一句话,软硬协同!

KunLun AI Space实现了从“算力卡”到“Token输出”端到端软硬协同优化。

也就是说,从饲料投喂(算力池化调度)、进食阶段(算子加速)、消化阶段(模型适配)、产奶阶段(推理加速),每个环节,都进行了优化。

KunLun为什么要这么干?

只因要想达到最优的“产奶”效率,必须解决四大难题:计算效率、访存效率、存储效率和通信效率

这四大难题,如同四道“叹息之墙”,很多牛人第一道墙都过不了。

而KunLun AI Space正是通过端到端的软硬协同优化,成功突破了这四道墙,把性能拉满,最终实现最佳推理效率。

具体怎么破,我来给大家讲讲↓

算子优化:通过算子融合、算子定制开发、软FP4/FP8等手段,提升计算、访存和通信效率。

算子,是深度学习里的“动作单元”,正是依靠一个个算子的高效“动作”,才组合成流畅高效的推理流程,算子级的优化是性能提升的关键。

KunLun AI Space通过算子融合,将多个独立“小算子”融合一个“大算子”,功能等价但性能更优。

好比将多个步骤的动作,合成一个大动作,达到同样目的,但是更省劲。

同时,针对当下大量模型采用FP8甚至FP4的推理精度,而市面上很多算力卡却不支持该精度的问题,KunLun AI Space提供软FP8/FP4方案。

采用该方案,资源门槛下降50%,性能可提升10%(比如跑满血大模型,原来需要32张卡,现在只需要16张)。

②KV Cache优化:通过KV Cache压缩、分级卸载等手段,节省存储和计算开销,并提升长下文处理能力和并发性能。

KV Cache相当于大模型推理里的记忆缓存机制,用于存放之前算过的「注意力特征」。

参考理解一下牛的「反刍」,你就秒懂了,都是已经嚼过(算过)的东西。

具体怎么优化呢?学问很大!

首先,采用KV Cache多级缓存池,相似或重复问题直接从缓存读取,减少重复计算,降低GPU和显存消耗。

同时,通过内存和SSD分级存储,降低缓存成本。

接下来,采用高性能压缩算法和硬件,对KV Cache进行压缩,并提供智能冷热数据分级,把存储成本打下来。

通过这一系列操作,以存促算,多轮对话TTFT降低80%,KV Cache存储空间(显存+内存+SSD)降低一半以上。

③推理调度优化:采用异构PD分离、智能路由等技术提升计算效率,并使用统一存储来平衡PD阶段的资源利用率、延迟,提升吞吐。

现在大家都知道通过PD分离部署来避免资源争抢、提升推理效率,但是面对不同的推理场景、不同算力卡资源,如何优化PD配比,其实很有学问。

KunLun AI Space有自己一套逻辑↓

采用混合/半分离设计,PD计算过程分开,但统一存储,与KV Cache分级缓存相结合,实现跨节点共享数据。

同时利用智能路由策略,灵活分配负载,且P实例可以弹性伸缩,满足突发请求。

通过这番操作,又可以让首Token时延降低45%,吞吐量提升25%。

从算子优化到KV Cache优化再到推理调度优化,KunLun AI Space实现了通信效率、存储效率、访存效率、计算效率的集体提升。

最终这一系列的乘积也把推理效率彻底拉满!

第二牛,这牛胃口好、不挑食,而且配备优秀的“养牛专家”提供服务。

大模型落地到企业场景,遇到五花八门的“草料”(算力)是不可避免的。

此时选KunLun AI Space就太省心了,国产草料、进口草料来者不拒。

不止如此,KunLun还配备了资深“养牛专家”提供服务,他们专治各种水土不服的“牛脾气”。

算、存、网、集群、整体优化,哪里不服治哪里,针对客户特殊场景,还可以做定制化的算子开发,这没点软硬协同的本领可做不到。

第三牛,AI Space不止是MaaS,还包含了应用使能模块。

KunLun AI Space其实包含两大部分↓

第一部分叫做「AI Space Wings」,这个是MaaS(也就是牛),另一部分叫做「AI Space Prime」,属于应用使能模块(相当于奶制品加工厂)。

道理很简单,用大模型做推理,生产再多Tokens也没用,核心是要把他们变成AI应用,就像把鲜奶变成美味奶制品,形成落地闭环。

AI Space Prime提供了MCP、Agent编排/提示词工程/插件管理、RAG等一系列“生产线”,帮助客户把Tokens快速变成生产力工具。

KunLun AI Space的成绩单,和它背后的“养牛人”

KunLun AI Space的成绩单,和它背后的“养牛人”

目前,KunLun AI Space早已不是实验室里的产品,而是大模型实战中牛气冲天的“小战神”。

1、落地200+项目,覆盖互联网、运营商、金融、政企等头部客户;
2、解决500+大模型生态适配问题;
3、模型推理性能提升50%,token成本大幅下降。

这些成绩意味着:客户花出去的每一分钱,都能换回更高的算力价值。

所以KunLun能拿下篇头那个2000万+的大单,就不足为奇了。

有人问,牛归牛,但KunLun这名字看着挺生的,怕不是个新公司吧?

嘿嘿,这个成立3年的新公司,却有着20年的老道行。

昆仑技术,2022年10月正式成立,核心团队来自原鲲鹏+昇腾体系,是最懂国产算力生态的那拨人…

如今,这些最强“养牛人”,依托通用和AI计算领域的技术积累、实战经验、服务体系,正在刮起一波大模型时代的“牛旋风”!