最近,我们刷到一个千万级大模型大单↓

一套AI计算集群,中标价2000多万。

猛一看,采购的是AI服务器,这不奇怪,当下AI服务器就是很抢手,大单频出。

打开网易新闻 查看精彩图片

可细一看,很多吃瓜人士就开始好奇——

“除了服务器,这里面的KunLun AI Space,是个啥玩意?”

此时,懂行的老司机发话了:嘿嘿,这其实是MaaS!

打开网易新闻 查看精彩图片

什么是MaaS,为啥MaaS能卖这么贵?

什么是MaaS,为啥MaaS能卖这么贵?

先讲个真实现状吧:

上半年,你不搞大模型,客户会觉得你Out了,项目都懒得跟你谈。

下半年,你搞大模型没MaaS,客户就会觉得你不是真正搞大模型的,还是懒得跟你谈。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

为啥呢?

因为现在开源大模型那么多,你想获得一个大模型其实没啥难度,甚至客户自己都能搞定。

打开网易新闻 查看精彩图片

可是,你想真的把大模型优化好、部署好、用好,得到更高的推理效率,更好地适配业务,就没那么简单了。

所以,你就会发现,很多客户虽然有了大模型,却只能“供着”。

打开网易新闻 查看精彩图片

要想把大模型真正用起来,就离不开MaaS。

MaaS,就是大模型服务平台(Model as a Service),向下对接算、存、网等AI硬件基础设施,向上对接AI应用开发。

MaaS就像AI时代的奶牛,吃的是草(算力),挤出来的是奶(tokens)。

打开网易新闻 查看精彩图片

企业要想用好大模型,对这头奶牛要求可不低↓

第一,客户买了这头“奶牛”,希望它在吃相同草料的情况下(算力),能更快更多的产奶(tokens)。

打开网易新闻 查看精彩图片

此时,就需要考量TPOT、TTFT、并发、极限吞吐这些推理性能指标。

但实际上,市面上“奶牛”良莠不齐,能力差别很大,很多“产奶”指标都是测试理想值。

打开网易新闻 查看精彩图片

第二,客户还希望这头奶牛好饲养,国产草料、进口草料都能吃,还有配套的饲养员、兽医。

比如,有的牛特别挑食,只偏爱某一两种草料(算力),换了草料就不干活。

打开网易新闻 查看精彩图片

再比如,牛有头疼脑热或者水土不服(故障、bug或者部署、适配优化问题),客户就希望厂家能提供兽医或者饲养员团队帮忙(原厂优化适配专家)。

打开网易新闻 查看精彩图片

第三,客户需要的不止是鲜奶(Tokens),他们的最终目标是把奶变成各种可口的食物(AI应用)。

光有牛还不够,还要有配套的奶制品生产线,也就是AI应用开发和智能体开发平台。

打开网易新闻 查看精彩图片

产奶效率高、不挑草料、有资深饲养员和兽医提供服务,还提供配套的奶产品加工生产需求。

一番盘点下来,这样的“超能牛”可不太好找。

打开网易新闻 查看精彩图片

嘿嘿,众里寻“牛”千百度,踏破铁鞋无觅处。

蓦然回首,你会发现,中标公告里的KunLun AI Space,原来就是那头“超能牛”。

打开网易新闻 查看精彩图片

KunLun AI Space这头“牛”到底有多牛?

KunLun AI Space这头“牛”到底有多牛?

第一牛,吃更少的“草料”,却能更快更多“产奶”。

不仅省饲料,产奶效率还奇高,这样的牛谁不爱呢?

打开网易新闻 查看精彩图片

凭啥有这种效率?一句话,软硬协同!

KunLun AI Space实现了从“算力卡”到“Token输出”端到端软硬协同优化。

也就是说,从饲料投喂(算力池化调度)、进食阶段(算子加速)、消化阶段(模型适配)、产奶阶段(推理加速),每个环节,都进行了优化。

打开网易新闻 查看精彩图片

KunLun为什么要这么干?

只因要想达到最优的“产奶”效率,必须解决四大难题:计算效率、访存效率、存储效率和通信效率

这四大难题,如同四道“叹息之墙”,很多牛人第一道墙都过不了。

打开网易新闻 查看精彩图片

而KunLun AI Space正是通过端到端的软硬协同优化,成功突破了这四道墙,把性能拉满,最终实现最佳推理效率。

打开网易新闻 查看精彩图片

具体怎么破,我来给大家讲讲↓

算子优化:通过算子融合、算子定制开发、软FP4/FP8等手段,提升计算、访存和通信效率。

算子,是深度学习里的“动作单元”,正是依靠一个个算子的高效“动作”,才组合成流畅高效的推理流程,算子级的优化是性能提升的关键。

打开网易新闻 查看精彩图片

KunLun AI Space通过算子融合,将多个独立“小算子”融合一个“大算子”,功能等价但性能更优。

好比将多个步骤的动作,合成一个大动作,达到同样目的,但是更省劲。

打开网易新闻 查看精彩图片

同时,针对当下大量模型采用FP8甚至FP4的推理精度,而市面上很多算力卡却不支持该精度的问题,KunLun AI Space提供软FP8/FP4方案。

采用该方案,资源门槛下降50%,性能可提升10%(比如跑满血大模型,原来需要32张卡,现在只需要16张)。

打开网易新闻 查看精彩图片

②KV Cache优化:通过KV Cache压缩、分级卸载等手段,节省存储和计算开销,并提升长下文处理能力和并发性能。

KV Cache相当于大模型推理里的记忆缓存机制,用于存放之前算过的「注意力特征」。

参考理解一下牛的「反刍」,你就秒懂了,都是已经嚼过(算过)的东西。

打开网易新闻 查看精彩图片

具体怎么优化呢?学问很大!

首先,采用KV Cache多级缓存池,相似或重复问题直接从缓存读取,减少重复计算,降低GPU和显存消耗。

同时,通过内存和SSD分级存储,降低缓存成本。

打开网易新闻 查看精彩图片

接下来,采用高性能压缩算法和硬件,对KV Cache进行压缩,并提供智能冷热数据分级,把存储成本打下来。

通过这一系列操作,以存促算,多轮对话TTFT降低80%,KV Cache存储空间(显存+内存+SSD)降低一半以上。

打开网易新闻 查看精彩图片

③推理调度优化:采用异构PD分离、智能路由等技术提升计算效率,并使用统一存储来平衡PD阶段的资源利用率、延迟,提升吞吐。

现在大家都知道通过PD分离部署来避免资源争抢、提升推理效率,但是面对不同的推理场景、不同算力卡资源,如何优化PD配比,其实很有学问。

打开网易新闻 查看精彩图片

KunLun AI Space有自己一套逻辑↓

采用混合/半分离设计,PD计算过程分开,但统一存储,与KV Cache分级缓存相结合,实现跨节点共享数据。

同时利用智能路由策略,灵活分配负载,且P实例可以弹性伸缩,满足突发请求。

打开网易新闻 查看精彩图片

通过这番操作,又可以让首Token时延降低45%,吞吐量提升25%。

从算子优化到KV Cache优化再到推理调度优化,KunLun AI Space实现了通信效率、存储效率、访存效率、计算效率的集体提升。

最终这一系列的乘积也把推理效率彻底拉满!

打开网易新闻 查看精彩图片

第二牛,这牛胃口好、不挑食,而且配备优秀的“养牛专家”提供服务。

大模型落地到企业场景,遇到五花八门的“草料”(算力)是不可避免的。

此时选KunLun AI Space就太省心了,国产草料、进口草料来者不拒。

打开网易新闻 查看精彩图片

不止如此,KunLun还配备了资深“养牛专家”提供服务,他们专治各种水土不服的“牛脾气”。

算、存、网、集群、整体优化,哪里不服治哪里,针对客户特殊场景,还可以做定制化的算子开发,这没点软硬协同的本领可做不到。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

第三牛,AI Space不止是MaaS,还包含了应用使能模块。

KunLun AI Space其实包含两大部分↓

第一部分叫做「AI Space Wings」,这个是MaaS(也就是牛),另一部分叫做「AI Space Prime」,属于应用使能模块(相当于奶制品加工厂)。

打开网易新闻 查看精彩图片

道理很简单,用大模型做推理,生产再多Tokens也没用,核心是要把他们变成AI应用,就像把鲜奶变成美味奶制品,形成落地闭环。

AI Space Prime提供了MCP、Agent编排/提示词工程/插件管理、RAG等一系列“生产线”,帮助客户把Tokens快速变成生产力工具。

打开网易新闻 查看精彩图片

KunLun AI Space的成绩单,和它背后的“养牛人”

KunLun AI Space的成绩单,和它背后的“养牛人”

目前,KunLun AI Space早已不是实验室里的产品,而是大模型实战中牛气冲天的“小战神”。

1、落地200+项目,覆盖互联网、运营商、金融、政企等头部客户;
2、解决500+大模型生态适配问题;
3、模型推理性能提升50%,token成本大幅下降。

这些成绩意味着:客户花出去的每一分钱,都能换回更高的算力价值。

所以KunLun能拿下篇头那个2000万+的大单,就不足为奇了。

打开网易新闻 查看精彩图片

有人问,牛归牛,但KunLun这名字看着挺生的,怕不是个新公司吧?

嘿嘿,这个成立3年的新公司,却有着20年的老道行。

昆仑技术,2022年10月正式成立,核心团队来自原鲲鹏+昇腾体系,是最懂国产算力生态的那拨人…

如今,这些最强“养牛人”,依托通用和AI计算领域的技术积累、实战经验、服务体系,正在刮起一波大模型时代的“牛旋风”!

打开网易新闻 查看精彩图片