千万级大模型项目，惊现“奇怪”采购|大模型|推理|模型项目|深度思考模型|算子|算法|访存

最近，我们刷到一个千万级大模型大单↓

一套AI计算集群，中标价2000多万。

猛一看，采购的是AI服务器，这不奇怪，当下AI服务器就是很抢手，大单频出。

可细一看，很多吃瓜人士就开始好奇——

“除了服务器，这里面的KunLun AI Space，是个啥玩意？”

此时，懂行的老司机发话了：嘿嘿，这其实是MaaS！

什么是MaaS，为啥MaaS能卖这么贵？

先讲个真实现状吧：

上半年，你不搞大模型，客户会觉得你Out了，项目都懒得跟你谈。

下半年，你搞大模型没MaaS，客户就会觉得你不是真正搞大模型的，还是懒得跟你谈。

为啥呢？

因为现在开源大模型那么多，你想获得一个大模型其实没啥难度，甚至客户自己都能搞定。

可是，你想真的把大模型优化好、部署好、用好，得到更高的推理效率，更好地适配业务，就没那么简单了。

所以，你就会发现，很多客户虽然有了大模型，却只能“供着”。

要想把大模型真正用起来，就离不开MaaS。

MaaS，就是大模型服务平台（Model as a Service），向下对接算、存、网等AI硬件基础设施，向上对接AI应用开发。

MaaS就像AI时代的奶牛，吃的是草（算力），挤出来的是奶（tokens）。

企业要想用好大模型，对这头奶牛要求可不低↓

第一，客户买了这头“奶牛”，希望它在吃相同草料的情况下（算力），能更快更多的产奶（tokens）。

此时，就需要考量TPOT、TTFT、并发、极限吞吐这些推理性能指标。

但实际上，市面上“奶牛”良莠不齐，能力差别很大，很多“产奶”指标都是测试理想值。

第二，客户还希望这头奶牛好饲养，国产草料、进口草料都能吃，还有配套的饲养员、兽医。

比如，有的牛特别挑食，只偏爱某一两种草料（算力），换了草料就不干活。

再比如，牛有头疼脑热或者水土不服（故障、bug或者部署、适配优化问题），客户就希望厂家能提供兽医或者饲养员团队帮忙（原厂优化适配专家）。

第三，客户需要的不止是鲜奶（Tokens），他们的最终目标是把奶变成各种可口的食物（AI应用）。

光有牛还不够，还要有配套的奶制品生产线，也就是AI应用开发和智能体开发平台。

产奶效率高、不挑草料、有资深饲养员和兽医提供服务，还提供配套的奶产品加工生产需求。

一番盘点下来，这样的“超能牛”可不太好找。

嘿嘿，众里寻“牛”千百度，踏破铁鞋无觅处。

蓦然回首，你会发现，中标公告里的KunLun AI Space，原来就是那头“超能牛”。

KunLun AI Space这头“牛”到底有多牛？

第一牛，吃更少的“草料”，却能更快更多“产奶”。

不仅省饲料，产奶效率还奇高，这样的牛谁不爱呢？

凭啥有这种效率？一句话，软硬协同！

KunLun AI Space实现了从“算力卡”到“Token输出”端到端软硬协同优化。

也就是说，从饲料投喂（算力池化调度）、进食阶段（算子加速）、消化阶段（模型适配）、产奶阶段（推理加速），每个环节，都进行了优化。

KunLun为什么要这么干？

只因要想达到最优的“产奶”效率，必须解决四大难题：计算效率、访存效率、存储效率和通信效率。

这四大难题，如同四道“叹息之墙”，很多牛人第一道墙都过不了。

而KunLun AI Space正是通过端到端的软硬协同优化，成功突破了这四道墙，把性能拉满，最终实现最佳推理效率。

具体怎么破，我来给大家讲讲↓

①算子优化：通过算子融合、算子定制开发、软FP4/FP8等手段，提升计算、访存和通信效率。

算子，是深度学习里的“动作单元”，正是依靠一个个算子的高效“动作”，才组合成流畅高效的推理流程，算子级的优化是性能提升的关键。

KunLun AI Space通过算子融合，将多个独立“小算子”融合一个“大算子”，功能等价但性能更优。

好比将多个步骤的动作，合成一个大动作，达到同样目的，但是更省劲。

同时，针对当下大量模型采用FP8甚至FP4的推理精度，而市面上很多算力卡却不支持该精度的问题，KunLun AI Space提供软FP8/FP4方案。

采用该方案，资源门槛下降50%，性能可提升10%（比如跑满血大模型，原来需要32张卡，现在只需要16张）。

②KV Cache优化：通过KV Cache压缩、分级卸载等手段，节省存储和计算开销，并提升长下文处理能力和并发性能。

KV Cache相当于大模型推理里的记忆缓存机制，用于存放之前算过的「注意力特征」。

参考理解一下牛的「反刍」，你就秒懂了，都是已经嚼过（算过）的东西。

具体怎么优化呢？学问很大！

首先，采用KV Cache多级缓存池，相似或重复问题直接从缓存读取，减少重复计算，降低GPU和显存消耗。

同时，通过内存和SSD分级存储，降低缓存成本。

接下来，采用高性能压缩算法和硬件，对KV Cache进行压缩，并提供智能冷热数据分级，把存储成本打下来。

通过这一系列操作，以存促算，多轮对话TTFT降低80%，KV Cache存储空间（显存+内存+SSD）降低一半以上。

③推理调度优化：采用异构PD分离、智能路由等技术提升计算效率，并使用统一存储来平衡PD阶段的资源利用率、延迟，提升吞吐。

现在大家都知道通过PD分离部署来避免资源争抢、提升推理效率，但是面对不同的推理场景、不同算力卡资源，如何优化PD配比，其实很有学问。

KunLun AI Space有自己一套逻辑↓

采用混合/半分离设计，PD计算过程分开，但统一存储，与KV Cache分级缓存相结合，实现跨节点共享数据。

同时利用智能路由策略，灵活分配负载，且P实例可以弹性伸缩，满足突发请求。

通过这番操作，又可以让首Token时延降低45%，吞吐量提升25%。

从算子优化到KV Cache优化再到推理调度优化，KunLun AI Space实现了通信效率、存储效率、访存效率、计算效率的集体提升。

最终这一系列的乘积也把推理效率彻底拉满！

第二牛，这牛胃口好、不挑食，而且配备优秀的“养牛专家”提供服务。

大模型落地到企业场景，遇到五花八门的“草料”（算力）是不可避免的。

此时选KunLun AI Space就太省心了，国产草料、进口草料来者不拒。

不止如此，KunLun还配备了资深“养牛专家”提供服务，他们专治各种水土不服的“牛脾气”。

算、存、网、集群、整体优化，哪里不服治哪里，针对客户特殊场景，还可以做定制化的算子开发，这没点软硬协同的本领可做不到。

第三牛，AI Space不止是MaaS，还包含了应用使能模块。

KunLun AI Space其实包含两大部分↓

第一部分叫做「AI Space Wings」，这个是MaaS（也就是牛），另一部分叫做「AI Space Prime」，属于应用使能模块（相当于奶制品加工厂）。

道理很简单，用大模型做推理，生产再多Tokens也没用，核心是要把他们变成AI应用，就像把鲜奶变成美味奶制品，形成落地闭环。

AI Space Prime提供了MCP、Agent编排/提示词工程/插件管理、RAG等一系列“生产线”，帮助客户把Tokens快速变成生产力工具。

KunLun AI Space的成绩单，和它背后的“养牛人”

目前，KunLun AI Space早已不是实验室里的产品，而是大模型实战中牛气冲天的“小战神”。

1、落地200+项目，覆盖互联网、运营商、金融、政企等头部客户；
2、解决500+大模型生态适配问题；
3、模型推理性能提升50%，token成本大幅下降。

这些成绩意味着：客户花出去的每一分钱，都能换回更高的算力价值。

所以KunLun能拿下篇头那个2000万+的大单，就不足为奇了。

有人问，牛归牛，但KunLun这名字看着挺生的，怕不是个新公司吧？

嘿嘿，这个成立3年的新公司，却有着20年的老道行。

昆仑技术，2022年10月正式成立，核心团队来自原鲲鹏+昇腾体系，是最懂国产算力生态的那拨人…

如今，这些最强“养牛人”，依托通用和AI计算领域的技术积累、实战经验、服务体系，正在刮起一波大模型时代的“牛旋风”！

千万级大模型项目，惊现“奇怪”采购

什么是MaaS，为啥MaaS能卖这么贵？

KunLun AI Space这头“牛”到底有多牛？

KunLun AI Space的成绩单，和它背后的“养牛人”

热搜

热门跟贴

什么是MaaS，为啥MaaS能卖这么贵？

KunLun AI Space这头“牛”到底有多牛？

KunLun AI Space的成绩单，和它背后的“养牛人”

热搜

热门跟贴

相关推荐

天下苦CUDA久矣，又一国产方案上桌了

ColaVLA：自动驾驶大模型，不一定非要把「思考过程」写成文字

36年卷积猜想被解决，华人唯一作者，AI或受益

奥特曼预言与现实相差几何？12个顶级模型“创业”一年，仅3个存活

全球权威大模型盲测榜单公布 阿里千问3.6登顶中国最强编程模型

你刷到的视频是真的么？用物理规律拆穿Sora谎言

大模型的下半场，属于拥有云+AI全栈引擎的玩家

一夜变天，Anthropic正式封杀OpenClaw！全球开发者24小时血崩

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

豆包日均120万亿Tokens放量增长，Seedance 2.0企业公测落地，火山引擎打响MaaS“卡位战”

百万OpenClaw哭喊「自由」？微软AI CEO直戳幻觉：小心数据镜像陷阱

末日时间表提前了！OpenAI前研究员硬核推演：AI拐点逼近，人类成NPC

15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案

科学家研发大模型新框架，助力解决RISC-V软件生态瓶颈

广州生活成本合理 实测300元买齐半周肉菜

让LLM不再话痨，快手HiPO框架来了

当你只是买了一盒药，大数据却判你驾照被注销

清明前夕发现姥爷坟头被平，民政局：确实没有通知到家属，正在协商解决方案

斗地主：三炸全响！6666炸空城计极限骗炸，王炸楚霸王单刀赴宴！

身体都变形了！王楚钦上演极限救球！王皓拳头攥紧，疯狂指头

全球权威大模型盲测榜单公布阿里千问3.6登顶中国最强编程模型

广州生活成本合理实测300元买齐半周肉菜