打开网易新闻 查看精彩图片

原创:亲爱的数据

AI模型大厂,其要者OpenAI,Anthropic,

余如谷歌,AWS,微软,Meta,亦并包其中。

北美共识,群雄争霸,

得大批量GB200者,基业可成。

但AI泡沫之说,甚嚣尘上。

假如近日新到货一批英伟达GB200,

账单10亿美元,

傍晚运抵到货,摆放在新落成的数据中心里,

还没上电,万事大吉乎?

只是一个开始,

账单还远没有结束,

添置资源,还要花钱。

谭老师我数学不好,

数学题不会就是不会,

几笔大头开销,姑且算算,

若有谬误,伏望赐教,

服务器和存储,

算你50%;

网络,

算你10%;

电力,冷却、数据中心等,

算你20%;

运维和人力成本,

算你10%;

配套系统软件,

算你10%;

掐指一算,跑起来,

综合成本大约30亿左右。

现金哗啦啦流出现金流量表,

这份账单,还不是一次性的。

不过,也有人说,卡买到就是赚到。

把GPU买回去,即使当时没用上,

转手租出去,立刻就赚钱。

甚至有的企业,以租代买,本质就是买了,

只是财务计账方式不同。

花钱还是赚钱,

我认为,光看近期的财报没用,

大赛道的回报肯定不在当下。

最近阿里说:未来三年内,

不太可能出现人工智能泡沫。

完全同意。

在我看来,AI的生意越来越像:

超级巨轮在大海里捕鲸。

传统的大云厂商在规模和基础设施上,

具有压倒性优势。

买到卡,生死攸关;

用好卡,关乎存亡。

打开网易新闻 查看精彩图片

今天我们重点来聊聊,

卡到手了,怎么用好?

因为省下的,约等于赚到的。

谭老师和某位AI infra匿名专家聊完,

得知头部厂商对软件团队——“重新分工”,

对,没听错,重新分工。

这种像“组织升级”的东西,

是《甄嬛传》,还是《九子夺嫡》?

好问题,都不是。

我长话短说,不过说来话长。

AI软件栈上面,其实是兵分两路的,

两个部门,也是两个兵种:算法组,系统组,

各有专攻,高度分离。

打开网易新闻 查看精彩图片

既然重新分工,

有三个问题要先聊透?

1.原来如何分工?

2.为什么要重新分工?

3. 如何重新分工?

以前,两个组的关系,

就像“两个独立的部门”。

算法组,追求创新,追求准确性,

常常只停留在理论创新或数学层面;

通常不太考虑算法如何在AI芯片上高效跑起来,

这件事是系统组的职责。

但是,系统组接手的时候,

局面已相当被动了。

这种被动,一时半会不会结束。

随着模型日益变大,

旧打法不变恐怕不行,

因为这种“分而治之”的模式,

已经逐渐变得非常低效。

简单说,算法组设计算法,

系统组负责,支持支持,大力支持。

无论你是写算子,还是优化算子

AI大模型软件栈,越往下做,它的复杂性越高,

想做好,付出代价越大。

整个大模型的系统想提效10%,

恐怕要几十个人,干个把月,

面对这种被动,必须拿出办法解决。

常言道,出奇制胜。

既然一直以来,

算法和系统“高度分离”

能不能让它们“天然打通”?

能,就是得变。

人很难脱离自身的岗位视角去做全局判断,

这就是“屁股决定脑袋”的现实逻辑。

所以,重新分工。

算法的核心——创新,当然还是在算法组。

从这个角度,系统组将会主导哪些关键决策?

模型的大结构包括,规模、层数等,

比如,MoE的层数,头数等。

一般来说,模型结构里,

会重复堆叠了多个“基础功能模块”,

这件事情能不能交给系统组?

让系统组负责部分“模型结构”,

算法设计就会从一开始就有了硬件执行性,

或者说算法设计贴近AI芯片实现。

打开网易新闻 查看精彩图片

算法核心方法创新,当然还是在算法组。

把工作划分给系统组的原则是什么?

那些十分影响算力利用率,

影响计算负载的分配,

又会涉及并行计算的部分。

因为这些设计工作,

需要深入理解硬件架构的计算特性。

打开网易新闻 查看精彩图片

重新分工聊完了,

我拿到头部大厂内部消息,

这种思路已经在内部推广,

推测一下,有哪几个厂商可以这样做。

全栈一体化自然不用说,

比如,谷歌和TPU,

AWS和Trainium,

阿里云和其自研芯片。

顺着这个思路,恰好最近Gartner出了

GenAI(生成式AI)技术创新指南系列,

第八期报告,

和我的想法对照一下思路;

在AI基础设施这个维度,领导者象限里,

除了以上自研芯片的厂家都在,还有一个微软,

微软虽然没有自研AI芯片,但它有OpenAI。

打开网易新闻 查看精彩图片

从位列其他象限的公司来看,

这个玩法,华为也有AI芯片,也可复制,

但他们在AI云业务上稍逊一筹。

而腾讯,甲骨文,IBM也多用英伟达GPU,

所以,它们想进入领导者象限,仍有难度。

全栈一体化打法已是公认,

据我所知,国内有家上市互联网厂商,

暗地里也在用全栈一体化的打法。

这家的创始人,

是清华系互联网老兵,

他们用了不少华为昇腾系列(Ascend)芯片。

这家在模型算法的投入已经够大了,

仍然毫不犹豫在系统组投大量人力,

加人干什么呢?开发昇腾算子。

到底买了多少华为的卡?我不能说;

我能说的是,他们决心很大。

无论重新分工,还是国产芯片(算子)投入,

英雄不问来路,为了同一个目标:

将算法和系统打通,最大化芯片效率。

而想位列Gartner,既要有相当规模的卡,

还要上面模型好,

再要下面系统组实力强,

三者缺一不可,

这个维度的竞争,有些强者恒强的味道,

领先好几个身位,

有意思的是,有能力的新兴挑战者象限,

居然空空如也,为啥?

因为候选人都还停留在专家象限,

意思是当前能力弱+未来潜力弱,

这一象限有那些不缺卡的大厂商(富二代),

卡多,但模型上不发力,

比如,英伟达的亲儿子CoreWeave。

不过,我不同意Gartner报告,

对Cloudflare的判断 ,

它在AI Agent工具领域举措颇大,

吸引大批开发者,

很多工具的进展,

甚至比AWS的速度还要快。

打开网易新闻 查看精彩图片

干AI这行的,

谁还没被算力账单虐过?

“重新分工”才能把卡利用好;

才能在模型本身和工程两方面,

对算法和系统分而治之的厂商,

形成降维打击。

上一节是“分工”的理论,

这一节,我们用GPU例子,聊聊实践。

有一个算子(叫Attention Mask)。

这个算子的本质是“注意力计算的范围控制器”,

它的思路很松弛,对待token,

“该算的算,不该算的扔”,

这样计算量就不再是“全量计算”,

而是再让芯片特性和“扔掉后”的计算逻辑“对齐”。

怎么对齐?扔掉后,重新打包,

成为适合并行计算的方式,再给GPU处理。

打开网易新闻 查看精彩图片

这件事情先由算法组决定:

“为什么要扔掉?”,“扔掉哪些?”“扔掉后要达到什么效果?”,

下面,再由系统组负责:扔掉一部分token后,

计算逻辑怎么在AI芯片上跑最快?

这样,芯片不会算了不该算的,浪费时间。

为什么我举了一个“注意力”的例子?

有专家告诉我,他判断,

2026年将会是“注意力”的大年,

我完全同意。比如,线性注意力,

今年收获了不少好论文(阿里,字节跳动),

好实践(MiniMax-01);

国内唯一!阿里千问斩获NeurIPS 2025最佳论文奖

我也认为,“注意力”明年会有大变化。

但是,无论怎么变化,

“注意力”的发展方向都是:

降低计算复杂度,降显存。

打开网易新闻 查看精彩图片

阿里云人工智能平台PAI,大数据平台DataWorks负责人,黄博远告诉我:“AI的开发范式升级,从稳定、超大规模的预训练开始,到基于后训练的行业快速定制,快速落地;AI开发门槛会大大降低,推广也会加速,促进行业应用增长,这样形成的AI生态是:上游是通用模型生产者与平台方(如阿里),中游是用垂直行业知识优化模型。下游是最终AI应用的使用者,也就最广大的用户群体。”

“重新分工”这种“打通”的方式,有利于模型丰富度,有利于工程化,有助于AI平台进化,因为AI平台需应对不同的算法和不同的场景,面对的挑战不仅是模型架构的复杂性,还包括硬件支持的多样性。

AI工程,可以分得很细,

这样,大量创业公司就有机会专注细分领域,

从而做出独特优势,

虽然这方面大云厂商的工程化成熟度都高。

但是,市场上挑战者也多,

玩得好,甚至可以做大,挤进领导者象限。

常有创新公司公司在领导者象限出现,令人兴奋;

也是AI这行的魅力之所在。

尤其是当下,工程化价值较高的时期。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

模型变化剧烈,再强的巨头也不敢妄论输赢,甚至不敢判读当下的认知完全正确。今年的变化,很容易发现,不少厂商的模型沦为长尾,消失在旗舰模型的方阵里,略感悲凉。

年末,冬已向晚,时间迈入2025年最后一个月,今年优秀旗舰模型层出不穷:GLM4.6,MiniMax M2,Kimi K2。而美国Meta公司的Llama系列开源模型,

却从C位快速滑向边缘。

打开网易新闻 查看精彩图片

我曾经在硅谷见到过Llama3的高级研发,也和Llama3产品经理有过简单交流,回想当时,讲台上,没有聚光灯刻意雕琢,他们身上也闪烁着技术普惠者独有的光……那时候,硅谷有位研发和我聊起来:

“你知道嘛?阿里的千问就是中国版的Llama,

一模一样的开源策略。”

此论彼时颇有见地,如今则不合时宜。

Llama后续版本接连失利,

而千问系列,越打越强,

阿里优质模型不胜枚举,

Qwen3-VL是图文理解模型,

通义万相2.5是视频生成模型,

Qwen3-Omni是全模态模型

没有人再会说,这是中文版的Llama。

DeepSeek也依旧精彩,

最近的多个版本都有惊喜。

Qwen和DeepSeek,

直接承包了中文模型下载量的绝对大头。

而且只要有更新,

B端客户紧随其后,版版不落。

某能源央企内部员工告诉我,

基础模型有三个模型一定会部署,

两大开源头部模型和垂直模型(能源)。

原话是:“又不要钱,

为啥不马上用最新的开源版本”,

可见,除了开源,

“AI能力+垂直场景”的特色模型厂商也很受欢迎,

因此,在Gartner报告,
“GenAI模型提供者维度”,
领导者象限亮眼的有三家:
Writer(企业级+写作素材),
Cohere(企业级+合规安全),
UiPath(RPA+AI知识自动化平台)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

“模型”周边也是不烧卡的玩法,

AI知识管理刚好用上。

知识管理这件事,

最适合的梗就是,谁考完试还看书?

答案是企业。

因为只要企业的业务还在经营,

知识积累就在持续。

过去几年,

AI的重点都在“模型本身”,

2025年“模型周边”兴起。

换句话说,除了模型本身还强大不够,

还要在周边搭脚手架,

比如,重要组件——AI搜索(引擎)。

模型周边脚手架也是能够提高模型能力,

但能节省算力的解决方案。

搜索引擎一定要从头做起吗?

答案是肯定的,

需要时间和技术积累,

而且难度高,投入大。

打开网易新闻 查看精彩图片

而且轻量化的搜索,

不让用户获取到最精准的帮助,

如果是垂直大模型(能源,物流,电力),

还需要和整套搜索系统架构同时做起来,

消耗极大,难上加难。

以上是AI搜索。

而AI知识管理,据我了解,

现在很多坐拥多元化战略的大型企业,

建设知识管理,

会建设一个语义搜索和RAG的基础平台,

这是整个AI生态系统的根基,

也就是“第一层楼”

“第一层楼”的目标是,

为知识融合和智能应用提供支持。

而第二层楼是数据和知识互联互通,

又是难打之战,后面其实还有很多层楼,

就不展开讨论了,

在这个赛道,大家几乎还在投入阶段;

打开网易新闻 查看精彩图片

Istari企业智能创始人杨荟博士告诉我;

“第一,AI知识管理摸索过程中,

会遇到很多纯模型厂商难以预料的现实问题。

我相信,哪怕是OpenAI和谷歌手里,

也不会有答案。

企业内部的很多知识来源于,

对私有数据中信息的提炼,

怎么样把数据平台和知识平台打通,

现在没有成熟方案,

大部分有数据管理能力的公司,

都声称有建设能力。

第二,这个赛道有好几种玩家,

有做大模型的进来,

有传统文档和项目管理的进来,

还有知识图谱和数据库的公司进来。”

这在Gartner的第四份报告中也有体现,

下象限,H2O是个老牌数据分析公司,

Asana公司的软件是做项目管理和项目协作,

也是老牌,其软件有团队文档管理的功能;

Stardog公司主要产品是企业知识图谱。

特别值得注意的是,

一些老牌企业,经过多年运营,

坐拥大量企业知识,

技术文档,供应链数据等;

投入AI知识管理,

比模型公司更容易做出成绩。

所以,在领导者象限,

除了大云厂商熟悉的身影,

如擅长向量检索+实时查询厂商Ealstic,

也有IBM这种老牌科技企业,

供应链长,多年全球化经营,

且在大规模IT基础设施,

企业级服务方面都有优势。

右下象限为什么空缺?

因为知识管理领域的首要目标客户是企业,

企业绝不接受画饼。

不接受“当前能力弱+未来潜力高”的厂商,

俗称:“饼太硬,吃不了。”

也就是说,厂商要有绝对实力,

且是当下就有。

打开网易新闻 查看精彩图片

我总结一下,

在“AI知识管理应用/通用生产力”维度,

Gartner报告的评测范围覆盖很广

包括企业级 AI 搜索、对话式 AI 平台,

以及用于沟通和内容开发的生产力工具,

这些应用当下对“工程”能力较为依赖,

所以和前面工程维度的挑战者象限,

有不少重合厂商,

而且是大数据时代就很优秀的厂商。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片