打开网易新闻 查看精彩图片

AI行业正在经历一场静默的转向——从"谁家的模型参数更大"变成"谁能用更少的电、更便宜的卡,吐出更多Token"。

郑纬民院士把2026年称为"Token爆发元年"。智能体、AI Coding这些应用一旦跑起来,Token消耗量不是翻倍,是百倍千倍地跳。问题是:用户端单日成本能飙到千元,供给端却在亏钱运营,大量智算资源躺在机房里睡大觉。

趋境科技在中关村论坛发布的ATaaS平台,瞄准的就是这个结构性尴尬。它不想让你再买更多卡,而是让已有的卡别那么闲。

打开网易新闻 查看精彩图片

平台的核心逻辑可以拆成三块:全系统异构协同、"以存换算"、面向SLO的智能调度。翻译成大白话——别让GPU一个人扛所有活,CPU、内存、SSD都得动起来;把算过的结果存好,下次直接调用,别重复造轮子;用户的业务需求能精准翻译成底层资源怎么分配。

具体落地时,趋境掏出了四张技术牌。"六合"异构推理2.0让CPU和GPU、国产和非国产算力混搭干活,万卡集群运营成本能压降20%以上。"月饼"以存换算2.0把KV Cache缓存空间扩到百倍千倍,缓存命中率最高90%,直接砍掉90%的GPU算力开销。"双仪"做算力资源的预规划和动态调优,"万象"则负责万亿参数模型7秒极速拉起、数百节点弹性调度。

生态层面的动作同样关键。华为昇腾那边,部分项目性能提升2倍以上;并行科技把特定场景集群性能抬升50%,服务智谱、Kimi、MiniMax、DeepSeek这些头部客户;京东云也联手推推理引擎,共建Mooncake开源生态。

打开网易新闻 查看精彩图片

九源联合体提了一个尖锐观察:国产卡现在缺的不是性能,是"生态驱动"。换句话说,硬件造出来没人用、不会用、不好用,才是真的卡脖子。

趋境ATaaS的落地,某种程度上是在回答这个问题——AI基础设施的竞争力,正从"数据中心"转向"Token工厂"。不是比谁的机房更气派,而是比谁能把每度电、每张卡,稳定地转化为可衡量的Token产出。

一位参与内测的集群运营负责人反馈,过去万卡集群的综合利用率"能到20%就不错了",现在终于敢往50%以上看了。