打开网易新闻 查看精彩图片

2024年全球企业在AI基础设施上的支出同比暴涨47%,但一个尴尬的事实是:超过60%的算力在空转。Tintri高级副总裁Phil Trickovic在KubeCon EU上甩出一组数据——他们的自适应分层技术让客户在同等性能下减少了近一半的存储开销。这不是魔法,是把2011年的老技术重新做了一遍。

当年分层只会在SSD和机械盘之间搬数据,现在是在NVMe和SSD之间做动态调度。AI训练产生的海量中间数据不再需要全塞到最贵的存储介质里,系统自己知道该把什么留在高速层、什么踢去冷存储。

Trickovic打了个比方:传统的分层存储管理(HSM)就像公寓楼里每户各自装电表,但没人管整栋楼的变压器负荷。"HSM的问题在于,它根本不知道隔壁'X'工作负载在吃什么资源。"Tintri从第一天就盯上了这个盲区——他们的"特殊酱料"是让每个工作负载的资源伸缩都不打扰邻居。

这套逻辑在x86环境里尤其值钱。Trickovic见过太多企业按"我觉得我需要"来规划基础设施,结果要么堆出一堆闲置容量,要么在业务高峰时集体抓瞎。Tintri的做法是分析工作负载实际在干什么、保留历史轨迹、预测未来需求。输入"我想让业务增长7%"或者"工作负载农场扩2%",回车——系统会吐出网络、计算、存储各自需要补多少。

从"搬家"到"调度":分层的两次进化

从"搬家"到"调度":分层的两次进化

打开网易新闻 查看精彩图片

2011年Tintri刚出道时,存储分层还是个体力劳动。管理员得手动设定策略:热数据上SSD,冷数据下机械盘。那时候AI还没成为基础设施的吞金兽,企业对付的是虚拟机 sprawl(蔓延)——一台物理机上疯长的虚拟机实例。

现在的局面完全不同。大模型训练会产生大量检查点(checkpoint)数据,这些文件体积庞大、访问模式诡异:刚写入时被频繁读取,几小时后可能再无人问津,但万一训练崩溃又得秒级恢复。传统的"热-温-冷"三级模型在这种波动面前形同虚设。

Tintri的新功能把分层粒度做到NVMe和SSD之间。这意味着工作负载不必被"降级"到机械盘,而是在两种固态介质之间动态漂流。Trickovic强调,这对AI场景至关重要:"这些系统生成的数据量被严重低估。我们确保你用于额外训练的数据集,始终停留在成本效益最优的介质上。"

Platform9合作:HCI的"预组装"逻辑

Platform9合作:HCI的"预组装"逻辑

过去18个月,Tintri和Platform9 Systems绑在一起搞集成栈。目标是把超融合基础设施(HCI)以更省事的方式推向市场。Trickovic透露,这套方案同时覆盖英特尔和AMD的芯片组," bolted, validated, certified and supported by both companies"——两家公司的认证和支持全包。

打开网易新闻 查看精彩图片

这种"预组装"策略瞄准的是中型企业的痛点:他们想要云原生架构的灵活性,却没有足够的人手去从零搭建Kubernetes集群、调优存储性能、排查网络瓶颈。Tintri+Platform9的组合试图把这套复杂度封装成可交付的成品。

Trickovic没有透露具体客户数字,但提到一个典型场景:某客户的AI推理集群在白天满负荷运转,夜间几乎闲置。自适应分层让存储资源跟随计算负载自动收缩,而不是像传统架构那样24小时占着最高配。

成本危机背后的结构性矛盾

成本危机背后的结构性矛盾

AI驱动的成本危机有个反直觉的特征:问题不是总成本太高,而是成本结构失控。企业为峰值容量付费,却只在极少数时刻用到峰值。公有云的按需模式看似解药,但数据 egress(出站流量)费用和长期存储溢价又让账单失控。

自适应分层的本质是把"按需"从计算层下沉到存储层。Trickovic的预测功能试图回答一个更前置的问题:不是"我现在需要什么",而是"我未来三个月的容量曲线长什么样"。

这套方法论和云厂商的自动伸缩(auto-scaling)有微妙区别。云厂商的粒度通常是实例级别,而Tintri的操作对象是每个工作负载的I/O模式。换句话说,同一台物理机上的两个容器可以获得完全不同的存储QoS(服务质量)策略。

Trickovic在采访末尾抛出一个观察:很多企业还没意识到,AI训练数据的存储成本正在超过算力成本。"他们把预算全砸在GPU上,结果发现喂数据的速度跟不上,或者喂完的数据没地方存。"