来源:市场资讯
(来源:invest wallstreet)
一、AI 训练数据增速进入历史性加速
1950–2010 年:训练数据增速约 1.3x/年
2010–2025 年:提速至 2.5x/年(OurWorldInData / Epoch 2025)
GPT-4 是这条加速曲线上的最新里程碑标志物
Bolt 用这条曲线为后文铺垫一个核心结论:AI 对存储的需求不是线性增长,而是指数级跃迁。
二、数据中心 NAND bit 需求进入「AI 推理主导」时代
引用 TechInsights NAND Market Report Q1 2026:
2025–2031 年总量 CAGR 34%
AI Inference CAGR 高达 56%
AI Training CAGR 仅 11%
Traditional CAGR 14%
绝对量:2025 年 286EB → 2031 年 1,686EB,近 6 倍。
三、AI 对 SSD 设计提出 4 个差异化方向
这是全场最重要的产品路线地图。
Super High IOPS(GP Series)
对接 NVIDIA Storage-Next 生态
PCIe Gen6~、XL-FLASH、512B access
目标 ~200M IOPS/GPU
High Performance High Capacity(CM Series)
面向 KV Cache-Reuse
PCIe Gen5~、High OP TLC
High Capacity(LC Series)
Ingestion / RAG 场景
QLC,122TB / 245TB+
HDD Replacement(Under Planning)
归档场景
低成本 QLC,256TB+
打开网易新闻 查看精彩图片
四、NVIDIA Storage-Next™:新的生态绑定信号
GPU-initiated I/O,软件栈:NVIDIA SCADA™
NVMe / PCIe,512 byte 细粒度 I/O
目标 ~200M IOPS/GPU
解决 HBM 容量限制与高成本,允许 10x–100x 更大的数据集
KIOXIA :「KIOXIA develops SSDs that comply with NVIDIA Storage-Next」——正在与 NVIDIA 联合开发 GP Series。
五、NVIDIA ICMS:另一条 KV Cache 专用赛道
ICMS = Inference Context Memory Storage Platform。
基于 NVIDIA BlueField-4 平台(2026 年 1 月 5 日 NVIDIA 新闻稿)
PCIe Gen5 / Gen6 TLC NVMe SSD
KIOXIA 表态:「Kioxia is working with NVIDIA to clarify the requirements」
NVIDIA 公告的合作存储厂商阵营:AIC、Cloudian、DDN、Dell Technologies、HPE、Hitachi Vantara、IBM、Nutanix、Pure Storage、Supermicro、VAST Data、WEKA——将于 2026 年下半年面向市场。
六、GP Series 路线图:关键产品代号与时间表
2026(今天)
Super High IOPS Emulator
XL-FLASH Gen2、PCIe 6.0
- 10M IOPS @ <25W
评估样品 2026 年底前
2027
- ~100M IOPS
XL-FLASH Gen3、PCIe 7.0
Emulator 测试阶段进展
- Phase 1(Aug 2025)
:在 GH200 单实例上生成 140M IOPS
- Phase 2(Sept 2025)
:加入合成延迟
- Phase 3
:运行在 SCADA 上(需 GH/GB 系统,X86 无法达到 100M IOPS)
七、PCIe Gen6 → Gen7/8 的物理层拐点
KIOXIA 内部估算:PCIe 带宽提升带来「Electrical to Optical」传输的潜在通胀点(inflation point)。
- PCIe 8.0(256 GT/s)时电气互联距离将收缩至机箱内(intra-chassis)
- 跨机架或许依赖光互联
这是 KIOXIA 在 optical interconnects 方向的战略预判,也是极少见的供应商主动否定其当前产品形态的信号。
八、ECC Layout 重设计
传统 TLC 的 ECC 物理约束
传统 TLC NAND 的 ECC 设计绑定在 4KB IU(Internal Unit)
每个 IU 里 LDPC 码字绑定到 4KB page boundary
原因:TLC 每 cell 存 3 bits,cell-to-cell 扰动只能在 4KB 尺度内统计控制
因此 512B 随机读必须先读整 4KB page,然后 controller 裁剪——这是传统 SSD 无法高效服务 512B I/O 的根本物理原因
XL-FLASH(SLC-adjacent)的核心变化
每 cell 1 bit(SLC):cell-to-cell 干扰极低
ECC overhead 从 TLC 的 ~20% 降至 SLC 的 ~3–5%
- 「Not necessarily tied to IU size」(p.9)
:Bolt 的关键工程表述——XL-FLASH 可以将 ECC 码字与 IU 解耦,允许 512B 粒度的精确读取,无需 read-modify 4KB
Page size 差异
传统 TLC page = 16–64KB(多 plane 并行)
XL-FLASH 有效访问粒度下降至 512B
但底层 NAND cell 仍以 wordline 为单位读取(~16KB),controller 在 DRAM buffer 内完成裁剪
含义:IOPS throughput 可以极高(并行流水线),但单次读延迟仍在 25–45μs 范围(NAND 物理限制)
九、KV Cache 何时该用 NAND 而非 DRAM?(DELL 分享)
本次 SNIA Dell 也分享了相关 benchmark,结果可以反推临界点。
Benchmark 设置(p.10)
80 并发用户 × 1000 tokens 共享系统 prompt
每用户 4000 tokens 独立会话历史
系统 prompt 共享率高
命中率与收益
1000 tokens 系统 prompt 对 80 用户完全共享
prefix cache 命中率:80×1000 / (80×5000) = 20% by tokens
这 20% 的命中已经贡献了 5.3× TPS 提升
临界点判断
当 prefix 共享率超过 15–25%(多轮对话、RAG 场景),SSD offload 开始有正收益
当共享率超过 50%(长系统 prompt、企业代码助手),SSD 可以完全承接 G3 层,DRAM 的边际价值下降
十、Dell Tier 设计:各层工程参数拆解(DELL分享)
当前架构(KVBM & LMCache)
G1:GPU HBM → G2:Host Memory → G3 / G4:Local SSD / Network Attached Storage(File or Object)
未来架构(Future)
G1 → G2 → G3 / G3.5(Local SSD / CMX) → G4(NAS File or Object)
CXL 在 G3.5 层的引入,是这张五层金字塔向前的关键演进。
十一、AI 推理 65% 增速假设下的供需推演 by Opus
让 Opus 跑了一遍:如果 AI 推理需求增速维持在 65%,需求曲线如下。
年份
AI Inference (EB)
AI Training (EB)
Traditional (EB)
总需求 (EB)
YoY
2025
86
43
157
286
2026e
134
48
179
361
+26%
2027e
209
53
204
466
+29%
2028e
326
59
233
618
+33%
2029e
509
66
266
840
+36%
2031
1,251
81
354
1,686
但这个估计没有考虑传统压缩——下面重新审视。
十二、供给曲线:
NAND 行业近年 bit growth 受三重约束:
厂商 capex 纪律:MU 新加坡 $24bn 但 2028H2 才投产
- HBM / DDR5 挤出 NAND wafer starts
Kioxia / Samsung / SNDK / SK Hynix / MU 新产能集中在 2027–2028 释放
年份
Bit Supply YoY
主要驱动
2026e
+12–14%
消费→企业 wafer 切换、现有产线 node 升级(Samsung 西安 V8/V9、SNDK BiCS8 成熟)
2027e
+14–17%
Kioxia Kitakami 扩产 partial、SK Hynix M15X 部分转 NAND;MU 新加坡仍未投产
2028e
+20–23%
MU 新加坡 2028H2 首批投产 + Samsung / Kioxia 满速
2029e
+24–27%
MU 新加坡满产 + Kioxia 新线 + SNDK 扩产接力
十三、传统需求受 5.7× SSD 价格冲击:终端弹性修正
Bucket
错误估计
真实修正
依据
Mobile
-7 至 -10%
-5 至 -8%
IDC 手机 -12.9% × 容量 +4.8% = 净 -8.7%,premium 机型加容量补偿
Client SSD
-10 至 -14%
-8 至 -12%
IDC PC -11.3% × OEM 降容量部分抵消
Enterprise 非 AI
-5 至 -10%
-3 至 -7%
KIOXIA SSD & Storage +7.8% YoY 提示需求仍有韧性
Consumer(microSD/U盘)
-30 至 -50%
-10 至 -20%
SNDK Q1 consumer +11% QoQ(价格转嫁成功)/ KIOXIA「cools」非「crash」
Gaming / 其它
-8 至 -12%
-5 至 -10%
AI Enterprise SSD
+55–60%
维持
加权汇总
Bucket
2025 权重
2026 变化
贡献
Mobile
32%
× -7%
-2.2 pp
Client SSD
22%
× -10%
-2.2 pp
Ent 非 AI
12%
× -5%
-0.6 pp
Consumer
8%
× -15%
-1.2 pp
Gaming
8%
× -8%
-0.6 pp
传统合计
82%
-6.8 pp
AI SSD
18%
× +57%
+10.3 pp
总 NAND bits 2026 YoY
+3.5%
相比 KIOXIA 的 +17% bit growth,多出来的 13–14pct 主要在 CSP 补库存,为 memory platform 出货做准备。
十四、保守假设下的 2027 弹性推演
Bucket
价格弹性(ε)
bits 需求变化逻辑
2027 vs 2026 bits 压缩幅度
Mobile
-0.15 ~ -0.25
旗舰继续暂缓容量升级(iPhone 17 Pro 512GB 起 ≠ 升级到 1TB);安卓中低端降配
-6 至 -10%
Client SSD
-0.30 ~ -0.50
OEM 降容(512GB → 256GB)+ PC 出货小幅下滑;历史 2017 客户端 bits 实际 -3-5%
-12 至 -20%
Enterprise 非 AI
-0.20 ~ -0.35
升级周期延后、传统存储阵列刷新推迟;
-8 至 -14%
Consumer
-0.60 ~ -1.00
最敏感;U 盘 / SD 卡直接砍出货量;历史短缺期 -15-25%
-40%
Gaming / 其它
-0.40 ~ -0.60
主机容量规格下调、汽车电子延迟采购
-16 至 -24%
AI Enterprise SSD
+0.0(刚性)
刚性需求、NVIDIA qual 强制
+56% YoY(原基准)
十五、总需求缺口节奏(保守假设)
时间
保守假设:真实缺口
状态
2026Q1
-5 至 -8%
极度紧张(库存补货放大)
2026Q2
-3 至 -5%
紧张
2026Q3
-2 至 -4%
库存补货
2026Q4
-1 至 -3%
紧平衡
2027Q1
-1至 -2%
紧平衡
2027Q1 wafer 累计 vs 2026Q2 三档情景
情景
2027Q1 vs 2026Q2
前提
悲观
1.35–1.45×
传统需求回升 / 供给超预期
保守
1.60–1.75×
传统小幅回暖 + AI 维持 +55–60%
激进
2.10–2.40×
AI 超预期 + 供给纪律维持
十六、未来弹性如果不会每年 6×:四条理由
Hyperscaler 已经签了多年战略锁量协议,边际新需求减少
注意力/ MoE / Agentic 架构的 KV 压缩技术
会吃掉部分 bit 需求(Bolt 数字是总量,未含压缩对冲)
- CXL G3.5 层在 2027 成熟后
,部分 KV 可能回到 DRAM 而非吃更多 NAND
- QLC / TLC 弹性不对等
——QLC $/GB 更低,吸收部分价格压力
价格弹性在 2026–2027 再翻 1.8–2.5×,然后在 2028–2030 进入「高位横盘 + 缓慢下行」的新常态。
十七、悬念:Bolt 是不是纯拍脑袋?
MoE / Agentic / 注意力机制会压缩多少需求? 这是 Bolt,乃至 Pichai(他认为存储可以大幅优化)都无法判断的。
十八、KIOXIA GP 什么时候长协?
KIOXIA GP Series 评估样品 2026 Q4 → 客户签约 → 长期供货协议
理论上复制 SNDK「锁 bits」逻辑
区别:SNDK 的 NBM 是 2026 已宣布的在手合同;KIOXIA 的 GP Series 2026 Q4 刚出评估样品,2027 才有机会签长协——时间差 1–2 年。
热门跟贴