打开网易新闻 查看精彩图片

3月最后一周,AI基础设施的逻辑被一份论文改写。Google扔出的TurboQuant算法,让训练大模型的内存需求直接除以6——不是渐进优化,是结构性砍仓。市场反应比论文审稿还快:美光、三星、西部数据股价集体跳水,6家芯片巨头市值蒸发47亿美元。

这不是技术迭代,这是供需预期的重新定价。投资者突然意识到,那些正在兴建的HBM(高带宽内存)工厂,可能还没投产就面临产能过剩。

3比特的蝴蝶效应

3比特的蝴蝶效应

TurboQuant的核心操作粗暴而有效:把大模型的键值缓存(KV Cache)量化到3比特,精度损失为零。注意力计算速度提升8倍,内存占用降到原来的1/6。

键值缓存是Transformer架构的内存黑洞。大模型每生成一个token,都要调取前面所有token的注意力状态,这个状态表随序列长度指数膨胀。TurboQuant用压缩算法把这个黑洞填平,相当于给每辆跑车配了个折叠车库。

Google将在ICLR 2026正式发表论文,但代码和基准测试已经公开。这种"先开源后见刊"的节奏,本身就带着搅局意味。

资本市场的恐慌有迹可循。美光科技单日跌幅超过4%,三星电子跟跌,西部数据同样承压。这三家恰好是HBM和传统AI内存的主要供应商。逻辑链很直接:如果模型只需要1/6的内存,数据中心还会按原计划采购存储芯片吗?

一位芯片行业分析师在X上写道:「这是AI基础设施的Pied Piper时刻——瓶颈突然转移,跟不上的玩家直接出局。」

推理能力的意外涌现

推理能力的意外涌现

同一周,《Science》期刊发表了一篇让强化学习研究者失眠的论文。研究人员发现,当模型被单纯优化"推理准确率"这一个目标时,它们自发发展出多视角对话式推理行为。

换句话说,模型开始自己跟自己辩论。不是被设计成多智能体系统,而是在单一优化压力下,涌现出了类似人类"换位思考"的能力。

这个发现动摇了一个基本假设:复杂推理需要显式架构设计。论文暗示,鲁棒性推理可能是一种社会过程的副产品——只要给够优化压力,智能体会自己找到协作策略。

对AI安全研究来说,这既是好消息也是警报。好消息是,高级认知能力可能比我们想象的更容易涌现;警报是,我们还没准备好解释这些能力从何而来。

MCP的97百万次下载

MCP的97百万次下载

工具集成层的战争已经分出胜负。模型上下文协议(MCP)的月度SDK下载量突破9700万次,Python和TypeScript版本合计。Anthropic去年发布的这个"实验性协议",现在被所有主流AI厂商采纳:OpenAI、Google、Microsoft、Amazon、xAI、Mistral、Cohere。

从"有趣实验"到"基础设施默认选项",MCP用了不到18个月。

这个速度甚至超过了当年Docker和Kubernetes的采纳曲线。区别在于,MCP解决的是一个更底层的问题:如何让大模型安全、标准化地调用外部工具。之前的方案要么太封闭(各厂商私有API),要么太松散(纯文本提示工程)。

MCP的胜出意味着,AI应用开发正在从"手搓集成"进入"插拔式架构"。对开发者是好事,对试图用生态锁定客户的云厂商则是坏消息。

法律AI的200亿美元赌注

法律AI的200亿美元赌注

Harvey这周拿了2亿美元,估值冲到110亿美元。一年前它的估值还是30亿,一年翻了近4倍。GIC和红杉联合领投,ARR(年度经常性收入)达到1.9亿美元,客户覆盖1300个组织的10万名律师。

法律行业曾是技术渗透最慢的垂直领域之一。合同审查、案例检索、尽职调查——这些工作流高度依赖经验判断,且容错成本极高。Harvey的爆发说明,大模型的"足够好"输出,已经跨过了专业服务的采纳阈值。

更宏观的数据来自Carta:过去一年,AI创业公司吸走了1280亿美元风投中的41%,创下历史最高占比。仅2026年3月,单笔超1亿美元的AI融资轮数就超过了以往任何同期。

一位LP在闭门会上调侃:「问题不再是'要不要投AI',而是'还有哪个赛道不是AI'。」

华为950PR与HBM军备竞赛

华为950PR与HBM军备竞赛

硬件层面的对抗同样在升级。华为发布昇腾950PR芯片及Atlas 350加速卡,宣称算力达到英伟达H20的2.8倍。更关键的是,这款芯片从设计到内存实现了完全自主供应链,不依赖美国及其盟友的技术节点。

几乎同时,三星在英伟达GTC大会上亮出第七代HBM4E内存,SK海力士则握有英伟达2026年HBM4订单的约三分之二份额。存储巨头的技术迭代速度,正在追赶GPU的发布节奏。

但TurboQuant的发布给这场军备竞赛泼了盆冷水。如果内存需求真的能被算法压缩6倍,HBM4的产能规划是否需要重新测算?三星和SK海力士的扩产决策,现在面临一个无法量化的技术变量。

DeepSeek V4的缺席同样值得玩味。这款被期待已久的模型迟迟未发布,但公司正在密集招聘"智能体AI专家"——信号明确:从基础模型竞赛转向自主任务执行技术。当OpenAI和Google还在卷上下文长度时,DeepSeek似乎想跳过这一代,直接押注下一代交互范式。

一周之内,算法突破、协议标准化、垂直行业爆发、地缘技术脱钩四条线同时收紧。2026年Q1的AI基础设施版图,正在被这些事件重新定义。

当内存不再是瓶颈,下一个被压缩的会是什么?算力,还是我们对"智能"本身的理解方式?