「大规模网络系统是云计算、AI和分布式服务的底座」——这是微软今年在USENIX NSDI 2026上的开场白。11篇论文,4个技术方向,没有一句废话。

我逐篇翻完这些技术细节,发现微软正在把AI推理、网络协议验证、内存分解、光网络容错这几个硬骨头,用工程化的方式啃下来。以下是你需要知道的5个要点。

打开网易新闻 查看精彩图片

一、DroidSpeak:让大模型"共享记忆"

同架构的LLM之间,KV缓存(键值缓存,大模型推理时存储的中间计算结果)可以跨模型复用了。

芝加哥大学与微软合作的DroidSpeak,让多个同架构模型共享并部分复用KV缓存。结果是:吞吐量提升4倍,响应更快,输出质量几乎无损。

这解决了一个真实的痛点。现在做模型推理,每个请求都要重新计算KV缓存,GPU内存带宽被吃满。如果能跨请求、跨模型复用,相当于给推理引擎开了"记忆共享"模式。

技术细节:论文作者包括Yuhan Liu、Yuyang Huang等芝加哥大学研究者,以及微软的Shan Lu、Madan Musuvathi、Esha Choukse。报告时间:5月4日下午2:00-3:20。

二、Eywa:用LLM自动抓网络协议的bug

UCLA与微软研究院合作的Eywa,直接用大模型从自然语言文档(RFC、白皮书、配置手册)里提取协议规范,自动生成可测试的协议模型。

他们在广泛使用的网络协议实现里找到了33个bug,其中16个是之前未知的。

这事的讽刺之处在于:网络协议的正确性验证做了几十年,核心障碍一直是"人工写规范太麻烦"。现在LLM读自然语言比人还快,直接把规范提取自动化了。

作者:Rajdeep Mondal、Rathin Singha、Todd D. Millstein、George Varghese(UCLA),Ryan Beckett、Siva Kesava Reddy Kakarla(微软研究院)。时间:5月4日下午3:50-5:30。

三、Octopus:内存分解不需要交换机了

哥伦比亚大学与微软Azure合作的Octopus,搞了一套"无交换机"的分解内存架构。三服务器原型上,RPC延迟比机架内RDMA快3.2倍,比CXL交换机快2.4倍。

分解内存(Disaggregated Memory)是云厂商的执念——把计算和内存池化,按需分配,提高利用率。但CXL交换机贵、延迟高、难扩展。Octopus的方案是:直接去掉交换机,用新的拓扑把内存 pod 扩展到多机架。

作者:Yuhong Zhong(哥伦比亚大学),Fiodar Kazhamiaka、Pantea Zardoshti、Shuwei Teng、Rodrigo Fonseca(微软Azure),Mark D. Hill(威斯康星大学麦迪逊分校),Daniel S. Berger(微软Azure/华盛顿大学)。时间:5月5日下午2:00-3:20。

四、HEDGE:光网络的"自愈"方案

康奈尔大学、NYSERNet、微软、Meta合作的HEDGE,解决的是光网络里"波长级故障"的麻烦事。

光链路性能会随时间波动,某个波长可能突然衰减。传统方案要么本地切换(快但视野窄),要么全局重路由(慢但优化好)。HEDGE把两者结合:链路本地快速恢复 + 全局流量优化,保持容量稳定。

结果是:吞吐量和现有系统持平,但网络中断大幅减少。

作者:Arjun Devraj(康奈尔大学),Bill Owens(NYSERNet),Umesh Krishnaswamy(微软),Ying Zhang(Meta),Rachee Singh(康奈尔大学)。时间:5月5日下午3:50-5:30。

五、还有7篇论文,覆盖AI系统与云基础设施

微软今年NSDI的11篇论文中,上述4篇有详细摘要公开。其余7篇的技术方向包括:

• AI系统优化(与浙江大学、清华大学等合作)

• 数据中心网络架构

• 广域网调度与传输

• 云基础设施可靠性

具体作者包括Yuxuan Yan(浙江大学)、Shiqi Jiang(微软研究院)、Ting Cao(清华大学)、Yifan Yang(微软研究院)、Qianqian Yang等。报告时间:5月6日上午9:00-10:20。

一个观察:微软的研究版图

看这11篇论文的合作方:芝加哥大学、UCLA、哥伦比亚大学、康奈尔大学、浙江大学、清华大学、威斯康星大学、华盛顿大学——全是系统研究的传统强校。

微软的角色很明确:提供真实的生产场景、工程资源和数据,把学术想法做成能跑在云上的系统。NSDI的赞助和论文数量,是这种合作模式的副产品。

另一个细节:4篇详细公开的论文,全部有明确的性能数字——4倍吞吐、33个bug、3.2倍延迟提升、中断减少。没有"显著提升"这种模糊表述。这是工程论文的自尊。

为什么这事值得跟进

DroidSpeak的缓存复用如果落地,推理成本可能再降一个数量级;Eywa的协议验证自动化,可能改变网络安全的测试范式;Octopus的无交换机架构,关系到CXL生态的走向;HEDGE的光网络容错,则是云基础设施的底线能力。

这些技术不会明天就进Azure,但方向已经标定。如果你在做AI infra、云网络或系统优化,建议把论文原文翻一遍——NSDI的录用率常年低于20%,能进的都有硬货。

论文列表和完整作者信息见USENIX NSDI 2026官网。微软研究院的博客也有部分技术预览。