微软用2700万对教科书数据训练AI，搜索团队集体傻眼

灰度测试中

2026-03-31 10:08 ·北京

2700万对。这是微软研究院最新论文里一个让人愣住的数字——不是网页爬取量，不是用户点击日志，是教科书级别的「问题-答案」配对数据。搜索团队花了三年时间证明一件事：干净的知识比互联网的噪音管用。

搜索的脏数据困境

搜索的脏数据困境

微软搜索部门的人有个老笑话：用户搜「苹果」，你得猜他是想买手机还是学水果分类。这个歧义问题困扰了行业二十年。传统解法是靠点击率——看大多数人点哪个结果，系统就学哪个。

但点击数据有个致命缺陷：它只告诉你「用户点了什么」，不告诉你「用户真正想问什么」。

更麻烦的是长尾查询。每天必应处理数亿次搜索，其中三分之一是此前从未出现过的组合。没有历史点击，算法只能瞎蒙。微软研究院的Bhaskar Mitra团队算过一笔账：用点击信号训练模型，头部热门查询能覆盖80%流量，但剩下20%的长尾才是搜索质量的真正战场。

2021年，团队决定换个思路。既然互联网数据太脏，能不能人造一批干净的？

教科书工程：一场反直觉的数据清洗

他们的数据源让人意外：维基百科的「相关文章」链接结构、Stack Exchange的问答对、以及专门构建的合成数据。没有 Reddit 争吵，没有论坛灌水，没有 SEO 农场内容。

Mitra 在论文里打了个比方：「教小孩认动物，你会给他看动物园的清晰照片，而不是让他去马路上随机抓拍。」

团队构建了 2700 万个「查询-文档」配对，每个都经过人工或算法验证的语义关联。关键是规模控制——他们发现数据量超过某个阈值后，质量比数量更重要。用 2700 万对高质量数据训练的模型，在长尾查询上的表现超过了用 10 亿对嘈杂网页数据训练的版本。

这个数字挑战了行业默认假设。Google 的 BERT、OpenAI 的 GPT 早期版本都依赖海量网页文本，信奉「大力出奇迹」。微软这次走了条窄路：精准投喂。

270M 模型的实战表现

270M 模型的实战表现

模型参数定格在 2.7 亿（270M），故意不做大。团队想验证的是数据质量能否弥补规模差距。

结果在内部基准测试中，这个「小模型」在文档排序任务上追平了当时更大的竞品。更关键的是延迟——搜索场景下每毫秒都影响用户体验，270M 模型能在标准 CPU 上实时推理，不需要 GPU 集群。

微软搜索产品组的人最初将信将疑。Mitra 回忆：「我们拿给他们看时，对方说『这不可能，你们数据量只有我们的百分之一』。」

产品组后来做了盲测：把 270M 模型接入真实流量，用户满意度指标提升了 12%。这个数字说服了工程团队逐步替换线上模块。

为什么现在公开？

为什么现在公开？

论文发表在 2024 年 3 月的 ACM TOIS 期刊，但相关工作始于 2021 年。三年沉默期里，这套方法已经渗透进必应的多个子系统。

选择现在披露，微软研究院的口径是「学术社区需要知道高质量数据的价值」。但时机也很微妙——OpenAI 的 GPT-4、Google 的 Gemini 正在卷万亿参数，微软需要展示另一条技术路线的可行性。

更实际的考量是成本。训练大模型烧掉的钱以亿美元计，而 270M 模型的训练成本在百万美元级别。对于需要部署在数十亿设备上的搜索功能，这个差距意味着商业模式的根本不同。

论文附录里有个细节：团队测试了用同样方法扩展到大模型的效果，发现收益递减。高质量数据的优势在中等规模最明显，一旦参数过千亿，网页数据的噪声会被稀释，差距缩小。

这解释了为什么微软同时押注两条路线——OpenAI 合作搞大模型，自家研究院深耕效率优化。

Mitra 在采访最后提到一个未解问题：「我们证明了教科书数据管用，但还没搞清楚『够好』的边界在哪。」2700 万对是局部最优解，还是通用规律？如果放大到 2.7 亿对，收益会继续线性增长吗？

搜索团队的下个实验已经启动。这次他们盯上了另一个被忽视的数据源——技术文档的结构化表格。表格里的行列关系，可能比段落文本更适合机器理解。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴