打开网易新闻 查看精彩图片

2700万对。这是微软研究院最新论文里一个让人愣住的数字——不是网页爬取量,不是用户点击日志,是教科书级别的「问题-答案」配对数据。搜索团队花了三年时间证明一件事:干净的知识比互联网的噪音管用。

搜索的脏数据困境

搜索的脏数据困境

微软搜索部门的人有个老笑话:用户搜「苹果」,你得猜他是想买手机还是学水果分类。这个歧义问题困扰了行业二十年。传统解法是靠点击率——看大多数人点哪个结果,系统就学哪个。

但点击数据有个致命缺陷:它只告诉你「用户点了什么」,不告诉你「用户真正想问什么」。

更麻烦的是长尾查询。每天必应处理数亿次搜索,其中三分之一是此前从未出现过的组合。没有历史点击,算法只能瞎蒙。微软研究院的Bhaskar Mitra团队算过一笔账:用点击信号训练模型,头部热门查询能覆盖80%流量,但剩下20%的长尾才是搜索质量的真正战场。

2021年,团队决定换个思路。既然互联网数据太脏,能不能人造一批干净的?

教科书工程:一场反直觉的数据清洗

他们的数据源让人意外:维基百科的「相关文章」链接结构、Stack Exchange的问答对、以及专门构建的合成数据。没有 Reddit 争吵,没有论坛灌水,没有 SEO 农场内容。

打开网易新闻 查看精彩图片

Mitra 在论文里打了个比方:「教小孩认动物,你会给他看动物园的清晰照片,而不是让他去马路上随机抓拍。」

团队构建了 2700 万个「查询-文档」配对,每个都经过人工或算法验证的语义关联。关键是规模控制——他们发现数据量超过某个阈值后,质量比数量更重要。用 2700 万对高质量数据训练的模型,在长尾查询上的表现超过了用 10 亿对嘈杂网页数据训练的版本。

这个数字挑战了行业默认假设。Google 的 BERT、OpenAI 的 GPT 早期版本都依赖海量网页文本,信奉「大力出奇迹」。微软这次走了条窄路:精准投喂。

270M 模型的实战表现

270M 模型的实战表现

模型参数定格在 2.7 亿(270M),故意不做大。团队想验证的是数据质量能否弥补规模差距。

结果在内部基准测试中,这个「小模型」在文档排序任务上追平了当时更大的竞品。更关键的是延迟——搜索场景下每毫秒都影响用户体验,270M 模型能在标准 CPU 上实时推理,不需要 GPU 集群。

微软搜索产品组的人最初将信将疑。Mitra 回忆:「我们拿给他们看时,对方说『这不可能,你们数据量只有我们的百分之一』。」

产品组后来做了盲测:把 270M 模型接入真实流量,用户满意度指标提升了 12%。这个数字说服了工程团队逐步替换线上模块。

打开网易新闻 查看精彩图片

为什么现在公开?

为什么现在公开?

论文发表在 2024 年 3 月的 ACM TOIS 期刊,但相关工作始于 2021 年。三年沉默期里,这套方法已经渗透进必应的多个子系统。

选择现在披露,微软研究院的口径是「学术社区需要知道高质量数据的价值」。但时机也很微妙——OpenAI 的 GPT-4、Google 的 Gemini 正在卷万亿参数,微软需要展示另一条技术路线的可行性。

更实际的考量是成本。训练大模型烧掉的钱以亿美元计,而 270M 模型的训练成本在百万美元级别。对于需要部署在数十亿设备上的搜索功能,这个差距意味着商业模式的根本不同。

论文附录里有个细节:团队测试了用同样方法扩展到大模型的效果,发现收益递减。高质量数据的优势在中等规模最明显,一旦参数过千亿,网页数据的噪声会被稀释,差距缩小。

这解释了为什么微软同时押注两条路线——OpenAI 合作搞大模型,自家研究院深耕效率优化。

Mitra 在采访最后提到一个未解问题:「我们证明了教科书数据管用,但还没搞清楚『够好』的边界在哪。」2700 万对是局部最优解,还是通用规律?如果放大到 2.7 亿对,收益会继续线性增长吗?

搜索团队的下个实验已经启动。这次他们盯上了另一个被忽视的数据源——技术文档的结构化表格。表格里的行列关系,可能比段落文本更适合机器理解。