GitHub Copilot用户数据被微软共享

硅屿手记

2026-03-28 09:30 ·北京

GitHub更新了服务条款，一个数字让开发者坐不住了：你的代码补全建议、聊天对话、甚至报错信息，现在默认进入AI训练池。

这不是新增条款，是旧条款的"沉默升级"。GitHub在2024年11月悄悄修改了隐私政策，直到最近才被开发者社区扒出来。4000万用户的数据流向，就这么被一纸更新重新定义。

条款里的"同意陷阱"

条款里的"同意陷阱"

打开GitHub Copilot设置，你会看到一个叫"允许GitHub改进产品"的开关。听起来很温和，像是帮你修bug的公益选项。

但勾选这个选项，等于授权GitHub用你的数据训练AI模型，并且"与微软共享"用于改进微软产品和服务。

更微妙的是默认状态。新用户这个开关是打开的，老用户如果没手动关闭，同样算"同意"。GitHub没有弹窗提醒，没有邮件通知，只是条款里多了一段话。

开发者社区的反应很分裂。Hacker News上有人调侃："我写了三年代码训练Copilot，现在发现是在给微软打白工。"另一条高赞评论更扎心："这就像你请了个私教，结果发现他在把你的健身数据卖给保险公司。"

微软的"数据飞轮"逻辑

微软的"数据飞轮"逻辑

理解这个改动，得先看Copilot的成本结构。GitHub Copilot每月10美元（企业版19美元），但运行成本远高于订阅收入。OpenAI的GPT-4接口调用、微软Azure的算力支持，每一笔都是真金白银。

微软需要让这个生意转起来。用户数据训练自有模型，是降低对OpenAI依赖的最快路径。GitHub CEO Thomas Dohmke去年就暗示过，Copilot正在测试"非GPT模型"的替代方案。

现在方案浮出水面：用4000万开发者的真实代码场景，喂给微软自研的Phi系列小模型。你的报错堆栈、你的调试对话、你反复修改的函数——这些都是高质量的微调素材。

隐私政策的措辞很讲究。"改进产品"涵盖了模型训练，"与微软共享"涵盖了跨产品流通。但普通用户不会逐字阅读，他们看到的是个勾选框，和一句"帮助我们做得更好"。

开发者的反击与困境

开发者的反击与困境

关闭这个选项的路径藏得不深，但步骤繁琐。Copilot设置→隐私→取消勾选，三步完成。问题是，多少人会主动检查这个页面？

更麻烦的是历史数据。GitHub的条款没有说明：关闭选项后，之前上传的数据怎么处理？是立即删除、保留30天、还是已经进训练集就永不移除？客服回复是"按标准数据保留政策执行"——等于没说。

一些团队开始行动。Stripe前工程师Jackie Luo在X上发了个脚本，批量检查组织内所有成员的Copilot隐私设置。开源社区有人 fork 了这个工具，三天内获得2000多星标。

但大规模迁移很难。Copilot的代码补全准确率仍是行业标杆，Cursor、Codeium等替代品各有短板。对很多团队来说，"不用Copilot"不是可选项，只是成本核算。

GitHub的回应姗姗来迟。官方博客发了解释文章，强调"数据不会用于销售或广告"，"共享范围限于微软服务"。但训练用途本身没有被否定，只是换了个更温和的说法包装。

这场博弈的微妙之处在于：开发者既是用户，也是数据生产者。GitHub吃准了迁移成本，微软赌的是沉默大多数。那个小小的勾选框，成了4000万人与科技巨头之间的不对等谈判。

你最后一次检查Copilot隐私设置是什么时候？如果现在去关，之前三年的代码习惯，已经喂给了谁的模型？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴