打开网易新闻 查看精彩图片

GitHub更新了服务条款,一个数字让开发者坐不住了:你的代码补全建议、聊天对话、甚至报错信息,现在默认进入AI训练池。

这不是新增条款,是旧条款的"沉默升级"。GitHub在2024年11月悄悄修改了隐私政策,直到最近才被开发者社区扒出来。4000万用户的数据流向,就这么被一纸更新重新定义。

条款里的"同意陷阱"

条款里的"同意陷阱"

打开GitHub Copilot设置,你会看到一个叫"允许GitHub改进产品"的开关。听起来很温和,像是帮你修bug的公益选项。

但勾选这个选项,等于授权GitHub用你的数据训练AI模型,并且"与微软共享"用于改进微软产品和服务。

更微妙的是默认状态。新用户这个开关是打开的,老用户如果没手动关闭,同样算"同意"。GitHub没有弹窗提醒,没有邮件通知,只是条款里多了一段话。

打开网易新闻 查看精彩图片

开发者社区的反应很分裂。Hacker News上有人调侃:"我写了三年代码训练Copilot,现在发现是在给微软打白工。"另一条高赞评论更扎心:"这就像你请了个私教,结果发现他在把你的健身数据卖给保险公司。"

微软的"数据飞轮"逻辑

微软的"数据飞轮"逻辑

理解这个改动,得先看Copilot的成本结构。GitHub Copilot每月10美元(企业版19美元),但运行成本远高于订阅收入。OpenAI的GPT-4接口调用、微软Azure的算力支持,每一笔都是真金白银。

微软需要让这个生意转起来。用户数据训练自有模型,是降低对OpenAI依赖的最快路径。GitHub CEO Thomas Dohmke去年就暗示过,Copilot正在测试"非GPT模型"的替代方案。

现在方案浮出水面:用4000万开发者的真实代码场景,喂给微软自研的Phi系列小模型。你的报错堆栈、你的调试对话、你反复修改的函数——这些都是高质量的微调素材。

隐私政策的措辞很讲究。"改进产品"涵盖了模型训练,"与微软共享"涵盖了跨产品流通。但普通用户不会逐字阅读,他们看到的是个勾选框,和一句"帮助我们做得更好"。

打开网易新闻 查看精彩图片

开发者的反击与困境

开发者的反击与困境

关闭这个选项的路径藏得不深,但步骤繁琐。Copilot设置→隐私→取消勾选,三步完成。问题是,多少人会主动检查这个页面?

更麻烦的是历史数据。GitHub的条款没有说明:关闭选项后,之前上传的数据怎么处理?是立即删除、保留30天、还是已经进训练集就永不移除?客服回复是"按标准数据保留政策执行"——等于没说。

一些团队开始行动。Stripe前工程师Jackie Luo在X上发了个脚本,批量检查组织内所有成员的Copilot隐私设置。开源社区有人 fork 了这个工具,三天内获得2000多星标。

但大规模迁移很难。Copilot的代码补全准确率仍是行业标杆,Cursor、Codeium等替代品各有短板。对很多团队来说,"不用Copilot"不是可选项,只是成本核算。

GitHub的回应姗姗来迟。官方博客发了解释文章,强调"数据不会用于销售或广告","共享范围限于微软服务"。但训练用途本身没有被否定,只是换了个更温和的说法包装。

这场博弈的微妙之处在于:开发者既是用户,也是数据生产者。GitHub吃准了迁移成本,微软赌的是沉默大多数。那个小小的勾选框,成了4000万人与科技巨头之间的不对等谈判。

你最后一次检查Copilot隐私设置是什么时候?如果现在去关,之前三年的代码习惯,已经喂给了谁的模型?