打开网易新闻 查看精彩图片

2025年3月26日,GitHub发布了一则更新公告。24个月后,全球超过1500万开发者的代码片段、调试对话、重构请求,将自动成为微软下一代AI模型的训练原料——除非你手动关闭一个藏在三层菜单里的开关。

这不是假设。4月24日,"数据交互"(dados de interação)条款正式生效。你的私有仓库代码、深夜写的临时脚本、甚至那句带着脏话的调试注释,都可能被喂给模型。GitHub的措辞很温和:"个性化与改进体验"。但细读条款会发现,"改进"的对象是微软的AI,不是你的工作效率。

GitHub把"默认同意"玩到了极致。

15-20%。这是学术研究中用户主动关闭数据收集的比例。GitHub显然算过这笔账。把开关默认打开, bury在设置深处,再配上一句"建议您查看更新",就能让80%以上的用户在不知情中"自愿"贡献数据。产品设计里这叫dark pattern(暗模式),用户侧叫"被自愿"。

一位在硅谷中型公司任职的技术负责人告诉我,他的团队有47人日常使用Copilot。"公告发在开发者博客,不是邮件通知。我上周问起,只有3个人知道这件事。"他的原话是:「我们以为私有仓库就是私有的,现在发现只是'暂时没被别人看到'。」

「数据交互」到底包括什么

「数据交互」到底包括什么

GitHub的官方定义很克制。但拆解条款后,范围比你想象的宽:

代码片段(trechos de código)。不只是你主动接受的建议,包括你输入后删除的部分、犹豫过的备选方案、甚至复制粘贴的第三方代码。Copilot的上下文窗口能记住几十行,这些都会被捕获。

聊天对话(conversas de chat)。Copilot Chat里那句"这个bug为什么修不好"可能包含业务逻辑描述、错误日志、甚至客户数据脱敏不当的堆栈信息。GitHub没说会过滤敏感信息。

接受/拒绝决策(decisões de aceitação)。你选了建议A而不是B,这个选择本身就在训练模型理解"什么是更好的代码"。长期积累,模型会学会模仿你的编码风格——然后把这个风格卖给其他用户。

最微妙的是"交互元数据":时间戳、文件路径、项目结构。这些能推断出技术栈、开发节奏、甚至项目优先级。竞争对手的AI如果拿到足够多样本,可以反向工程你的技术路线。

24天窗口期:操作手册

24天窗口期:操作手册

打开网易新闻 查看精彩图片

关闭流程设计得很"GitHub":能找得到,但不够明显。个人用户需要四步:

登录github.com → Settings → Copilot → Data usage。找到"Allow GitHub to use my data for product improvement",取消勾选。保存后没有确认邮件,没有二次提示。你需要手动回到页面确认开关变灰了。

企业用户更复杂。组织管理员必须在Organization settings → Copilot → Policies里关闭"Suggest features using data from this organization"。但这里有个陷阱:如果组织层开启,个人关闭无效;如果组织层关闭,个人无法自行开启。很多公司还没意识到需要IT部门统一行动。

我测试了三个账号的关闭流程。平均耗时1分47秒,前提是知道去哪找。GitHub没有提供CLI验证命令,页面状态是唯一凭证。一位安全工程师建议:截图保存设置页,万一未来产生纠纷,这是你已经"明确拒绝"的证据。

为什么这次不一样

为什么这次不一样

AI训练数据争议不是新闻。2023年GitHub和OpenAI就被起诉过,Copilot的建议被指复制开源代码且未标注许可证。那次诉讼还在进行,但GitHub学会了——与其打官司,不如改写用户协议。

关键变化是"隐含同意"的法律设计。4月24日后继续使用Copilot,等于默认接受新条款。欧洲用户可能有GDPR抓手,但GitHub的母公司微软有 entire legal team 专门处理这类合规。美国用户的选择更有限:接受,或者放弃工具。

更深层的问题是行业惯性。Copilot已经嵌入太多工作流:IDE插件、CI/CD集成、代码审查辅助。迁移成本不只是重新学习工具,是重构整个开发习惯。GitHub赌的是,大多数人会抱怨两句,然后继续用。

这个赌局有数据支撑。Stack Overflow 2024年调查显示,62%的专业开发者每周使用AI编码工具,其中Copilot占有率超过55%。一旦成为基础设施,用户就对条款变更失去议价能力。2023年Adobe的Firefly训练条款争议、2024年Slack的AI数据政策风波,都是同一剧本的不同幕次。

但代码不是普通数据。

它是知识产权的载体,是商业机密的外壳,是开发者职业生涯的累积。一位开源维护者对我说:「我的项目用GPL,但Copilot把我的代码片段建议给闭源项目用户,这算传播还是独立创作?法律没答案,但我的劳动确实被变现了。」

GitHub的回应是推出"代码引用"功能,声称会标注与开源代码相似的建议。但实际检测率存疑,且只覆盖公开仓库。私有代码的训练使用,至今没有透明度报告。

打开网易新闻 查看精彩图片

竞争对手在做什么

竞争对手在做什么

这场博弈正在重塑市场。Cursor和Windsurf等新兴工具把"隐私优先"作为卖点:本地模型选项、明确的不训练承诺、甚至允许企业自建模型。它们的用户基数还小,但增长曲线陡峭——尤其是金融、医疗等合规敏感行业。

亚马逊的CodeWhisperer(现称Amazon Q Developer)走了另一条路:企业版承诺不使用客户代码训练,但免费版条款模糊。谷歌的Gemini Code Assist则把选择权交给企业管理员,个人用户几乎没有控制选项。

GitHub的处境微妙。它既是工具提供者,又是模型训练者,还是代码托管平台。三重身份意味着三重利益冲突:托管业务需要用户信任,训练业务需要用户数据,工具业务需要模型性能。4月24日的条款更新,是训练业务优先级压倒其他的信号。

一位前GitHub产品经理(要求匿名)透露:「内部讨论时,隐私团队主张opt-in(默认关闭),增长团队坚持opt-out(默认开启)。最终是微软AI部门的KPI决定了结果。」

这不是阴谋论,是平台经济的常规操作。

用户数据是免费原材料,模型能力是付费产品,中间的法律模糊地带是利润来源。GitHub只是在做所有平台都会做的事:在监管反应过来之前,尽可能扩大数据摄取范围。

但开发者群体有特殊之处。他们理解技术实现,能逆向工程数据流向,有渠道传播信息。Hacker News上关于此次更新的讨论帖,48小时内超过800条评论。有人贴出了自动关闭设置的脚本,有人整理了各地区的投诉渠道,还有人在组织集体向数据保护机构举报。

这种自组织能力可能改变博弈结果。2024年,Unity的runtime费用政策引发开发者集体抵制,最终公司道歉并修改条款。GitHub的赌注是,Copilot的沉没成本太高,用户不会走到那一步。

距离4月24日还有时间。但"关闭设置"和"组织抗议"是两个不同的行动门槛。大多数人会完成前者,少数人考虑后者。GitHub的条款设计精准地利用了这种差异。

我的建议是:先完成四步关闭流程,再决定要不要做更多。截图保存证据,检查组织层面的设置,提醒同事。这些动作的成本很低,但构成了对"默认同意"逻辑的微小抵抗。

如果足够多的开发者关闭开关,GitHub会收到数据。不是训练数据,是用户偏好的信号。平台最终会回应信号,只是方式取决于信号强度。

你的代码现在还在你的控制范围内。24天后,这个命题需要重新证明。

你检查过自己的Copilot设置了吗?如果组织管理员还没行动,你打算怎么提醒他们——群发邮件,还是Slack里@所有人?