GitHub Copilot新规倒计时|copilot|微软|源代码|电子表格|知名企业

2025年3月26日，GitHub发布了一则更新公告。24个月后，全球超过1500万开发者的代码片段、调试对话、重构请求，将自动成为微软下一代AI模型的训练原料——除非你手动关闭一个藏在三层菜单里的开关。

这不是假设。4月24日，"数据交互"（dados de interação）条款正式生效。你的私有仓库代码、深夜写的临时脚本、甚至那句带着脏话的调试注释，都可能被喂给模型。GitHub的措辞很温和："个性化与改进体验"。但细读条款会发现，"改进"的对象是微软的AI，不是你的工作效率。

GitHub把"默认同意"玩到了极致。

15-20%。这是学术研究中用户主动关闭数据收集的比例。GitHub显然算过这笔账。把开关默认打开， bury在设置深处，再配上一句"建议您查看更新"，就能让80%以上的用户在不知情中"自愿"贡献数据。产品设计里这叫dark pattern（暗模式），用户侧叫"被自愿"。

一位在硅谷中型公司任职的技术负责人告诉我，他的团队有47人日常使用Copilot。"公告发在开发者博客，不是邮件通知。我上周问起，只有3个人知道这件事。"他的原话是：「我们以为私有仓库就是私有的，现在发现只是'暂时没被别人看到'。」

「数据交互」到底包括什么

GitHub的官方定义很克制。但拆解条款后，范围比你想象的宽：

代码片段（trechos de código）。不只是你主动接受的建议，包括你输入后删除的部分、犹豫过的备选方案、甚至复制粘贴的第三方代码。Copilot的上下文窗口能记住几十行，这些都会被捕获。

聊天对话（conversas de chat）。Copilot Chat里那句"这个bug为什么修不好"可能包含业务逻辑描述、错误日志、甚至客户数据脱敏不当的堆栈信息。GitHub没说会过滤敏感信息。

接受/拒绝决策（decisões de aceitação）。你选了建议A而不是B，这个选择本身就在训练模型理解"什么是更好的代码"。长期积累，模型会学会模仿你的编码风格——然后把这个风格卖给其他用户。

最微妙的是"交互元数据"：时间戳、文件路径、项目结构。这些能推断出技术栈、开发节奏、甚至项目优先级。竞争对手的AI如果拿到足够多样本，可以反向工程你的技术路线。

24天窗口期：操作手册

关闭流程设计得很"GitHub"：能找得到，但不够明显。个人用户需要四步：

登录github.com → Settings → Copilot → Data usage。找到"Allow GitHub to use my data for product improvement"，取消勾选。保存后没有确认邮件，没有二次提示。你需要手动回到页面确认开关变灰了。

企业用户更复杂。组织管理员必须在Organization settings → Copilot → Policies里关闭"Suggest features using data from this organization"。但这里有个陷阱：如果组织层开启，个人关闭无效；如果组织层关闭，个人无法自行开启。很多公司还没意识到需要IT部门统一行动。

我测试了三个账号的关闭流程。平均耗时1分47秒，前提是知道去哪找。GitHub没有提供CLI验证命令，页面状态是唯一凭证。一位安全工程师建议：截图保存设置页，万一未来产生纠纷，这是你已经"明确拒绝"的证据。

为什么这次不一样

AI训练数据争议不是新闻。2023年GitHub和OpenAI就被起诉过，Copilot的建议被指复制开源代码且未标注许可证。那次诉讼还在进行，但GitHub学会了——与其打官司，不如改写用户协议。

关键变化是"隐含同意"的法律设计。4月24日后继续使用Copilot，等于默认接受新条款。欧洲用户可能有GDPR抓手，但GitHub的母公司微软有 entire legal team 专门处理这类合规。美国用户的选择更有限：接受，或者放弃工具。

更深层的问题是行业惯性。Copilot已经嵌入太多工作流：IDE插件、CI/CD集成、代码审查辅助。迁移成本不只是重新学习工具，是重构整个开发习惯。GitHub赌的是，大多数人会抱怨两句，然后继续用。

这个赌局有数据支撑。Stack Overflow 2024年调查显示，62%的专业开发者每周使用AI编码工具，其中Copilot占有率超过55%。一旦成为基础设施，用户就对条款变更失去议价能力。2023年Adobe的Firefly训练条款争议、2024年Slack的AI数据政策风波，都是同一剧本的不同幕次。

但代码不是普通数据。

它是知识产权的载体，是商业机密的外壳，是开发者职业生涯的累积。一位开源维护者对我说：「我的项目用GPL，但Copilot把我的代码片段建议给闭源项目用户，这算传播还是独立创作？法律没答案，但我的劳动确实被变现了。」

GitHub的回应是推出"代码引用"功能，声称会标注与开源代码相似的建议。但实际检测率存疑，且只覆盖公开仓库。私有代码的训练使用，至今没有透明度报告。