微软旗下的代码托管平台GitHub宣布了一项重大的隐私政策调整。自2026年4月24日起,GitHub将默认收集并使用部分客户的交互数据(包括输入提示、输出结果、代码片段及相关上下文)来训练其AI模型。
这一举措标志着AI辅助开发工具在真实场景数据获取策略上的进一步推进。
政策波及范围与豁免机制
本次政策调整主要针对使用Copilot Free、Pro以及Pro+订阅级别的个人用户。
由于现有的企业级合同条款限制,Copilot Business和Copilot Enterprise企业用户将不受此新规影响。
同时,通过教育计划获取Copilot使用权的学生和教师群体也被明确列入豁免名单。
对于受影响的个人用户,GitHub采取了“默认同意,允许退出”(Opt-out)的机制,这与当前北美科技行业的普遍数据收集惯例一致。
如果用户不希望自己的代码交互数据被用于模型增强,必须主动进入账号的Copilot功能设置页面,手动禁用隐私选项下的“允许GitHub使用我的数据进行AI模型训练”功能。
核心提取数据与私有仓库边界根据官方披露的更新细则,一旦用户处于默认参与状态,GitHub将在使用Copilot期间收集多维度的数据。
这些交互数据涵盖: 用户接受或修改的模型输出结果; 包含所显示代码片段的模型输入提示; 光标位置周围的代码上下文; 用户编写的注释和文档; 文件名及仓库物理结构; 与Copilot功能的互动记录(如对话); 以及点赞或点踩的反馈评分。
这项政策在技术层面上对“私有仓库”的数据边界做出了更精准的界定。
官方解释称,GitHub不会扫描或使用私有仓库中处于“静态存储”(at rest)状态的代码底座。
但如果用户在私有仓库中激活并使用Copilot,其在实时交互过程中产生的代码片段和上下文,将被视为交互数据,纳入采集与训练的范畴。
官方商业逻辑与产业底层现状
针对数据策略的转向,GitHub首席产品官Mario Rodriguez给出了直接的技术效用解释。他指出,引入真实世界的交互数据能够显著提升AI模型的性能。
前期通过整合微软内部员工的交互数据,模型在多语言环境下的代码采纳率已经实现了有效增长。
进一步扩大数据收集范围,旨在帮助模型更好地理解开发工作流,从而提供更准确的安全代码建议,并在代码进入生产环境前拦截潜在漏洞。
同时,GitHub在官方说明中列举了Anthropic、JetBrains以及母公司微软的类似政策,以说明这种数据使用策略已成为当前生成式AI赛道的行业常态。
从更宏观的产业逻辑来看,无论是最初对公开代码库的微调,还是如今对实时交互数据的提取,都客观反映了当前大模型厂商在算力竞争之外,对高质量对齐数据和真实开发者交互数据的刚性渴求。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 秦聪慧)
热门跟贴