GitHub修改Copilot隐私政策：4月24日起默认使用用户交互数据训练AI

钛媒体APP

2026-03-27 09:20 ·北京 ·独立财经科技媒体

微软旗下的代码托管平台GitHub宣布了一项重大的隐私政策调整。自2026年4月24日起，GitHub将默认收集并使用部分客户的交互数据（包括输入提示、输出结果、代码片段及相关上下文）来训练其AI模型。

这一举措标志着AI辅助开发工具在真实场景数据获取策略上的进一步推进。

政策波及范围与豁免机制

本次政策调整主要针对使用Copilot Free、Pro以及Pro+订阅级别的个人用户。

由于现有的企业级合同条款限制，Copilot Business和Copilot Enterprise企业用户将不受此新规影响。

同时，通过教育计划获取Copilot使用权的学生和教师群体也被明确列入豁免名单。

对于受影响的个人用户，GitHub采取了“默认同意，允许退出”（Opt-out）的机制，这与当前北美科技行业的普遍数据收集惯例一致。

如果用户不希望自己的代码交互数据被用于模型增强，必须主动进入账号的Copilot功能设置页面，手动禁用隐私选项下的“允许GitHub使用我的数据进行AI模型训练”功能。

核心提取数据与私有仓库边界根据官方披露的更新细则，一旦用户处于默认参与状态，GitHub将在使用Copilot期间收集多维度的数据。

这些交互数据涵盖：用户接受或修改的模型输出结果；包含所显示代码片段的模型输入提示；光标位置周围的代码上下文；用户编写的注释和文档；文件名及仓库物理结构；与Copilot功能的互动记录（如对话）；以及点赞或点踩的反馈评分。

这项政策在技术层面上对“私有仓库”的数据边界做出了更精准的界定。

官方解释称，GitHub不会扫描或使用私有仓库中处于“静态存储”（at rest）状态的代码底座。

但如果用户在私有仓库中激活并使用Copilot，其在实时交互过程中产生的代码片段和上下文，将被视为交互数据，纳入采集与训练的范畴。

官方商业逻辑与产业底层现状

针对数据策略的转向，GitHub首席产品官Mario Rodriguez给出了直接的技术效用解释。他指出，引入真实世界的交互数据能够显著提升AI模型的性能。

前期通过整合微软内部员工的交互数据，模型在多语言环境下的代码采纳率已经实现了有效增长。

进一步扩大数据收集范围，旨在帮助模型更好地理解开发工作流，从而提供更准确的安全代码建议，并在代码进入生产环境前拦截潜在漏洞。

同时，GitHub在官方说明中列举了Anthropic、JetBrains以及母公司微软的类似政策，以说明这种数据使用策略已成为当前生成式AI赛道的行业常态。

从更宏观的产业逻辑来看，无论是最初对公开代码库的微调，还是如今对实时交互数据的提取，都客观反映了当前大模型厂商在算力竞争之外，对高质量对齐数据和真实开发者交互数据的刚性渴求。（本文首发钛媒体APP，作者 | 硅谷Tech_news，编辑 | 秦聪慧）

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴