GitHub把4000万开发者代码喂给AI，微软坐收渔利

我是一个养虾人

2026-03-28 10:30 ·北京

GitHub悄悄更新了服务条款。4000万开发者每天写的代码，现在默认成了AI训练的燃料。

5月19日，GitHub发布新版隐私声明和Copilot使用条款。最刺眼的改动藏在第4.2条：除非你主动关闭，否则GitHub有权用你的代码片段训练AI模型，并与微软共享这些数据。

「我们可能会使用您的内容来开发和改进我们的AI模型，包括Copilot和其他GitHub及微软的产品与服务。」

这不是Copilot第一次惹麻烦。2022年它刚上线时，就有开发者发现自己的代码被原样吐出，连注释都没改。当时GitHub的回应是推出"重复检测过滤器"，承诺Copilot不会生成与训练数据高度相似的代码。

现在过滤器还在，但训练数据的来源扩大了——从"公开的GitHub仓库"变成了"你的代码"。

「选择退出」是个迷宫

「选择退出」是个迷宫

GitHub给了两条逃生通道，但都没写在显眼位置。

第一条是个人设置里的"代码建议改进计划"（Code Suggestions Improvement Program）。关闭它，你的Copilot交互数据不再用于训练。但GitHub留了一手：你之前已经被收集的数据，他们不会删除。

第二条是企业版客户的组织级设置。管理员可以一键关闭整个团队的贡献，但免费用户和个人专业版用户没这个选项。

「我们致力于让用户控制自己的数据，」GitHub发言人在邮件里写道，「同时确保AI模型能持续改进。」

这句话的翻译是：控制权的成本是每月19美元的企业版订阅。

微软的算盘：一次采集，多处变现

微软的算盘：一次采集，多处变现

数据共享条款是这次更新的核心。GitHub明确写道，收集的数据可能用于"微软的产品与服务"。

这意味着什么？你写在GitHub私有仓库里的代码片段，可能出现在Azure的AI服务里，可能训练Office的编程助手，甚至可能优化Windows的某个推荐算法。

微软2022年花75亿美元买下GitHub时，很多人以为这是为了锁定开发者生态。现在看，那4000万开发者更像是被一次性买断的数据资产。

一位在GitHub工作7年的工程师在Blind上吐槽：「我们内部管这叫'数据杠杆'。同样的代码，卖一次是Copilot订阅，卖第二次是Azure API调用，卖第三次是微软其他产品的智能功能。」

开发者正在用脚投票

开发者正在用脚投票

条款更新48小时内，Hacker News相关讨论冲上热榜前三。最高赞评论来自一位开源项目维护者：

「我维护了12年的Python库，代码全在GitHub。现在我要么接受它变成微软的AI饲料，要么花三个月迁移到GitLab。这叫选择？」

迁移潮已经开始。GitLab官方推特在条款更新当天发布迁移指南，访问量激增340%。SourceHut、Codeberg等小众平台的注册量也出现 spike（激增）。

但大规模出走很难发生。GitHub的社交图谱——star、fork、pull request构成的开发者关系网络——是真正意义上的沉没成本。迁移代码容易，迁移社区几乎不可能。

法律灰色地带：你的代码，谁的所有权？

法律灰色地带：你的代码，谁的所有权？

GitHub的条款更新踩进了一片模糊地带。

欧盟《人工智能法案》要求AI训练数据必须"合法获取"，但没明确界定"合法"是否包括服务条款里的默认勾选。美国这边，GitHub Copilot正在面临集体诉讼，原告指控它违反开源许可证——用GPL代码训练，却向用户收费。

GitHub的辩护策略是"合理使用"（fair use）。他们认为，AI训练属于"转换性使用"，不侵犯原作者权利。这个论点在2023年Thomson Reuters诉Ross Intelligence案中被部分支持，但尚未有针对代码生成的明确判决。

更微妙的是"代码片段"的定义。GitHub承诺不会用完整文件训练，但"片段"可以短到几行。对程序员来说，关键算法的核心逻辑往往就浓缩在那几行里。

一位知识产权律师在播客里打了个比方：「这像是你写了本小说，出版社说'我们只摘抄最精彩的3句话'——但这3句话可能正是全书的价值所在。」

GitHub给了一个最后期限：6月19日前，用户可以通过设置页面关闭数据贡献。之后，新产生的代码交互将默认进入训练池。

你会去关吗？还是已经默认自己的代码不值这个操作成本？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴