打开网易新闻 查看精彩图片

GitHub悄悄更新了服务条款。4000万开发者每天写的代码,现在默认成了AI训练的燃料。

5月19日,GitHub发布新版隐私声明和Copilot使用条款。最刺眼的改动藏在第4.2条:除非你主动关闭,否则GitHub有权用你的代码片段训练AI模型,并与微软共享这些数据。

「我们可能会使用您的内容来开发和改进我们的AI模型,包括Copilot和其他GitHub及微软的产品与服务。」

这不是Copilot第一次惹麻烦。2022年它刚上线时,就有开发者发现自己的代码被原样吐出,连注释都没改。当时GitHub的回应是推出"重复检测过滤器",承诺Copilot不会生成与训练数据高度相似的代码。

现在过滤器还在,但训练数据的来源扩大了——从"公开的GitHub仓库"变成了"你的代码"。

「选择退出」是个迷宫

「选择退出」是个迷宫

GitHub给了两条逃生通道,但都没写在显眼位置。

第一条是个人设置里的"代码建议改进计划"(Code Suggestions Improvement Program)。关闭它,你的Copilot交互数据不再用于训练。但GitHub留了一手:你之前已经被收集的数据,他们不会删除。

第二条是企业版客户的组织级设置。管理员可以一键关闭整个团队的贡献,但免费用户和个人专业版用户没这个选项。

打开网易新闻 查看精彩图片

「我们致力于让用户控制自己的数据,」GitHub发言人在邮件里写道,「同时确保AI模型能持续改进。」

这句话的翻译是:控制权的成本是每月19美元的企业版订阅。

微软的算盘:一次采集,多处变现

微软的算盘:一次采集,多处变现

数据共享条款是这次更新的核心。GitHub明确写道,收集的数据可能用于"微软的产品与服务"。

这意味着什么?你写在GitHub私有仓库里的代码片段,可能出现在Azure的AI服务里,可能训练Office的编程助手,甚至可能优化Windows的某个推荐算法。

微软2022年花75亿美元买下GitHub时,很多人以为这是为了锁定开发者生态。现在看,那4000万开发者更像是被一次性买断的数据资产。

一位在GitHub工作7年的工程师在Blind上吐槽:「我们内部管这叫'数据杠杆'。同样的代码,卖一次是Copilot订阅,卖第二次是Azure API调用,卖第三次是微软其他产品的智能功能。」

开发者正在用脚投票

开发者正在用脚投票

条款更新48小时内,Hacker News相关讨论冲上热榜前三。最高赞评论来自一位开源项目维护者:

打开网易新闻 查看精彩图片

「我维护了12年的Python库,代码全在GitHub。现在我要么接受它变成微软的AI饲料,要么花三个月迁移到GitLab。这叫选择?」

迁移潮已经开始。GitLab官方推特在条款更新当天发布迁移指南,访问量激增340%。SourceHut、Codeberg等小众平台的注册量也出现 spike(激增)。

但大规模出走很难发生。GitHub的社交图谱——star、fork、pull request构成的开发者关系网络——是真正意义上的沉没成本。迁移代码容易,迁移社区几乎不可能。

法律灰色地带:你的代码,谁的所有权?

法律灰色地带:你的代码,谁的所有权?

GitHub的条款更新踩进了一片模糊地带。

欧盟《人工智能法案》要求AI训练数据必须"合法获取",但没明确界定"合法"是否包括服务条款里的默认勾选。美国这边,GitHub Copilot正在面临集体诉讼,原告指控它违反开源许可证——用GPL代码训练,却向用户收费。

GitHub的辩护策略是"合理使用"(fair use)。他们认为,AI训练属于"转换性使用",不侵犯原作者权利。这个论点在2023年Thomson Reuters诉Ross Intelligence案中被部分支持,但尚未有针对代码生成的明确判决。

更微妙的是"代码片段"的定义。GitHub承诺不会用完整文件训练,但"片段"可以短到几行。对程序员来说,关键算法的核心逻辑往往就浓缩在那几行里。

一位知识产权律师在播客里打了个比方:「这像是你写了本小说,出版社说'我们只摘抄最精彩的3句话'——但这3句话可能正是全书的价值所在。」

GitHub给了一个最后期限:6月19日前,用户可以通过设置页面关闭数据贡献。之后,新产生的代码交互将默认进入训练池。

你会去关吗?还是已经默认自己的代码不值这个操作成本?