一个安卓应用开发者像往常一样打开工作邮箱,但一封来自谷歌的邮件让他停下了滚动的手指。邮件标题措辞克制,却透着一股不寻常的神秘感——“诚邀加入一项保密内容报价试点”。开发者说,他的应用在Play商店累计下载量高达数百万次,平日里收到过不少合作邀约,但这封邮件的沉默程度,让他嗅到一些不一样的气息。为了不惹恼这家科技巨头,开发者选择匿名向404 Media透露了邮件详情,于是,谷歌一个悄然运行的计划浮出水面。

这封邮件的核心很直接:谷歌想付费购买开发者手里的源代码。准确地说,是Android应用背后的整个代码库,包括正在线上运行的活跃生产代码,也包括那些被归档的早期原型、早已搁置的副项目代码。邮件写道:“无论那是驱动你当前应用的活跃生产代码库,还是不再使用的原型和副项目归档,那些代码都可能拥有未被挖掘的价值。这是一个独特的机会,可以帮助重塑工具与产品,支持开发者生态,并开启新的收入。”语言包装得很体面,但一个事实藏在字缝里——对于那些已经躺进硬盘深处、不再产生一分钱的旧代码,谷歌突然说,它们值钱。

打开网易新闻 查看精彩图片

对于收到邮件的开发者而言,这像是一场意外的小额财富。邮件的条件并不严苛:开发者仍然保留代码的知识产权,谷歌只获得一份非排他许可。也就是说,开发者可以把同一份代码同时授权给其他人用,自己的应用也完全不受影响。在这样一个大模型公司为了争夺训练数据而寸土必争的时代,这份宽松的条款更像一个示好信号。可邮件从头到尾没有一处提及“人工智能”,只是模糊地说要“帮助改进谷歌的开发工具与产品”。然而,邮件中嵌入的一个链接,直接撕开了这层遮罩——点击之后,浏览器跳转到了一个名叫“合作改善我们AI产品”的页面。

这个AI合作页面详细解释了一项更广泛的策略:除了从互联网上公开抓取的内容,谷歌正在有意识地支付费用,以获取“多种媒体格式下的非公开内容”。页面上没有点名具体是哪一类AI工具,但其陈述的愿景带着典型的谷歌式宏大叙事——帮助个人,帮助企业,帮助整个社会。它把AI训练描述成一次应对代际挑战的使命契机,举例说,AI可以帮世界抗击和治理自然灾害,还能帮医生更早地检测出疾病。看起来,代码只是这场非公开内容采购的一环。可站在开发者的视角,他们更关心的是:自己写下的那些一行行命令,将要被用来训练什么?

答案其实就藏在谷歌当下的竞争焦虑里。在AI生成代码这条赛道上,谷歌已经明显落后于它的两个老对手。Anthropic凭借其代码助手Claude Code的成功,估值一路飙升,甚至超过了曾经的行业天花板OpenAI;另一边,微软的Copilot也早已被大量开发者装进自己的编辑器,从辅助补全到整块生成,用户习惯已经定型。反观谷歌,尽管手握庞大的安卓生态和海量的公开代码资源,却迟迟没能在AI编程工具领域拿出一款口碑炸裂的产品。如今它开始绕过公开网络,直接向Play Store开发者伸手要代码,这个动作本身就意味着:光靠那些能公开抓取到的代码,已经不足以训练出一个足够好的编码智能体了。

谷歌购买Reddit内容的先例,从另一个维度印证了训练内容的枯竭。此前,谷歌曾向Reddit支付6000万美元,换取对平台内容的AI训练权限,但结果被评价为“喜忧参半”。Reddit的帖子和评论区虽然信息量庞大,却充斥着梗、争吵和情绪化表达,与编程所需的严谨逻辑相去甚远。这一次,谷歌把目光转向了能精确运行的真实项目代码,背后折射出的是一种紧迫感:各家AI实验室已经把互联网上相对优质的公开发文本、图片、音频刮取殆尽,剩下能直接喂养模型的“干净”语料正变得越来越稀少。买代码,就是在买那些还没被刮刀扫过的处女地。

开发者收到的那封邮件中还有一个耐人寻味的表述——它邀请开发者提交的代码,可以是“不再使用的存档项目”。这相当于谷歌在为人工智能准备一种更精妙的养分。任何一个有过几年编码经验的人,硬盘里都堆着许多半途而废的工程:一些是为了测试某个新框架时搭建的雏形,一些是周末花了48小时捣鼓的创意副项目,还有一些是工作之余练手的算法实现。这些代码虽然没机会面对真实用户,却保留了有关结构设计、错误处理和重构足迹的完整历史,比零散的代码片段更能教会模型理解软件项目的演进过程。谷歌愿意为这些“废弃智商”付费,说明它已经意识到了:想让AI写出靠谱的代码,只喂给模型最终版本是远远不够的,还得让它看见人类程序员是怎么一步步试错、改设计和迭代的。

而谷歌选择不声张,甚至将整个计划冠以“保密”之名,很可能是因为它在小心翼翼地回避一个敏感话题:开发者们会不会愿意让自己的劳动成果变成训练AI的燃料?即便合同里写着非排他、永久保留版权,一些人心里仍然会划过一丝迟疑。近期围绕AI版权的诉讼和舆论风波此起彼伏,许多创作者群体对科技公司无补偿地利用自己的内容感到愤怒。谷歌用一封措辞温和的邮件、一个不显眼的链接轻手轻脚地试探水温,正是试图在公开博弈和法律风险到来之前,率先圈定一批能提供高质量私有代码的供给源。那个匿名的开发者之所以不敢暴露身份,也正是出于对这种试探背后的不确定性的忌惮——谁知道将来会不会有一天,“我授权了谷歌训练AI”这个事实,会反过来被同行或大环境当作某种把柄。

从整体业界趋势来看,谷歌为代码付费的行为只能算是一块小拼图,但它所折射出的“内容荒”却是一个越来越频繁出现的信号。当可公开爬取的高质量数据被消耗得所剩无几,AI公司自然会把触角伸向那些被围墙保护、被合同绑定、被存储在本地的非公开资产。代码之外,病历、财务报告、法律文书、设计原稿,都可能依次进入待购清单。谷歌这份“保密内容报价试点”,或许正是下一阶段AI军备竞赛的雏形:拼的不再只是算力卡的数量,还有谁能率先搭建起合法获取私有数据的一整套交易管道。而在这场管线建设的初期,一个安卓开发者邮箱里那封看似不起眼的邀约邮件,刚好把未来的竞争提前剧透给了所有人。