“迄今为止,关于Sam Altman被开除事件的最合理解释:大概是OpenAI后来发生了不可逆的事,人类最后无法控制AI,万计无施之下,有人穿越时空回来,组织了这次会议,开除了Sam,阻击ChatGPT关键版本的研发,给人类争取了宝贵的反击时间。

打开网易新闻 查看精彩图片

如果你关注OpenAI的“宫斗剧”,想必看到过这一说法。随着阿尔特曼回归,这场闹剧似乎画下了句点,只是引发它的导火索究竟是什么?

这两天,位于硅谷的科技媒体The Information,以及路透社接连爆料,暗示闹剧和OpenAI正在突破的关键技术有关。

换句话说,网友们津津乐道的《终结者》桥段,至少有一小部分可能是真的。

分享The Information深挖的信息前,不妨先了解下这家媒体本身。它成立于2013年,创始人和总编Jessica E. Lessin(莱辛)毕业于哈佛,在《华尔街日报》供职多年。莱辛在硅谷有广泛的人脉,最知名的是她和扎克伯格的关系。

打开网易新闻 查看精彩图片

算起来,扎克伯格是莱辛的小学弟,而且还收购了莱辛丈夫的科技公司。两个家庭之间关系十分密切。2012年,莱辛结婚时,扎克伯格还是伴郎。

当然,小扎也是The Information的付费用户。The Information采取付费订阅制,而且年费高达399美元,目前优惠价是299美元,如果加上pro版提供的各项服务,优惠价是749美元/年。

打开网易新闻 查看精彩图片

不过,科技圈追捧The Information,主要还是因为它总能挖到更多信息,采写出深度稿件。莱辛的宗旨就是宁缺毋滥,宁可花多点时间做有观点、深度和专业度的内容。因此,他们的科技报道通常比较权威和靠谱。

按照The Information了解到的信息,在开除阿尔特曼前,OpenAI取得了重大突破,引发了许多人的兴奋和担忧。(原文标题:《OpenAI Made an AI Breakthrough Before Altman Firing, Stoking Excitement and Concern》)

打开网易新闻 查看精彩图片

这算不上意外。其实,就在被解雇的前一天,阿尔特曼曾在APEC首席执行官峰会上给出了暗示。他的原话是,“在OpenAI的历史中,我已经四次有幸亲身经历并且推动认知界限的拓展和发现的前沿,最近一次是在过去几周,能够参与其中是我职业生涯中的极大荣誉。”

然而,随着后来解雇的消息传出,这一神秘感十足的表态未能引起关注。

The Information采访了一些OpenAI员工,证实阿尔特曼说的就是OpenAI今年早些时候的创新,它能帮助公司开发出更强大的大模型。而牵头研发的,正是闹剧的始作俑者之一,首席科学家 Ilya Sutskever(伊尔亚·苏茨克维)。

不久前,苏茨克维在接受《麻省理工科技评论》专访时,也重申了“ChatGPT可能已经有了意识”。去年2月份,他就曾在推特上表示,大型神经网络或许已经有了“轻微自主意识”。

打开网易新闻 查看精彩图片

按照员工的说法,OpenAI这一技术突破引发了很多员工的担忧。他们认为公司在商业化这些高级AI模型时可能缺乏适当的安全措施——此前的信息也表明,这场闹剧的根本分歧还是在大模型的商业化边界。

无独有偶,这两天路透社也发布了一篇报道,阿尔特曼被迫离职前四天,几位研究员向董事会发送了一封紧急邮件,警告说他们发现了一种强大的AI技术,可能对人类构成威胁。

那么,这一突破性技术究竟是什么?

先来看发生在2017年的一件事。那年5月,世界排名第一的柯洁和AlphaGo进行三场人机对决,难尝一胜。但战胜人类并不是AI的终点。数月后,研发出AlphaGo的DeepMind推出了AlphaGo Zero。

打开网易新闻 查看精彩图片

Zero(零)这个名字颇具禅意,实际上DeepMind团队想要表达的就是“从无到有”这层意思。依靠强化学习,AlphaGo Zero从一张白纸开始自己学习如何下围棋,所有的对弈经验全靠和自己“左右互搏”积累。

21天后,它的棋力赶上了AlphaGo,并很快形成碾压——在100局的对弈里,让老前辈吃了个鸭蛋。

打开网易新闻 查看精彩图片

相比极其依赖数据输入的监督学习,强化学习可以利用有限的数据,不断“生产”出新的数据,帮助自己不断学习。从AlphaGo Zero来看,强化学习对数据和算力的消耗都更少,而且成长速度更快。

旧事重提的原因,是OpenAI很有可能沿着这个路径找到了让大模型进一步突破的方法。根据The Information和路透社的爆料,这个方法对应的项目或者模型的名字为Q-Star。不知道这个Q是否对应强化学习里的重要算法Q-Learning。

说起Q-Star,它也和苏茨克维有关。多年来,他一直在研究让大模型解决包括数学在内更复杂的推理问题。2021年,就启动了一个名叫GPT-Zero的项目,顺便向AlphaGo Zero致了个敬。

大模型的进步仰仗于算力、算法和数据。一直以来,缺乏高质量数据是阻碍大模型发展的障碍之一。从现有且有限的信息来看,GPT-Zero和AlphaGo Zero一样,可以由AI自生成数据,提升训练效率。

此前,苏茨克维就曾明确表示:“数据限制是可以克服的。”但不愿意进一步透露详情。

基于这个GPT-Zero,OpenAI的两位研究员Jakub Pachocki和Szymon Sidor开发了Q-Star,一个能解决基础数学问题的模型,对应的是完成相对复杂的推理。

这也是阿尔特曼曾提到过的,开发通用人工智能最大的挑战之一,让AI能够进行基本的理解和创新。以他为代表的AI热衷者相信,只要AI能够具备接近人类的推理能力,就有可能彻底改变现阶段人类的科研方式。

当然,关于GPT-Zero和Q-Star究竟有多厉害,目前还没有任何确切的证据。只是一系列蛛丝马迹表明,它们确实比GPT-4.0又往前踏进了一步。而这场意外开始又意外结束的“宫斗剧”无疑加深了外界对于它们的好奇心,甚至有可能戏剧化地夸大了它们的能力。

比如,已经有网友预测,Q-Star是一种非常先进,具有“可怕数学能力”的模型,具备自主学习、自我改进,甚至自我意识。

另外,倘若两者能力真的那么恐怖,经过这场闹剧,OpenAI还会按照既定速度持续推进下去吗?答案只能拭目以待了。

6年前,输给AlphaGo后,柯洁一度怀疑自己坚持的意义。在Zero出现后,他在微博上发了一段意味深长的话:“最后,一个纯净、纯粹自我学习的AlphaGo是最强的……对于 AlphaGo的自我进步来讲……人类太多余了。”

打开网易新闻 查看精彩图片

文 | 梁应杰

打开网易新闻 查看精彩图片