出品 | 网易智能
作者 | 辰辰
编辑 | 王凤枝
AGI的进度条,目前已经跑到了70%到80%。
近日,OpenAI总裁格雷格·布罗克曼(Greg Brockman)做客Big Technology播客透露了上述观点。他断言,人类距离通用人工智能的终极奇点,远比想象中更近。
为了冲刺这一终局,OpenAI正倾注全公司算力,打造一款能直接接管电脑与浏览器的超级应用。为此,风靡全球的视频大模型Sora被迫让路。布罗克曼坦言,Sora的视频生成与GPT的推理引擎分属截然不同的技术树。面对极度受限的算力瓶颈,OpenAI做出了最冷酷的战略取舍:暂停多线狂奔,将全盘筹码押注在已被证实能清晰通向AGI的底层逻辑智能上。
在这场对话中,他还首次揭秘了代号为“Spud”的全新颠覆性基座模型。这款凝聚了两年研发心血的秘密武器呼之欲出,它将带来模型能力的全面跨越。Spud不仅彻底捅破了智力上限,能攻克顶尖学者束手无策的长周期物理难题;更大幅抬高了交互底线,凭借极其细腻的指令领悟力,彻底抹平人类使用AI的沟通受挫感。
以下为万字访谈的完整实录:
主持人:今天,我们很荣幸邀请到OpenAI联合创始人兼总裁布罗克曼,聊聊AI最具潜力的机遇、OpenAI计划如何利用这些机遇,以及所谓的“超级应用”究竟是怎么回事。他已经来到了我们的演播室。格雷格,很高兴你能来。
布罗克曼:谢谢你的邀请。
主持人:就在我们交谈之际,OpenAI正在关停视频生成业务,转而将精力集中在一个融合商业和编程场景的“超级应用”上。对于我们这些外部人士来说,OpenAI在消费端显然正处于领先地位,但现在你们却在转移资源。这背后到底发生了什么?
布罗克曼:这个问题可以这样看:过去,我们一直处于开发深度学习技术的阶段,目的是观察它是否能产生我们所设想的那种积极影响,以及能否用它构建出真正帮助人们生活的应用。与此同时,我们还有一个分支在尝试部署这些技术,这无论是为了维持业务运转,还是为了在技术真正成熟、实现我们创立公司时的所有愿景之前,积累一些现实世界的实战经验,都至关重要。
我认为我们现在正处于一个关键转折点,我们已经确信这项技术是行得通的。我们正从单纯的基准测试和近乎“实验室级别”的能力展示,转向真正的实战。为了进一步发展,我们需要观察它在现实世界中的表现,从人们在知识型工作和各类应用的实际交互中获取反馈。
所以,我认为这更多是基于技术演进阶段所作出的重大战略转变。这并不是说我们要从消费端转向B2B,而是在思考:我们该如何专注于最重要的应用?毕竟我们无法面面俱到。哪些产品在我们构建的过程中能产生协同效应,带来实质性的影响,从而提升每个人的生产力?
在我们的清单上,消费端涵盖了很多东西,但核心是个人助手(Personal Assistant),即一个了解你、与你的目标保持一致、并帮助你实现人生目标的AI。当然还有创意表达、娱乐等应用。而在商业端,放眼看去,它更像是一件事:你有一个艰巨的任务,AI能不能代替你去完成?它是否有足够的上下文来处理这些事?
对我们来说,优先级排序非常明确,最顶层的两件事是:一个是个人助手,另一个是能为你解决复杂问题的AI。当我们细算手中的算力时,发现现有算力甚至不足以同时支撑这两件事。如果我们再加入各种各样其他很有用、能帮助到人的AI应用,我们根本无法兼顾。因此,这其实是对技术成熟度和其即将到来的巨大影响的一种预判,我们需要有所取舍,挑选出那组我们希望其大放异彩并推向世界的应用。
主持人:之前听你谈到OpenAI的各种押注时,你曾把OpenAI比作“迪士尼模式”,即核心拥有极具吸引力的优势,然后以此为基础向不同方向衍生。迪士尼有米老鼠,然后可以做电影、主题公园和Disney+。对OpenAI来说,模型就是核心,由此衍生出视频生成、个人助手、企业服务。那么现在,这种“核心优势加多向衍生”的模式行不通了吗?你们是不是已经意识到,现在必须做出选择了?
布罗克曼:其实我认为这种说法在某种程度上比以往任何时候都更正确。但必须意识到的是,从技术角度来看,Sora模型(顺便说一下,它的生成效果确实非常出色)与核心的GPT系列推理模型属于技术树上的不同分支。它们的构建方式截然不同。在某种程度上,对我们来说,在目前的算力条件下同时追求这两个分支是非常困难的。
不过,我们实际上仍在机器人技术(Robotics)的语境下继续推进Sora的研究项目。我认为机器人技术显然将是一个变革性的应用,但它目前仍处于研究阶段。机器人技术还没有像我们明年即将在知识型工作中看到的这种技术爆发那样成熟和普及。所以,这其实是承认在现阶段,我们需要将主要精力放在开发GPT系列上。
这不仅意味着处理文本,也不仅是那些纯认知层面的活儿。例如,双向通信、出色的语音对语音界面,这些都能让技术变得非常易用且有用。而且,这不属于技术树的另一个分支,它们本质上是同一种模型,只是我们通过略微不同的方式进行了微调。所以,如果技术路线分叉太开,以至于产生了两个完全不同的产物(Artifacts),在算力受限的世界里是很难维持的。而算力之所以受限,是因为需求太旺盛了,人们对我们创造的每一个模型都有极高的期待和使用需求。
主持人:明白。那聊聊为什么你们不押注在这个看起来像是“世界模型”的版本上。视频模型能理解物体的运动逻辑,这对机器人技术显然很有用。为什么你们更看好GPT推理模型这棵树,而不是Sora已经取得实质性进展的领域?我是说,看到视频生成从1.0、2.0到3.0的进步是非常惊人的。为什么押注在这里?
布罗克曼:这个领域的“甜蜜烦恼”在于机会太多了(笑)。我们在OpenAI早期就观察到,只要是我们能想象到的东西,几乎都行得通。当然,它们面临的阻力、工程难度、算力需求各不相同。但每一个不同的想法,只要在数学逻辑上站得住脚,你就能开始获得相当不错的结果。我认为这恰恰展示了深度学习底层技术的威力。
它有能力处理任何类型的问题并直击本质,让AI真正理解生成数据的底层规则。所以重点不在于数据本身,而在于理解底层逻辑并将其应用于新场景。你可以把这种能力用在世界模型上,也可以用在科学发现或编程上。
在思考这项技术的落地时,我们的想法是,关于文本模型能走多远、文本智能的上限在哪里、它能否真正理解世界的运行方式,一直存在争论。我认为我们已经给出了明确的答案:它将通向AGI。我们已经看到了清晰的路径。目前,我们已经预见到今年将推出更加出色的模型。而OpenAI内部在决定如何分配算力方面的“苦恼”是与日俱增的。
所以,核心在于时序和时机。在这一刻,我们梦寐以求的应用正变得触手可及。例如,解决未解的物理难题。最近我们有一个案例:一位物理学家研究一个问题很久了,他把问题给了我们的模型,12小时后就得到了解决方案。他说,这是他第一次感觉到一个模型在“思考”。他觉得这可能是人类永远无法解决的问题,而我们的AI解决了。
当你看到这样的场景时,你必须加倍下注,甚至三倍下注。因为我们可以真正为人类释放这些潜力。所以对我来说,这不在于这些事物的相对重要性,而在于OpenAI交付AGI的使命,在于它如何造福每个人的愿景,以及我们已经看清了如何推动工程、科学和研究去实现这一切。
主持人:好的,待会儿我想回头聊聊你们预期的下一代模型。但我想在这点上再追问一下。今年早些时候我采访过Google DeepMind的德米斯·哈萨比斯(Demis Hassabis)。有趣的是,他说对他而言最接近AGI的东西是他们的图像生成器Nano Banana。理由是,图像或视频生成器要创造出那些画面,必须理解物体间的相互作用,至少对世界运作方式有某种构思。如果是这样的话,OpenAI全力押注另一棵技术树,会不会错失某些东西?
布罗克曼:我有两个答案。第一,绝对有这种可能。在这个领域,你确实必须做出选择,必须下注。这也是OpenAI的起点,我们认准了那条我们相信能通往AGI的路径并全力以赴。随机向量的总和为零,但如果将它们对齐,就能朝着同一个方向前进。
第二点是,图像生成在ChatGPT中其实非常受欢迎,我们也在持续投入和优化。我们之所以能做到这一点,是因为它并不是基于“世界模型”或扩散模型(Diffusion)的技术分支,而是基于GPT架构。所以,尽管数据分布不同,但核心栈底层的技术是统一的。这也是AGI最神奇的地方,有时这些看起来完全不同的应用,如语音对话、图像生成、文本(文本本身也包含科学、代码、个人健康、信息检索等多个维度),都可以在同一个技术框架内实现。
所以我个人以及公司从技术角度关注的重点,是如何最大限度地统一我们的研发路线。因为我们坚信这项技术将提振并赋能整个经济。而整个经济体量巨大,我们不可能包揽所有,但我们可以尽到自己的职责。
主持人:这就是AGI中“General(通用)”的含义。
布罗克曼:这就是那个“G”,事实确实如此。
主持人:谈到统一,这个“超级应用”具体会是什么样子的?
布罗克曼:我对超级应用的理解是,它将把编程(Coding)、浏览器和ChatGPT整合在一起。
主持人:没错。
布罗克曼:我们想为你构建一个终端应用,让你真正体验到AGI的力量,也就是它的通用性。如果你回看现在的对话模式,我认为它将进化为你的个人助手、你的专属个人AGI。它会照看你的利益,非常了解你,与你的目标一致,值得信赖,并在数字世界中代表你。
你可以把Codex看作我们目前为软件工程师构建的工具,但它正在变成“全员Codex”。任何想要创造东西的人都可以使用它,让电脑去做他们想做的事。这已不仅仅关乎软件开发了,而是关乎对电脑的操作。比如我忘了怎么设置触发器,直接问Codex,它就帮我设好了。这才是计算机本该有的样子,让机器去适应人,而不是让人去迁就机器。
所以,想象一个应用,任何你想让电脑做的事,都可以直接开口提要求。其中内置了具备浏览器操作能力的AI(Computer Use),你可以监督它在做什么。无论你是为了聊天、写代码还是处理通用的知识型工作,所有的对话都以统一的方式进行,AI拥有记忆,了解你的背景。这就是我们在构建的东西。
但这只是冰山一角。对我来说更重要的是技术的统一。我们刚才聊了底层模型的统一,但过去几年真正的变化不仅在于模型,还在于“工具链框架(Harness)”。比如模型如何获取上下文、如何与世界连接、可以采取哪些行动、交互的循环如何运作。以前我们有很多套不同的实现方案,现在我们正在将其收拢。未来我们将拥有一个统一的版本,最终形成一个AI层,它可以非常轻量地指向特定应用。如果你需要专门针对金融或法律的工具,可以构建小插件或UI。但通常你不需要,因为会有一个功能极其广泛的超级应用。
主持人:这个应用是面向商业场景还是个人场景?
布罗克曼:核心在于,就像电脑或笔记本一样,它是个人用还是办公用?
主持人:两者兼有。
布罗克曼:没错。它是属于你的。它是你个人的机器,为你提供了一个进入数字世界的接口。这就是我们想做的。
主持人:那从非商业角度聊聊。我在个人生活里用这个超级应用,会用它做什么?我的生活会发生什么变化?
布罗克曼:个人生活方面,就像你现在使用ChatGPT一样。人们现在用它的方式已经非常多元且惊人了:有的写不出来求婚辞就让它帮写草稿;有的把一个想法发给它要反馈;有的在做小生意让它出点子。这已经开始模糊个人和工作的界限了。
但如果你看ChatGPT的演变,它已经在进化了。以前它没有记忆,对每个人来说都是从零开始的AI,就像在跟陌生人说话。如果它记得你,记得你们之间的互动,那它的力量会大得多。如果它能接入你的个性化内容,比如关联你的邮件、日历,真正了解你的偏好和过往经历,并以此来实现你的目标,那它会变得无比强大。
比如ChatGPT现在的Pulse功能,每天会根据它对你的了解,推送你可能感兴趣的内容。在个人层面上,超级应用会做所有这些事,而且会以更深、更丰富的方式来呈现。
主持人:你们打算什么时候发布?
布罗克曼:我们正在循序渐进地推进。在接下来的几个月里,我们应该能交付这里所讨论的完整愿景。但它是分阶段落地的。我们的切入点是现在的Codex应用,它其实是二合一的:既是一个可以使用工具的通用智能体(Agent)框架,也是一个懂写代码的智能体。
这个通用框架可以用于太多领域了。把它挂载到电子表格、Word文档上,它就能辅助知识型工作。我们将让Codex应用在通用知识型工作上变得更加好用,因为我们已经在OpenAI内部看到了人们自发地这样去使用它。这是第一步,后面还有很多。
主持人:昨天我带一个同事看了下Codex,他提到有人指示Codex帮他剪视频。Codex自己写了一个Adobe Premiere的插件,开始分章节,并启动了剪辑。这就是我们正在谈论的未来。
布罗克曼:我太喜欢听到这样的反馈了。这正是我们希望这个助手能发挥作用的地方。Codex最初是为程序员设计的,目前非程序员的使用门槛其实还挺高的。因为在设置时你可能会遇到一些错误提示,开发者知道是什么意思、怎么修,但普通人会觉得这是啥,我没见过这东西。
尽管如此,我们还是看到从未编程过的人开始用它建网站,或者像你说的,通过它实现软件操作的自动化。我们公关团队的一位同事用它接入Slack和邮件,处理大量反馈并进行高效汇总。只要动力足够强,人们愿意跨过这些门槛去获得巨大的回报。所以,某种程度上我们已经完成了最难的部分,让AI变得极其聪明、能干。现在我们要做的其实是相对简单的部分,即让它变得更普及,消除这些准入门槛。
主持人:看看竞争格局,Anthropic有Claude应用,里面有聊天机器人、协作空间,还有Claude Code。他们也有自己的超级应用版本。我很好奇你认为Anthropic敏锐地察觉到了什么,才让他们能较早地卡位?你觉得你们追赶的机会有多大?
布罗克曼:回到12到18个月前,我们一直专注于编程领域,在各种编程竞赛和纯智力测试中数据总是最好的。但我们当时在“最后一公里”的易用性上投入不足。我们当时想的是,这AI这么聪明,能解这么难的题目,但它其实没见过现实世界里那些杂乱、并不像实验室里那么完美的底层代码库。
我认为在这点上我们曾落后过。但大概在去年年中,我们开始非常认真地对待这件事。我们成立了专门的团队去填补这些空白,去模拟现实世界中那些杂乱、不规范的场景。我们构建了训练环境,让AI体验真正的软件工程是什么样的,比如会被奇怪的方式中断。
我想说,目前我们已经追上来了。当人们拿我们和竞争对手做对比测试时,通常更倾向于选择我们。我们知道自己在前端体验上还有些欠缺,我们会解决的。但这正是我们整体策略的转变:不仅关注模型,而是把产品看作一个端到端的整体。在做研究的时候,就要考虑到它将被如何使用。这是OpenAI内部正在发生的变化。
同时,我们今年一整年都会有令人惊喜的阶跃式(Step-up)模型发布。看看我们的路线图,那真的令人振奋。现在我们也正在补齐那“最后一公里”的易用性。
主持人:自2022年以来,OpenAI一直是公认的领跑者。现在竞争显然非常激烈。你刚才用了“追上来”这个词。公司内部的氛围是否有变化?以前是遥遥领先,现在是在实打实地搏斗。有些报道说,OpenAI内部现在已经没有“支线任务”了,全部精力都集中在核心目标上。环境或氛围发生了怎样的变化?
布罗克曼:对我个人而言,最令我恐惧的时刻其实是ChatGPT发布之后。在假日派对上,我感受到那种“我们赢了”的氛围,我非常不喜欢。我觉得我们一直都是挑战者。这个领域的竞争对手都是老牌巨头,拥有更多的资金、人力资源和数据。OpenAI凭什么能竞争?
答案只有一个:我们永远不固步自封。我们始终觉得自己是挑战者。看到我们在市场上真正面临竞争,看到对手涌现并表现出色,对我来说是非常健康的。在我的认知里,你永远不能盯着竞争对手。如果你盯着他们的位置,你最多只能达到他们的位置,而到那时候他们已经移动了。
过去的情况反而是,很多人盯着我们的位置,而我们可以不断移动。竞争让我们公司内部达成了前所未有的对齐和统一。就像我说的,我们以前把研究和部署看作两件事,现在我们要把它们融合。这太棒了。
所以我认为,外界把你捧得有多高或者贬得有多低,其实都没那么重要。核心在于模型生成的节奏。我对我们的路线图和研发投入非常有信心。而在产品端,我们现在充满能量,要把这一切交付给世界。
主持人:你刚才几次暗示有新模型在路上。Spud到底是什么?《The Information》报道说你们已经完成了Spud的预训练,CEO萨姆·奥特曼(Sam Altman)也告诉员工几周内就会有一个非常强大的模型。团队相信它能加速经济发展。所以,Spud到底是什么?
布罗克曼:它是一个很棒的模型(笑)。但我认为这不在于某一个特定的模型。我们的开发流程是:先进行预训练,产生一个新的基础模型。这是一个巨大的工程,涉及全公司很多人,也是我过去18个月投入精力最多的地方,即专注于GPU基础设施,支持那些在大规模训练任务中开发框架的团队。
接着是强化学习(RL)过程。让AI运用它学到的知识。然后是后训练过程,教它解决问题、在不同语境下练习,最后赋予它行为逻辑和易用性。
你可以把Spud看作一个全新的基座、一个新的预训练版本。它凝聚了我们大约两年的研究成果。它会非常令人兴奋。世人能感受到的将是能力的全面提升。对我来说,任何单次的发布都不是终点,因为一旦发布,它也只是后续更强版本的早期雏形。我们会加快这种迭代引擎,Spud只是其中的一步。
主持人:你认为它能做哪些今天模型做不到的事?
布罗克曼:它能解决难得多的问题。它会更细腻、更懂指令,对上下文的理解也会更深刻。
人们常说一种“大模型独有的特质”(Big Model Smell),即当模型变得极其聪明、极具能力时,它会更顺从你的心意。你能直观地感受到这一点。当AI没听懂你提的问题,你还得反复解释时,那是非常令人沮丧的。所以我认为,在量变的同时,质变也会发生。以前你会感到受挫、甚至从没想过交给AI去处理的事情,现在你会不假思索地交给它。
它将拔高能力的上限,解决更多开放式、长周期的问题。同时它也会提升能力的底线,让任何你想做的小事都变得更好用。
主持人:对普通用户来说,有时很难感知到这种变化。GPT-4发布前有很多铺垫,发布后最初大家甚至有点失望,后来才发现它在特定任务上极强。对于下一系列模型,你认为它会在某些职业领域产生“阵痛级”的影响,还是对每个人来说都是普遍可感知的提升?
布罗克曼:我认为情况会类似。发布时,会有一部分人觉得“这跟以前完全天差地别”。但在另一些不那么依赖智力瓶颈的应用中,你可能感觉没那么明显。
但随着时间的推移,你绝对会感知到。因为最根本的变化在于你对系统的依赖程度。我们与AI互动时,脑子里都有一个关于“它能做什么”的心智模型。而这种心智模型的转变通常比较慢。只有当它完成了一件神奇的事,你才会惊叹原来它连这都能做。
比如在医疗信息获取方面,我有个朋友用ChatGPT来研究他癌症的不同治疗方案。医生曾告诉他那是晚期,无能为力。他用ChatGPT研究了很多不同的方案,并最终获得了治疗。在这种情况下,你必须先相信AI能帮到你,你才会投入精力去跟机器互动。我认为未来,这种“AI真的能帮到我”的共识将变得显而易见。所以,这既是技术的进步,也是我们人类对技术理解的同步进化。
主持人:在OpenAI内部,你们也会更多地依赖AI。听说你们正在开发一个“自动化AI研究员”,预计今年秋天发布。那到底是个什么产品?
布罗克曼:从目前的发展趋势来看,我们正处于这项技术爆发式增长(Takeoff)的早期阶段。
主持人:你所说的“起飞或爆发”是指什么?
布罗克曼:所谓的“起飞”,是指AI的能力正处于指数级增长的轨道上。部分原因在于,我们已经可以用AI来帮助我们制造更好的AI了。
主持人:嗯。
布罗克曼:所以我们的开发进程在不断加速。但我认为,“起飞”也体现在现实世界的影响力上。在某种程度上,每项技术的发展都是一条S型曲线,如果你放大来看,它其实是多条S型曲线的叠加,最终形成了指数级增长。我觉得这正是我们当下的处境。技术开发的速度越来越快,就像一台动力不断累积的引擎。
同时,现实世界中也充满了“顺风”助力:芯片开发商正投入更多资源;生态系统中也有越来越多的人在基于AI进行开发,探索它在各行各业的应用。所有这些能量都在为这个起飞阶段积蓄动力,AI正在从一个配角转变为经济增长的主要驱动力。我认为这不仅仅是我们在公司围墙内做的事,更是全世界、整个经济体共同推动技术进步及其应用的过程。
主持人:那么,那个“AI研究员”具体会做些什么?
布罗克曼:这个AI研究员的出现将是一个关键时刻。目前AI已经能承担很大比例的任务,我们应该让它实现自主运行。关于“自主”的含义,我们有很多思考。这并不意味着我们把它扔在那儿不管,过段时间再来看看它有没有做出好成果。
我认为我们依然会深度参与管理。就像带一名初级研究员一样,如果你让他独自工作太久,他可能会走弯路。但如果你是一名资深研究员,或者是一个有愿景的人,哪怕你不需要掌握具体的实操技能,你也能提供反馈,审阅他制作的图表,并根据你的愿景提供方向性指导。所以我认为,我们将构建的这套系统将极大地加速我们开发模型、实现研究突破的能力,让模型在现实世界中更实用、更易用,并且以越来越快的速度实现这一切。
主持人:不好意思,我再确认一下:它具体怎么工作?你会对它说“去帮我找到实现AGI的方法”,然后它就开始尝试吗?
布罗克曼:直观来看确实可以这么理解。从实操层面讲,我认为它可以涵盖我们一名研究科学家所做的全部端到端工作,并完全在计算机模拟环境中实现。
主持人:关于“起飞”的另一种理解是,AI的进步从循序渐进变成了势不可挡,最终走向超越人类水平的智能。英伟达CEO黄仁勋最近表示,他认为AGI已经实现了。你同意吗?
布罗克曼:每个人对AGI的定义都不一样。确实有很多人认为我们现在的成果就是AGI,这可以争论。但有意思的一点是,现在的AI技术表现非常“不均衡”(jagged)。在很多任务上,它绝对是超人类水平的,比如写代码,AI顺手拈来,极大地降低了创作门槛。
但同时,一些人类能轻易完成的基础任务,AI却依然感到吃力。所以,界限到底划在哪儿?目前这更像是一种感官上的判断,而不是严谨的科学。对我来说,我们确实正处于那个转折点。如果你5年前把现在的系统展示给我看,我肯定会说这就是我们追求的目标。但现实情况和我们预想的完全不同,所以我们需要相应地调整我们的认知模型。
主持人:所以你觉得现在还没达到AGI?
布罗克曼:我觉得大概完成了70%到80%。我们已经非常接近了。而且非常明确的是,未来几年内我们一定会实现AGI。尽管它在某些方面可能依然表现不均,但对于几乎任何涉及电脑操作的智力任务,AI都能达到一个极高的底线水平。
我现在的回答可能带有一点不确定性,这有点像物理学里的“不确定性原理”,大家可以见仁见智。但按照我个人的定义,我认为我们已经近在咫尺了。只要再往前推一步,我们就绝对能实现它。
主持人:你说我们正处于“起飞”过程中,全人类都在经历这一切。你会担心这个过程出错吗?毕竟在机会并存的同时,风险也很大。
布罗克曼:答案是肯定的。要获取这项技术的红利,就必须认真思考风险。如果你看我们的开发方式,从技术角度看,我们在安全和防卫上投入巨大。
“提示词注入”(Prompt Injection)就是一个好例子。如果你拥有一个极其聪明、能干且接入了各种工具的AI,你必须确保它不会因为某人给出的奇怪指令而倒戈。我们在这一领域投入了大量精力,拥有一支顶尖团队,也取得了惊人的成果。有趣的是,你可以在这里和人类做类比:人类也容易受到钓鱼攻击,容易被各种方式欺骗,或者无法完全理解工作的背景。我们将这些类比引入开发过程,每当我们发布或开发模型时,都会思考:我们如何确保它与人类价值观对齐并真正提供帮助?这是我们非常在意的。
当然,世界上还有更宏大的问题:经济会如何改变?每个人如何从中获益?这些不仅是技术问题,也不是OpenAI一家公司能解决的。但我确实花了很多时间在思考,不仅是推动技术进步,更是在思考如何确保它发挥出应有的积极潜力。
主持人:但令人担心的是,这是一场竞赛。OpenAI在围墙内所做的努力,也正在被许多开源玩家效仿,而他们在安全方面的限制和保护要少得多。你曾经说过,创造力需要很多人做对很多事,而破坏力只需要一个怀有恶意的人。我至少在这一点上很忧虑。当这是一场快节奏的竞赛时,虽然你的很多同行说“如果大家都停,我们也停”,但目前看来完全没有减速的迹象。所以,这种回报值得冒这个险吗?
布罗克曼:我认为回报绝对值得。但在某种程度上,这个回答太粗线条了。
从OpenAI成立之初,我们就一直在问:一个美好的未来是什么样的?这项技术如何提升每个人的生活?这里有两种截然不同的视角。一种是“集权化视角”,认为确保技术安全的方法是让唯一的参与者来构建它,这样就没有竞争压力,可以关起门来研究直到完善,然后再考虑推向大众。但这在某种程度上是一剂“苦药”,让人难以接受。
另一种是我们所说的“韧性生态弹性”(Resilience)。我们把它看作一个开放系统,有很多参与者在开发技术。但这不仅仅关乎技术,更关乎建立一套能辅助技术健康发展的社会基础设施。
回看电力的发展:全世界都在发电,它同样伴随着危险和风险。但我们建立了多元化的安全基础设施,比如电力安全标准、不同的利用方式、扩容方式,以及针对大规模应用的监管。大家能以普惠的方式使用电力,还有专门的检查员。针对这项技术的特性,我们建立了一整套系统。
对于AI也是一样,我们需要广泛的社会对话。如果这项技术将改变每个人的生活,那么大众必须参与其中,而不能由一个集权组织在秘密中完成。所以这对我来说是核心问题。我们坚信,围绕这项技术应该产生一个具有韧性的生态系统。
主持人:格雷格,我还想请教一下,2025年12月发生了什么?那似乎是一个拐点。在那之前,让机器不间断地写几个小时代码还只是理论,但那个时刻之后,大家都觉得:“我想我可以信任它让它跑一会儿了。”具体发生了什么?
布罗克曼:那是因为新模型的发布,让AI能处理的任务占比从20%跃升到了80%。这是一次巨大的飞跃。它不再只是一个挺好用的小工具,而是变成了一个你必须围绕它来重塑工作流的必需品。
对我个人来说,也有这样一个瞬间。我有一个用了好几年的测试提示词,就是让AI帮我建一个网站。当初我学编程时,花了好几个月才做出来。在2025年的大部分时间里,AI需要大概4个小时、通过好几次提示词引导才能做对。但在12月,它能“一步到位”,而且做得非常出色。
主持人:这些模型是如何实现这种跨越的?
布罗克曼:很大程度上归功于更强大的基础模型。OpenAI在提升预训练技术上深耕已久。在那一刻,我们让大家提前领略了今年后续将推出的成果。但这不取决于某一个单一因素,我们是在创新的每一个维度上持续推进。
这些模型有趣的地方在于,有时你会看到跨越式的提升,但有时它又是连续的。它不是从0跳到80%,而是从20%变到了80%。它一直在变强。在随后的每一个小版本更新中,我们都看到了持续的进步。比如从5.2到5.3版本,和我紧密合作的一位工程师发现,以前AI搞不定的那些低层硬核系统工程任务,现在它居然能发挥创造力了。他给AI一个设计文档,AI就能实现它,添加指标监控,运行性能分析工具,并最终优化到完全符合他的预期。
你可以把它看作是一个慢慢积累,然后瞬间爆发的过程。现在的技术水平预示着,在一年之内,甚至更短时间内,AI将变得无比可靠。
主持人:这让你感到惊讶吗?因为我不久前听你在采访中说Codex(自动化编程工具)只是为开发者准备的。但刚才你说每个人都能用。是什么让你改变了想法?
布罗克曼:我以前确实觉得Codex是为程序员写的。在OpenAI内部,我们很多软件工程师都在为自己开发工具,产生这种想法很自然。
但随着技术的发展,我们意识到底层技术的核心并不是关于代码,而是关于解决问题。它关乎于管理上下文、操控框架以及思考AI该如何集成并开展工作。这使得任何人都能通过描述意图来让AI执行任务。即使是写代码,你只要有愿景,AI就能帮你搞定。
接着我们想,为什么只局限在写代码上?处理Excel表格、做PPT,这些也涉及很多机械性的技能。如果AI有了上下文,它现在的原生智能足以高水平地完成这些任务。只要我们降低门槛,Codex就不再只是程序员的工具,而是每个人的工具。
主持人:在这个进步时刻之后,硅谷出现了另一个“静默现象”,就是OpenClaw(开源智能体项目)。人们开始像你建议的那样信任它,给AI机器人开放桌面权限,或者在一台Mac Mini上给它邮箱、日历和文件权限,让它代为打理生活。后来OpenAI把OpenClaw的创始人招入麾下。你能多谈谈“AI帮你打理生活”的愿景吗?
布罗克曼:弄清楚这项技术怎么变好用、人们想怎么用、智能体的愿景是什么、它如何嵌入人们的生活,这是一个难题。
我从几代技术演进中看到,那些全身心投入、充满好奇心和远见的人,拥有一种极其宝贵的技能。OpenClaw的创始人就是这样的人,他拥有非凡的远见和创造力。所以,招人不仅是为了特定的技术,更是为了研究如何将这些能力转化为人们生活中的实用工具。作为一名技术专家,这非常令人兴奋;而作为一个致力于为人们带来效用的人,我们正在加倍投入这个方向。
主持人:你最近有一个很有意思的比喻:当你让AI智能体代替你工作时,你就变成了“拥有成千上万个智能体的CEO”,它们在执行你的目标、完成你的愿景,而你不需要亲自动手处理每个细节。在某种程度上,这种新工作方式会让你感觉失去了对问题脉络的把握。这是好事吗?
布罗克曼:我认为这有利有弊。我们需要发挥这些工具的长处,同时规避弱点。
它能给人带来杠杆作用和主观能动性。但在这个世界上,最终必须有一个“负责方”。如果你让智能体去建个网站,它搞砸了,导致用户受影响,这不能怪智能体,是你的错。所以你必须在意。人们在使用这些工具时,必须意识到人类的主观能动性和问责制是核心。人类如何使用AI是极其基础的问题。在OpenAI内部,我们也坚信用户不能放弃责任,不能两手一摊说反正都是AI干的。
主持人:当然,但你说的“失去把控感”和“问责层面”是两码事。
布罗克曼:但在我看来它们是紧密相连的。如果你作为CEO离细节太远,失去了对公司或团队脉搏的把控,通常不会有好结果。
我当时想表达的并不是说“人类不需要知道发生了什么”是件好事。确实有一些细节,因为你建立起了信任,可以交给他人处理。就像你请装修商盖房子,很多细节你不需要操心,因为你信任他们。但归根结底,如果细节出了大错,你还是得在意,得了解。所以这里的细微差别在于:你不能盲目地接受“失去把控”。我们需要深入其中,理解系统的优缺点。当你不再参与那些低层机械细节时,应该是基于你对系统能力的信任。
主持人:关于模型最后一个问题。你谈到了模型的演进过程:预训练、微调、强化学习,让它学会一步步地解决问题并在互联网上执行任务。现在模型已经学会了使用工具。接下来的进化方向是什么?
布罗克曼:我认为我们正处于机器能力深度增加的过程中。这不仅关乎工具使用,还关乎如何构建真正出色的工具。
比如“操作电脑”(Computer Use),一个能操作桌面的AI基本上能做你做的一切。但我们还要为机器构建配套的技术,比如在企业端如何进行权限认证、审计追踪和可观测性。我们需要开发大量技术来跟上模型核心能力的步伐。
未来的发展方向还包括极佳的语音交互。你可以像我们现在聊天一样自然地和电脑交谈,它懂你,能按照你的需求办事,能提供建议。比如你早上醒来,它会给你一份日报,汇报你的智能体舰队在夜间取得了多少进展。它甚至可能在帮你经营一家公司。我认为这会是巨大的应用,“创业的民主化”即将到来。AI会告诉你:这里出了些问题,那个客户很生气,他想和真人谈谈,你该去跟他聊聊。
此外,还有拔高人类雄心上限、解决挑战的能力,这也是下一步。我们已经看到了苗头。我最兴奋的是类似AlphaGo的“第37手”(Move 37),那是一记任何人类棋手都想不出来的奇招。
主持人:那是创造力。
布罗克曼:那是创造力,它改变了人类对围棋的理解。这将在每一个领域发生:科学、数学、物理、化学、材料学、生物、医疗、药物研发。甚至可能在文学和诗歌领域,以我们无法想象的方式解锁人类的创意理解和构思。
主持人:既然模型已经这么强了,为什么你说的这些还没发生?
布罗克曼:我认为在“模型的能力”和“人们如何使用它”之间还存在一种“滞后”(overhang)。
主持人:人类接纳与应用的滞后?
布罗克曼:是的,我们对模型内在能力的理解还在探索中。所以即使技术不再进步,现有的能力也足以引发巨大的经济变革。
另一个原因是,我们目前非常擅长在“可衡量”的任务上训练模型。比如数学题、编程题,因为它们有完美的验证程序。要把这种能力带到开放性问题上,关键在于扩大“可评分”的范围。AI本身可以帮忙。如果AI足够聪明,你给它一套评分标准,它就能评估任务完成得好坏。当然,像创意写作、诗歌好坏,这类任务很难评分。所以我们以前教AI体验和尝试这类任务的能力较弱。但这一切都在改变,我们已经看到了明确的路径。
主持人:很有意思。彼得·蒂尔(Peter Thiel)曾说,如果你是个“数学人”,你可能比“文字人”更危险,因为模型会先取代你做的事。你以前也是数学俱乐部的成员,你不担心吗?
布罗克曼:我认为看清我们会失去什么,比看清我们会得到什么要容易得多。我们对旧方式有深厚感情:我以前参加过数学竞赛,现在AI能做了。但人类文明的驱动力从来不是数学竞赛本身。
如果你想一想现在的工作方式:我们坐在盒子里(指电脑前),对着盒子敲字。一百年前我们不这样。这种生活并不自然。这种数字世界并不是人类的本质。做人的本质是临场感、是当下、是人与人之间的连接。AI将释放出大量时间,让我们去增强这种连接。这让我非常兴奋。
主持人:最后聊聊规模化(Scaling)。随着向这种“智能体”场景转移,业界在讨论是否还需要进行超大规模的训练。有一种观点认为,如果模型足够好,就可以让它在真实世界中运行,通过非预训练的方式获得提升。你负责OpenAI的规模化(Scaling)工作,你怎么看这种观点?
布罗克曼:我认为这种观点忽略了技术开发中一个很重要的点。模型生产链条中的每一个环节都是“乘法关系”。所以你必须改进每一个环节。
事实证明,如果你改进了预训练,后面所有步骤都会变得容易得多。因为一个更强大的基础模型学习速度更快,它在尝试新想法和从错误中学习时,起步水平更高,犯错更少。
以前大家觉得预训练只是训练一个孤立的“大脑”,越做越大就行;现在的变化在于,预训练也要和真实世界的使用反馈挂钩。但这并不代表持续的研究和扩展不重要。以前我们只关注原生预训练能力,不怎么思考“推理能力”(inferential ability)。过去24个月的一个重大变化是,我们意识到必须平衡这两者。你不能只做一个庞大的底座,它还必须具备良好的推理性能,以便进行强化学习并服务全球用户。这意味着你不会盲目追求规模,而是追求“智能与成本乘积”的最优解。
主持人:如果重点转向推理,我们还需要英伟达的GPU吗?
布罗克曼:绝对需要。
主持人:为什么?
布罗克曼:原因有很多。其一,即便推理和训练的比例在变化,但除了将算力高度集中在某个问题上之外,你无法通过其他方式实现超大规模训练。未来部署规模会剧增,但大规模预训练依然需要密集的算力。而且英伟达团队非常出色,我们合作非常紧密。
主持人:会不会有那么一天,大家说“我们预训练得够多了,模型已经足够聪明了”?
布罗克曼:我觉得那得等人类解决完面前所有的难题之后吧。
我们想要达成的目标上限极高。过去50年里,人类在某些雄心勃勃的领域其实有些退缩了。比如,我们能不能让每个人都享有普惠医疗?而且是预防性的,而不只是出问题了才去治。通过更聪明的模型,我们其实可以实现早期的风险监测。可能到了某个阶段,你会觉得这个领域解决了,不需要更聪明的模型了,但还有无数其他难题在等着更强大的智能去攻克。
主持人:我们来算算建设这些数据中心的“经济账”。你们在今年早些时候筹集了1100亿美元,这背后的逻辑是什么?这些钱是直接投向数据中心吗?你打算如何向投资者提供回报?请谈谈你们的这些考量。
布罗克曼:好的。我认为逻辑很简单:我们眼前看到的巨额支出几乎都投在了“算力”上。但你可以不把算力看作“成本中心”,而是一个“利润中心”。这有点像雇佣销售人员:你想雇多少销售?只要产品卖得出去,只要你有一套可扩展的销售模式,那么销售越多,收入就越高。
我们现在的处境是,我们发现算力的建设速度永远跟不上需求的增长。我有非常具体的感受:目前我们总要被迫权衡产品发布和算力分配。我认为这种现象将会在整个经济体中普遍出现。随着我们转向AI驱动的经济,核心问题将变成:哪些问题值得分配那些海量的算力?如何实现规模化,让每个人都能拥有自己的个人智能体?如何让每个人都能用上Codex这样的系统?目前全球的算力储备根本不足以支撑这些愿景,所以我们正努力走在问题前面。
主持人:但这是一个全新的品类,而你们做得非常有信心。我是说,这种投入规模在人类历史上的类似项目中是前所未见的。当你开创一个新品类时,你是如何确定这一定能成功的?
布罗克曼:我认为这由几个因素构成。首先,目前已经有了历史先例。我记得在发布ChatGPT时,我和团队有过一次一模一样的对话。他们问:我们该买多少算力?我说:能买多少买多少。他们又问:不,说真的,到底要买多少?我说:无论我们建多少,我知道都满足不了需求。事实证明确实如此,此后的每一年都是如此。
挑战在于,算力采购必须提前18个月、甚至24个月乃至更久进行锁定,才能确保交付。这意味着你必须有前瞻性的预测。目前我们大部分收入来自消费者订阅,这当然非常重要,我们也看到了其他新兴的收入来源。但眼下最明确的机会在于“知识型工作”。我们看到各行各业的企业都意识到这项技术确实有效,为了保持竞争力,他们必须接入AI。你能感受到成千上万的软件工程师在使用它,这种能量正在向企业内部的各种知识型工作渗透。这个行业的付费意愿和收入增长是非常清晰的。这一切正在发生,你只需要把这个趋势推演下去。此外,我们能看到一些外界看不到的东西,那就是模型改进的明确路径。综合来看,经济体是一个庞大的系统,其规模超乎想象,而未来经济增长最核心的驱动力将是AI、你利用AI的能力,以及支撑AI运行的算力。
主持人:你提到消费者订阅是目前最大的收入来源,那么预测未来这会反转,企业业务会成为大头吗?
布罗克曼:我认为企业端的增长趋势非常明显。而且“企业业务”的定义也在发生变化,它本质上是人们将其用于生产性的知识工作。在定价方面,如果你看现在的Codex,只要你有ChatGPT的消费者订阅就能使用它。所以我认为未来分类不会那么界限分明。它更像是你的笔记本电脑,是一个通往数字世界的门户,收入从根本上将源于此。
主持人:Anthropic CEO达里奥·阿莫代伊(Dario Amodei)曾评价你们,有些玩家在玩“YOLO”(孤注一掷),风险敞口拉得太大,他对此表示担忧。我想他指的是你们在基础设施上的豪赌。你怎么看?
布罗克曼:我不认同这个说法。我认为我们一直非常清醒,并且预见到了未来的趋势。我认为就在今年,大家就会看到所有参与者都会面临算力吃紧的局面。我们在预判技术走向和提前布局方面是最积极的。其他玩家可能直到去年年底才意识到这一点,然后开始到处搜刮算力,但那时已经基本没有余量了。发表评论很容易,但大家都已经意识到这项技术是玩真的。软件工程只是第一个例子,而我们现在根本上是受限于可用的算力。
主持人:阿莫代伊还提到,如果他的预测出现一点点偏差,公司可能就会破产。你们的情况也一样吗?
布罗克曼:我觉得其实有更多的“缓冲空间”(off-ramp)。考虑下行风险是很合理的问题,但在某种程度上,这场赌注赌的不是某一家公司,而是整个行业。这取决于你是否相信这项技术能产出并交付我们预见到的巨大价值。我再次以软件工程为例,如果你不是软件工程师,没试过Codex,很难向你描述那种代差感。人们很快就会体验到这一点。六个月前,我们可能在内部看到了这些迹象,但外部证据还不够多;现在证据已经到处都是了。再过六个月,我认为每个人都会有切肤之痛:明明有一个超棒的模型摆在那儿,却因为算力不足而无法使用。
主持人:是的。去年年底风险投资人兰詹·罗伊(Ranjan Roy)曾说2026年将是“智能体之年”,每个人都会用上智能体。我说我得眼见为实,直到我自己用上才信。那么现在,你平时用智能体做什么?
布罗克曼:我用它来为我的团队开发内部工具,比如协调视频发布的进度、确定缩略图的设计。我还接入了YouTube的数据,让它根据缩略图的表现来给视频排序。这是一款为我量身定制的软件,换作以前我绝不会花钱请人专门开发。
这就是这个时代有趣的地方:传统软件追求规模化,服务于大众,因此很多功能并不是为你量身定做的。而AI让我们能以更自然的方式与软件交互。我认为这是关键。现在的电脑交互方式其实把我们困在了数字世界里,想想你每天花了多少时间刷手机、点来点去、试图把这个应用的数据连到那个应用上。为什么非要这么麻烦?AI的核心是让机器更贴近人,实现个性化,理解你的意图。我们在流行文化里看了几十年那种动动嘴就能办事的电脑,现在它终于成真了。这种神奇的体验只有亲自尝试才能理解。我们正处于一个非常特殊的时刻。
主持人:那么,为什么AI在公众中还是这么不受欢迎?比如YouGov的民调显示,认为AI对社会有负面影响的美国人是持正面看法的人的三倍。你认为原因是什么?你会担心AI的品牌形象吗?
布罗克曼:我觉得我们需要向大家展示AI到底好在哪。不仅仅是宏观经济或GDP的增长,而是它如何切实改善个人的生活。我每天都能听到很多生动的故事。比如有一个家庭,孩子一直头疼,有医疗问题,但保险公司拒绝提供MRI(核磁共振)检查。他们用ChatGPT研究了症状,发现可以用特定的理由去跟保险公司据理力争。他们成功了,结果发现孩子确实患有脑瘤,因为及时获取了正确的信息并介入,他们救了孩子的命。
这只是一个故事,还有无数类似的例子,人们的生活因为与AI协作而得到了深刻的改善。但这些故事并没有广泛传播,某种程度上真相还没有被完全讲述出来。我也注意到,90年代以来的流行文化中有很多对AI负面的刻画,人们总担心会出事。但当人们真正开始使用AI时,他们会发现它的效用和价值。所以我确实很担心我们还没能成功让大众理解:这波技术浪潮将改善他们的生活、增强人与人的连接。这是我非常关注的一点。
如果你看眼前的机遇,AI之所以如此重要,是因为它将成为未来经济和国家安全的源泉。这关乎国家竞争力。像中国等国家也在发力,但在那些地方,AI的应用导向可能完全不同。所以,承认这一点并确保让所有人受益,是非常非常重要的。
主持人:但我们现在处于一个动荡时期,人们担心工作。每次我跟人聊起AI,他们都会问我的工作还能保住多久?而且关于数据中心的民调甚至比AI本身还要糟糕。更多人认为数据中心对环境、家庭能源成本和周边生活质量有害。好工作本身就难找,人们看到数据中心进驻社区,第一反应就是负面的。他们错了吗?
布罗克曼:我认为关于数据中心存在很多误解。一个典型的例子是耗水量。如果你看我们在阿比林的设施(全球最大的超级计算机之一),它全年的耗水量其实仅相当于一个普通家庭。它的耗水量是微乎其微的,但外界传言数据中心是“耗水大户”。
电费也是一样。我们承诺会自担成本,不会推高民众的电费单。这是整个行业的共识,因为改善当地社区非常重要。当我们建设数据中心时,我们会深入社区了解当地情况。数据中心能带来丰厚的税收和就业岗位,有很多好处。这取决于我们的表现,这也是我们非常看重的责任。
主持人:可是,即使不推高电费,你们引入大量电力也意味着可能产生更多污染,这不值得担心吗?
布罗克曼:关于不推高能源成本,其实有很多细节。如果你看现在的电网,其实有很多“闲置电力”(stranded power)被浪费了。你需要升级输电系统,而这笔升级费用由我们承担,而不是由普通缴费用户(ratepayers)承担,这很重要。很多地方有清洁能源但利用不足,只能白白流失。
电网在很多地方都已陈旧过时,而数据中心的入驻给了电网升级的现实动力,这对社区是有实实在在好处的。比如在北达科他州,我们看到因为数据中心的到来帮助改善了公共事业,当地居民的电费反而下降了。
主持人:好,最后一个关于政治的问题。你向支持特朗普的政治行动委员会MAGA Inc捐款了2500万美元。你在接受《连线》采访时说,只要有助于这项技术造福大众,任何事你都会做。如果这让你成了一个“单一议题选民”或政治支持者,我一直有个疑问:候选人是否完全支持你的事业并不重要,只要国家更强大,你的目标不是更容易实现吗?无论如何,国家强大难道不应该是政治活动的方向吗?这是你捐款初衷的一部分吗?
布罗克曼:我是这样看的:这笔钱是我和妻子共同捐出的,我们也捐助过跨两党的超级政治行动委员会。这项技术在未来几年会迅速改变一切,成为经济的基石,但目前它并不受欢迎。我们希望能支持那些真正愿意深入了解、并积极拥抱这项技术的政治家。这项技术关乎提升整个国家的实力。我确实是一个“单一议题捐助者”,我觉得在这个领域我有独特的贡献可以做。这本质上是表达对技术发展的支持,我认为这是国家应该努力的方向。
主持人:对于那些害怕AI的人,你有什么想说的?如果你现在能直接对他们喊话,他们可能觉得AI会抢走工作、污染社区、让世界变动太快。你的信息是什么?
布罗克曼:第一件事是:去试用这些工具。因为只有亲自体验现在的AI,你才能真正理解它能为你做什么。我们看到了巨大的赋能潜力。比如你刚才说的,从未建过网站的人现在可以建网站了;如果你想做个小生意,正为后台流程和管理发愁,AI现在就能帮你。在生活中,它如何帮你看病、帮你的家人、帮你赚钱或省钱,这些都在桌面上。看清变化很容易,看清获益却很难。但值得给它一个公平的机会,去全面了解天平的两端。
主持人:顺便提一下,民调数据里没提到的一点是:那些只是听说但从未尝试过AI的人最悲观;而那些重度用户,甚至只是偶尔尝试的人,通常对这项技术持非常积极的态度。
布罗克曼:对我自己来说,我们思考这项技术已经很久了。我所看到的未来,比我们想象的更神奇、更有利,且将产生更积极的影响。
主持人:最后一个问题:你会建议人们如何为未来做准备?肯定不止是“去用工具”这么简单。我有朋友跑来问我我不知道我的工作和这个世界会变成什么样,我到底该怎么办?
布罗克曼:我认为首要任务还是理解技术。我们发现,那些从技术中获益最多的人,往往带着好奇心。你要把它带入你的工作流,度过那个“面对一个空白对话框,不知道该干什么”的初始阶段。去培养一种“主观能动性”:意识到你可以是管理者,你可以设定方向,你可以委托任务,你可以进行监督。这种能力将变得至关重要。我们开发这项技术是为了帮助人类促进连接,让人类能花更多时间做自己想做的事。那么,问题就变成了:你想做什么?明确你的目标,并尝试在技术的帮助下实现它,这将是最重要的事情。
主持人:格雷格,非常感谢你参加节目。
布罗克曼:谢谢你的邀请。
主持人:好的,感谢大家的收听和收看,我们下期《Big Technology》播客再见。
热门跟贴