“如果你在读博士,别去研究LLM。毫无意义。你做不出什么贡献。”
编译 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
今年年初,图灵奖得主、深度学习先驱杨立昆(Yann LeCun)做出了最决绝的选择。在一手缔造了 Meta FAIR 实验室的辉煌后,他选择剥离巨头光环,创立了专注“世界模型”的新阵地——AMI Labs。此后他在很多公开场合都分享了大大小小的 Meta AI 内幕,包括离开的原因、和华人小将 Alex Wang 的“宫斗”以及未来的计划等等。
在五月份最新的这场万字深度对话中,杨立昆系统性地阐述了他的“逆行”逻辑,并以前所未有的坦诚,对当前 AI 生态抛出了极具穿透力的底层剖析:如果今天几乎所有大公司都在押注同一种技术范式,而这套范式又已经肉眼可见地开始撞上边界,那么下一步到底在哪里?
过去两年,大语言模型几乎重写了整个 AI 行业的叙事。它让代码生成、数学推理、内容生产、搜索和 Agent 重新变成一门显学,也让 OpenAI、Anthropic、Google、Meta 这些公司被拖进一场越来越重的军备竞赛里。但与此同时,另一组现实也开始变得越来越刺眼,高质量公共语料在枯竭,模型越来越贵,闭源越来越重,整个硅谷越来越像在同一条战壕里做同一件事。
杨立昆最不买账的,就是这条路线被过度神化这件事。
以下为本次极具思想密度的对谈实录精校版:
要点速览
LLM 是“有用的产品”,但不是通往人类级智能的道路。原因不在于它不够强,而在于它缺乏预测行动后果、形成计划和建模真实世界的能力。
主流 LLM 路线最大的问题,不只是贵,而是天然更适合语言、代码、数学这些符号系统,不适合处理高维、连续、充满噪声的真实物理世界。
硅谷正在出现明显的羊群效应,几乎所有公司都在追同一条路线,而高质量公共数据的枯竭、训练成本的暴涨和闭源加剧,都在让这条路的边界越来越清晰。
杨立昆承认对 Llama 没有技术贡献,真正推动的是 Llama 2 的开源;而他离开的深层原因,则是 Meta 已不再适合推进 JEPA 和世界模型这类长期研究。
研究、开发和产品之间本来应该有连续的接力机制,但当短期 KPI 和竞争压力压下来以后,探索性研究往往会最先失去优先级。
Tapestry 项目这套构想试图为美国和中国之外的国家提供另一种 AI 主权路径,通过联邦式协作训练开放基础模型,再让不同文化、语言和价值体系在其上做本地化微调。
LLM 并非通向人类智能的道路
主持人:杨,这真是我的荣幸。您是AI界的教父之一。我觉得几年前我刚开始做这个播客时,就一直盼着有一天能邀请到像您这样的人物。
杨立昆:我不太喜欢“教父”这个词,因为我住在新泽西。在新泽西,当你被称为“教父”时,那可不是同一个意思。(注:暗指黑手党)
主持人:说得很对。显然,当年在所有人都对神经网络持怀疑态度时,您依然选择押注于此,这本身就是一个传奇。我觉得今天您在很多方面也做出了类似的押注——您在逆势看衰LLM和许多人深信不疑的主流生成式架构。最近,您围绕这个主题创立了一家新公司。我们今天对话的目标,是让听众对AMI这家公司、你们在做的事情、您在Tapestry项目上的工作有更多的了解;探讨为什么您认为该领域的其他人对生成式模型的方向走偏了;同时,也听听您对该领域发展历程以及您在Meta时光的回顾。对于单集播客来说,这算是些“微小”的目标吧。
我想最好直接切入正题,因为这家公司似乎是您未来技术理念最清晰的宣言。您最近创办了这家专注于世界模型和扩展JEPA(联合嵌入预测架构)的公司,而JEPA显然是您在Meta时开创的。我想请您谈谈这个架构的起源,以及它在多大程度上是从人类大脑及其运作方式中汲取了灵感?
杨立昆:首先,我想声明,LLM本身并没有什么问题。从某种意义上说,LLM是我们所有人(包括我)都在使用的大量非常实用的AI产品的基础。在它们擅长的领域,它们表现得非常出色。我只是说,它们并非通向人类级别或类人智能的路径,甚至连动物级别的智能都达不到。这就是我的主张。我不是说它们毫无用处,我只是说它们不是通向人类智能的道路。
主持人:毕竟,您也参与构建了一些最早的主流开源LLM,对吧?
杨立昆:绝对是的。那么,AMI是什么?AMI代表“高级机器智能”(Advanced Machine Intelligence),它的副标题,或者说座右铭,是“为真实世界打造的AI”。基本上,人们今天所熟知的许多AI技术都擅长处理语言操作。无论是人类语言、计算机代码、数学,还是法律术语——虽然法律术语勉强算得上人类语言。
语言在某种程度上是非常特殊的,它特别适合最近大获成功的这类架构,也就是大型语言模型、GPT风格的架构。但是真实世界呢?理解物理世界又该怎么做?事实证明,现实比语言要复杂得多,因为它是高维的、连续的、充满噪音且杂乱无章的。
训练一个系统去理解真实世界要困难得多。这正是我们正在追求的目标。这也是我职业生涯大部分时间都在追求的东西,并且在过去五六年里加速推进,在过去两年里取得了重大进展。因此,围绕它创办一家初创公司,并全力以赴地推动它,是顺理成章的。到了去年年底,情况变得很明显:Meta确实不再是推进这件事的合适地点。这就是我离开并创立AMI Labs的原因。
主持人:我认为我们在整个行业都看到了一个有趣的趋势:许多人从大公司或研究实验室分离出来,去追求他们特别看好的某个研究方向。通过您在FAIR的经历,您对这种现象有着非常独特的观察视角。在这些公司里,似乎存在着一种张力:一边是“去探索尽可能多的不同研究方向”,另一边是“嘿,有个东西真的很奏效,这是我们未来6到12个月要卖的产品,去专注于那个”。我很好奇您对这种现象的看法,以及您在整个行业中观察到了什么。
杨立昆:这是一种很奇怪的权衡。研发实际上有两种模式。一种是大量的探索性研究,包含许多不同的研究方向。而有时候,某个东西似乎奏效了,你需要进一步推动它,这时它就不再是纯粹的研究了。从事这项工作的人可能还被称为研究员,或者至少在新闻报道中被称为研究员,但实际上它变得更偏向于工程化,是为了推动产品落地。
这种情况在Meta发生过好几次,起因都是FAIR发起的项目。在2023年初就发生了这样的事,当时在FAIR开发的Llama 1非常有前景。于是Meta创建了一个完整的组织——GenAI(生成式AI部门),来把它变成真正的东西和一系列产品,并推出了Llama 2、Llama 3以及令人有些失望的Llama 4。因为马克·扎克伯格(Mark Zuckerberg)对它感到失望,他有点像重启了整个组织,进行了重组,雇佣了新人等等。
但在过去一年里还发生了一件事,公司意识到自己有点落后了,所以将战略重心重新集中在试图追赶行业步伐上。这带来的一个令人遗憾的副作用是,许多探索性研究基本上不再被赋予高优先级。这其实并没有影响我正在从事的工作——也就是所有关于JEPA和世界模型的研究,因为马克本人、首席技术官博兹(Boz Bosworth)以及公司里的其他一些人都对这个项目非常感兴趣,并真正相信它的长期影响力。但公司的其他部门完全将注意力集中在LLM上,并向我明确表示,Meta真的不再是继续推进那个项目的合适场所了。
就在那时,我们开始取得很好的成果,我们清楚地意识到,必须完成从研究到实际开发技术、扩大规模并将其转化为产品的过渡。我们也意识到,我们所从事的这种技术的应用场景,大多是Meta并不特别感兴趣的领域。这类技术的很多应用都在工业界,比如制造业之类的地方。
主持人:显然,您正在追求世界模型。我觉得还有其他人从更偏向生成式的角度来切入世界模型领域。比如谷歌团队在Genie和视频模型上的工作;还有在机器人领域构建VLA(视觉-语言-动作模型)的人;以及李飞飞团队在3D空间模型上的探索。当您审视那些让您对JEPA模型感到兴奋的证据,并将其与生成式流派所做的工作进行比较时,您认为在对比这些架构和方法方面,我们今天处于什么位置?
杨立昆:“世界模型”现在正迅速成为一个流行词,在研究界肯定是这样,在工业界也在一定程度上如此。如果你愿意这么分的话,这里面有两个阵营。我不想谈论VLA,因为现在人们已经清楚地看到VLA走进了死胡同。它真的行不通。VLA指的是视觉-语言-动作模型。基本上,就是利用LLM技术来训练一个系统,使其产生控制机器人的动作。你有视觉输入、语言输入、动作输出,也许还有语言输出。这现在几乎被视为一种失败。它不够可靠,需要太多的训练数据,诸如此类。
然后就是世界模型。什么是世界模型?从非常宏观的层面来说,世界模型是让一个具身智能系统能够预见自身行动后果的东西。预测自己行动的后果。在我看来,我无法想象你怎么能去构建一个智能系统,而这个系统却不具备预测自身行动后果的能力。这是极其基础的。
当我们在世界上行动时,我们具备这种能力。当我们不考虑后果就采取行动时,我们是在冒很大的风险。很多时候,别人会觉得我们是个白痴。在目前的国际政治舞台上,我们有大量这样的例子——有些人完全丧失了预测自身行动后果的能力。
所以这就是世界模型。它仅仅是预测你自己行动后果的能力。如果你拥有这种能力,你就可以规划一系列行动来完成一项任务,实现一个目标。你通过规划、推理,通过搜索和优化的过程来做到这一点。你不是通过自回归地预测一个接一个的动作来做这件事的。你是通过搜索一系列能够完成你设定任务的动作来实现的。
这套蓝图与LLM目前能做的事情截然不同。LLM不具备预测其行动后果的能力,它们也不具备任何规划能力,因为它们的推理方式仅仅是预测下一个标记(token)。这不是通过搜索来实现的。
就在这几点上,你看到了我认为构成智能行为所必需的两个特征:预测行动后果的能力,以及通过优化、搜索来进行规划,从而找到能够产生正确结果的良好行动序列的能力。
然后还有第三个特征,那就是你如何预测行动的后果?如果我面前有一个打开的、没盖盖子的水瓶。如果我推它的底部,它会在桌子上滑动。如果我推靠近顶部的地方,它很可能会翻倒。我们无法精确预测瓶子会怎么倒,倒向哪个方向。我们无法精确预测它会怎么滑动,水会怎么洒出来,桌子是不是往一边倾斜导致水流向某个特定方向。我们绝不可能在像素级别上预测这些。因此,我们对世界的心智模型是在一个抽象的表征层面上进行预测的。
AI 开发者计划开放申请,免费领 50 小时云算力券
支持主流 AI 框架与模型部署
预测像素注定是一场败局
主持人:当您在研发这种架构时,它在很大程度上是受到了人类大脑的启发吗?显然,您阐述这些事物的方式正是我们人类做事的方式。
杨立昆:至少受到了认知科学的启发。至于你是否能将这转化为一种神经网络架构,中间还有巨大的鸿沟。认知科学算是一个动机。心理学家所说的“系统2”(System 2),即这种深思熟虑、反思性行为的理念,是指你确实会想象并预测你行动的后果,然后据此进行规划,这与你仅仅依靠反应和本能行事的“系统1”截然相反。
所以,是的,这里面有启发,但同时也有大量的经验证据表明,你根本不想去生成像素。很长一段时间以来,我一直对“通过预测来学习世界模型”这个问题非常感兴趣。大约五年前,我顿悟了,我意识到所有成功学习图像和视频表征的架构都是非生成式的架构,而所有生成式的架构基本上都失败了。
比如VAE(变分自编码器),或者更广泛的自编码器。这是一种思考学习输入抽象表征的自然方式。你把一张图片放到神经网络的输入端,然后训练它在输出端重现这个输入。现在,如果你用一个大型神经网络就这样做,你的神经网络不会做任何有趣的事情。它只会学到一个恒等函数。完全没有意义。行不通。如果你训练一个VAE来学习图像的表征,你会得到一些东西,但真的没那么好。稀疏自编码器也是如此。
然后你还有另一套技术,是从一种叫做去噪自编码器的东西衍生出来的。掩码自编码器(MAE)就是它的一个版本。在自然语言处理领域,BERT也是它的一个版本。你拿一张图片,以某种方式破坏它,然后训练这个大型神经网络去恢复原始图片。FAIR曾经有一个关于这个的巨大项目,就叫MAE。结果非常令人失望。耗费了大量的计算资源,却没有得到真正出色、令人满意的结果。
与此同时,一些参与MAE项目的人,以及巴黎和纽约的其他一些人,正在研究使用非生成式架构、联合嵌入架构的其他技术。拿一张图片,以某种方式破坏它,让这两张图片通过编码器,然后试图用一个预测器,从被破坏图片的表征中去预测原始图片的表征。这就是JEPA。
主持人:明白了。
杨立昆:JEPA的意思是联合嵌入预测架构(Joint Embedding Predictive Architecture)。你有一个编码器进行一次观察,另一个编码器进行另一次不同的观察。你试图用一个预测器从第二个编码器的表征中预测第一个编码器的表征。事实证明,这些技术在表征图像和视频方面,比预测像素要有效得多。比如DINO,DINOv1、v2、v3,这是一个在巴黎FAIR仍在进行的项目,还有像I-JEPA,以及后来的V-JEPA等项目。在此之前,还有SimCLR和MoCo,以及一大批大多来自Meta的不同技术。其他团队也提出了一些技术。但事实证明,这是比预测像素更好的学习图像表征的方法。
所以,不仅是我,很多人都恍然大悟:这才是正确的道路,而预测像素注定是一场败局。
主持人:感觉现在一些大模型公司发布了各种机器人演示,看起来越来越令人惊叹。它们似乎展现出了类似规划和推理的能力,即便它们以前没有见过某个房间或某个特定版本的任务,仍然能够执行该任务。对于那些观看了这些演示并觉得“啊,感觉生成式方法正在取得真正进展”的听众,您会怎么说?
杨立昆:确实有真正的进展,其中一些演示真的令人印象深刻。但它们是用大量数据训练出来的,这些数据要么是从实际操作中收集的,要么只是人类用手中拿着的类似机械爪的东西做动作收集来的。或者仅仅是追踪人的手和手指,然后将其转化为机器人的指令。这些系统主要是通过模仿学习(imitation learning)训练出来的,并在模拟环境中使用了一点强化学习来进行微调。
这种方法的问题在于,你需要大量的数据来通过模仿训练这些系统,这变得非常昂贵。而且它有点脆弱,这意味着你需要为你希望机器人解决的每一项任务收集大量数据。相比之下,如果系统拥有一个世界模型,能够让它预测行动的结果,它就可以直接规划行动来解决新任务,而实际上无需专门针对完成这项任务进行训练。
基于世界模型的系统所能达到的泛化程度要大得多,它能覆盖更广泛的任务,且所需训练数据比使用模仿学习和微调训练的系统要少。
主持人:毫无疑问,那些方法需要更多数据,而泛化性问题确实是最大的悬念。有些人展示了“在任务A上变得更好有助于完成任务B”的结果,但这显然仍然是围绕这些架构的巨大未解之谜。
杨立昆:你确实会在任务之间获得这种协同效应。你训练系统解决的任务越多,它用少量数据就能掌握的任务也就越多,无论你使用什么技术。但世界模型的希望在于,系统可以零样本(zero-shot)地解决它们,这是人类完全有能力做到的,许多动物也是如此。这才是真正的希望所在。用很少的训练数据甚至根本不需要训练数据,只需一点点类似强化学习的微调,就能解决更多的问题。
为什么一个17岁的孩子能在十几或二十个小时内学会开车?我们拥有数百万小时人类驾驶汽车的训练数据,却依然没有实现L5级别的自动驾驶汽车。显然,即便是对于自动驾驶这项任务,模仿学习也是行不通的。
主持人:我猜这将是一场竞赛:一边是开发这些能力(可能需要时间和大量数据),另一边是您说的这种新架构。我觉得现在有一种愿景,就是利用视频模型为模拟环境生成海量的合成数据,即便它并不完美,但从物理学的角度来看,这些视频模型足以帮助改进机器人和底层的物理世界。您如何看待这些方法?显然,视频一直是那里的重点。谷歌似乎正在走这条路。
杨立昆:我又要问这个问题了:为什么一个17岁的孩子能在20小时内学会开车?你不需要数百万小时的示范,也不需要合成数据。你完全不需要这些。我想要一个学习速度能像那样快的系统。如果我们破解了这个难题,那我们就不需要生成数据了。我们可能需要在模拟环境中训练系统,但不需要当前系统所需的那么多时间或尝试次数。这本质上是一个数据效率的问题。
主持人:我曾在播客中采访过杰瑞·特沃雷克(Jerry Tworek),当时他刚离开OpenAI创立自己的实验室。你能感觉到一种类似的张力,我觉得他甚至可能同意,如果你继续按照我们现在的方式扩展强化学习(RL),你会继续得到非常令人印象深刻的结果。但我认为他觉得,“天哪,一定有比这高效得多的方法。”这是一种有趣的张力,因为你可以想象,如果你是OpenAI,并且你知道某件事会继续扩展并变得越来越好,那么从商业角度来看,你并没有太大的动力去寻找数据效率更高的方法。
杨立昆:没错。其他公司也没有动力去做任何不同的事情,因为他们都在追逐同一个目标。他们承受不起落后于其他人的代价。所以他们都在做同样的事情。这有点像硅谷的羊群效应,每个人都在挖同一条战壕。
所以我特意把AMI Labs的总部设在了巴黎。美国的办公室设在纽约,而不是硅谷。
主持人:这真的很有趣,因为它指出了当今更广泛生态系统中存在的一种张力。你可以想象另一方的观点是:“当然,也许存在数据效率更高的方法,但那又怎样呢?既然我们可以通过不断扩展现有的东西来获得越来越好的结果。”而且显然,无论是从这些模型能实现的新功能,还是作为一个研究员发现新事物的乐趣来看,我完全理解为什么这些现有架构同样具有如此大的吸引力。
杨立昆:这是一场押注,但我们非常自信,因为我们已经有成果了。
主持人:当您思考AMI技术最初最让您兴奋的应用领域时,您认为这项技术会走向何方,您最期待什么?
杨立昆:为真实世界打造的AI。你的家用机器人在哪?你的L5级别自动驾驶汽车在哪?
主持人:我什么时候能拥有一个家用机器人?我对此非常期待。
杨立昆:那还得是几年后的事了。尽管有大量的公司在制造机器人,但这些公司中没有一家真正知道如何让它们变得足够聪明以至于实用,或者说让人放心把它放在有婴儿的家里之类的。绝对做不到。甚至对于相对狭窄的制造任务,除了通过模仿学习解决少数任务外,他们中也没有人真正知道如何可靠地做到这一点。
我们如何让这些东西变得有用?这是一个相对长期的目标。在短期内,工业界有海量的应用场景,你需要一个智能系统,它有能力预测“如果我改变这个复杂系统上的某个控制变量,会发生什么”。无论是一台喷气式发动机、一个化工厂、一个发电厂、一条生产线、一个病人,还是一个人类细胞。这些系统都极其复杂,你无法用少数几个方程式来模拟它们的行为。
传统的建模方式行不通。你需要做的是训练一个神经网络,一个深度学习系统,从数据中模拟该系统的动态过程。你最终得到的是该过程、该系统的一个唯象模型(phenomenological model)。如果它是以动作为条件的,那么你基本上就得到了该系统的一个世界模型,它能让你为了你的任何目的对其进行最优控制。我认为这在工业界的潜在应用数量是令人震惊的。
主持人:您认为在接下来的几年里,JEPA模型会发展到什么程度?有什么您可以指出的里程碑吗,或者您如何看待这里的发展路径?
杨立昆:几年有点短。五年吧,基本实现对世界的完全统治。
主持人:好的,所以在通往五年统治世界的路上。
杨立昆:这显然是个玩笑,但这是引用了林纳斯·托瓦兹(Linus Torvalds)的一句话。当人们问他“你做Linux的目标是什么?”时,他说,“完全统治世界。”而他实际上做到了。
主持人:说得极是。
杨立昆:粗略地说,世界上几乎每台计算机都在运行Linux。所以这算是个玩笑,但归根结底,我认为这是未来智能系统的蓝图。LLM仍然会有其一席之地,基本上是作为语言接口。但我们正在设计的是能够思考的系统。它们最初可能不会说话或倾听,但它们会进行思考,然后你可以在此基础上加上说话和倾听的功能。
主持人:我相信您和团队正急切地努力获取早期的证明点,显然你们已经在所做的工作中取得了一些成果。您如何设想在通往“五年统治世界”的道路上,你们能够展示哪些过渡性的成果?
杨立昆:在一年左右的时间里,我们将拥有一套通用的方法论,可以在非常广泛的模态上训练分层模型。我们知道我们在视频方面可以做得很好,虽然目前使用的一些技术我们还不完全满意,因为它们存在一些缺陷,但我们已经有了小规模的演示,证明这种方法论正是我们想要的。我们需要扩大它的规模,让它在视频等任务上达到与那些不那么令人满意的技术相同的性能水平,同时也应用于我们将从工业界合作伙伴那里获得的其他类型的数据集。
我们将展示我们能够训练世界模型,也许是以动作为条件的世界模型,让我们能够针对许多不同的用例进行规划。其中一些将是机器人技术,一些将是各种类型的工业过程控制。也许还有一些在医疗保健领域,因为我们在该领域有合作伙伴。这应该在一年到18个月内实现。然后,我们将与合作伙伴(其中一些已经是我们公司的投资者)一起,将这种方法论和这些模型推向这些实际用例中,并积累如何构建一个某种程度上通用的世界模型的经验。
主持人:显然,您以前就有过这种经历:对神经网络做出了极具争议的逆势押注,并在历史书上被证明是绝对正确的。当您思考这次的押注时——如果您去和AI各个前沿领域的大多数人交谈,他们会说这在今天依然是逆势而为的。您认为需要多长时间,人们才会清楚地认识到您是对的?
杨立昆:我认为这发生的速度会比预期的要快。也许因为你可以看到,“世界模型”已经成为一个流行词,至少在研究层面是这样,而且它开始渗透到工业界。很多人意识到VLA很糟糕,而LLM在处理真实世界数据时行不通。工业界已经意识到了这一点,至少在用户端是这样。而且由于机器人行业的重要性,很多人都在试图弄清楚,“我们该怎么达到目标?你怎么让这些机器人变得有用?”
我认为,人们对于“需要改变范式”的认知正在发生,到2027年初,这将对人们来说变得完全显而易见。当然,这并不意味着到那时我们就会有一个完美的解决方案。我们希望能有,但我们拭目以待。
今天的OpenAI就是昨天的Sun Microsystems
主持人:转换话题到LLM这边,您提到了您在Tapestry上做的一些工作,我觉得这对我们的听众来说会非常有趣。所以也许可以谈谈这个。
杨立昆:这与AMI Labs的事情有点不沾边。
主持人:就好像光是AMI还不够让您忙的一样。
杨立昆:这是我在过去三年左右形成的一个想法。人们越来越多地使用AI助手来做各种事情。你会看到传统搜索引擎的使用量在下降,你只需向你最喜欢的AI助手提问即可。如果Meta和其他公司开发的智能设备(如智能眼镜等)的计划得以实现,基本上你只需通过语音、通过你的智能眼镜或其他智能设备与你的AI助手交谈。你所有的信息摄取都将由AI助手作为中介。
如果你是世界上某个地方的人,假设在美国或中国之外,你有一个AI助手,而那个AI助手是在加州、北京、上海或深圳制造的,这对你来说并不好。你说的语言,这些系统可能并没有受过特别好的训练去处理。你的文化,硅谷和中国的人可能并不特别了解,互联网上公开可用的训练数据也不能很好地代表它。你的价值体系,绝对不代表构建这些模型的人的价值体系。而且可以肯定的是,你几乎肯定会有一些政治观点,是你从西海岸科技公司或中国公司那里能得到的少数几个AI助手绝对无法代表的。
那么解决办法是什么?你如何为一个印度的农民,甚至一个法国或德国的哲学家提供服务?你需要的是一个平台,它基本上是一个开放的、免费的、类似LLM风格的基础模型,任何人都可以对其进行微调,以迎合说特定语言、拥有特定文化、特定价值体系、政治偏见、信仰或任何特征的人群的兴趣。
你需要具有广泛多样性的AI助手。世界上有很多既不是美国也不是中国的国家,他们绝对希望获得某种程度的AI主权,不仅是为了他们的工业,也是为了他们的公民。他们不希望自己的公民被中国模型或加州模型洗脑。所以他们想要主权。
你如何获得这个?你让这样一个开放平台达到最前沿水平的方法,就是用比专有系统更多、质量更高的数据来训练它。如果你和印度、法国、越南、摩洛哥、瑞士、韩国、日本、哈萨克斯坦的人交谈,每个人基本上都想要主权。你告诉他们,“你们在本地训练你们的模型,你们不需要分享你们的数据。”
所以这就是Tapestry的核心环节。Tapestry的国际贡献者将共同训练一个全球模型,该模型基本上将构成全人类知识和文化的宝库。但贡献者提供的是数据和计算资源,同时他们将保留对自身数据的控制权。他们不需要与其他贡献者共享数据。
他们贡献的是参数向量。这将是一种类似联邦学习的模式:你有很多数据中心,它们从一个模型的全球共识中获取参数向量。你可以把它想象成所有贡献者参数向量的平均值。所有的贡献者定期通过可能是中央服务器的方式告诉其他人:“这是我的参数向量,你的是什么?”你们像这样交换参数向量,一个本地工作节点基本上在每次更新它的参数向量时,也会试图让它尽可能接近全球共识向量。
随着这个系统训练的推进,所有这些参数向量本质上会收敛到一个共识模型,这是一个全人类知识的宝库。现在你有了一个开放模型,它就像是在世界上所有数据上训练过一样优秀,现在你可以为了你自己的目的,为了你自己的政治、文化和语言偏见,或者你关心的焦点,对它进行微调。
我认为有一股自然的力量在推动这件事发生,因为大多数既不是美国也不是中国的国家都想要主权,但也因为AI正在迅速成为一个平台,而平台有一种走向开放的自然趋势。这就是Linux发生的事情,也是互联网软件基础设施或无线网络发生的事情。它们都是开源的。最初它们是专有的,但这完全被抹平了。
主持人:这是一种绕过开源减少趋势的非常巧妙的方法。显然,很多人担心随着闭源模型变得更好,它们会被保留在内部,用于训练下一代模型,闭源模型将出现一种“逃逸”现象,它们会比开源对手好得多。
杨立昆:回想一下1996年互联网基础设施的巨头是谁。Sun Microsystems、惠普、戴尔和其他几家。Sun Microsystems向你推销他们的专有硬件和Solaris系统,惠普推销HP-UX。他们声称:“Unix比Windows可靠得多。你不可能在Windows上运行网络服务器。” 戴尔用Windows NT做同样的事,但现在谁还在用Windows NT作为网络服务器?
所有这一切都被Linux彻底抹平了。整个互联网都运行在Linux上。甚至Azure,甚至微软,都在运行Linux。
所以今天的OpenAI、Anthropic等,就是昨天的Sun Microsystems和HP-UX。
主持人:我想这其中暗含了您对这些模型能力局限性的看法。它们只能变得这么好,所以随着时间的推移,开源阵营是有可能赶上的。
杨立昆:它们的数据已经耗尽了。公开可用的、互联网上的文本数据已经全被用光了。没有更多了。所以那些公司正在做的是授权商业版权数据,或者在合成数据上进行训练。
主持人:我很好奇,因为显然在过去几年里,他们在这些大规模预训练之后,确实能够推动一些令人印象深刻的结果。像IMO(国际数学奥林匹克)金牌水平,MMLU和MATH的基准测试成绩一直在上升。
杨立昆:好,这非常有趣。现在想想那两个领域。数学和代码。在这两个领域,语言本身就是推理的底层基石。它不是推理的唯一基石,但当你在纸上用正式的方式做数学,而不是凭直觉的时候,你是在操纵语言。LLM非常擅长这个。证明定理之类的事情,这就是LLM真正擅长的。
但它们不太擅长提出好的概念和定义之类的东西。它们更像是:“这是一个问题,解决它。”它们是问题解决者。数学不仅仅是解决问题。它的大部分实际上是一种创造性的行为,而那些东西做不到。
代码也是如此。LLM是优秀的程序员。它们不是软件架构师。它们不是计算机科学家。但它们可以为我们编程。所以它们还没有达到可以完全取代人类的状态。它改变了人类的世界。人类现在在抽象层级上往上走了一层,我们的角色是决定要构建什么。但在构建它时,你可以从LLM那里获得帮助。
重要的一点是,LLM在语言本身就是推理底层基石的领域特别成功,但在其他任何领域并非如此。
主持人:LLM需要做到什么才能让您改变看法?
杨立昆:一个零样本(zero-shot)的具身智能系统。你有一个智能体系统,给它一个新问题。它没有受过解决那个特定问题的训练,没有现成的脚本。它能完成这个它从未被训练去解决的任务吗?除非这个系统有能力预测其行动的后果,然后利用这一点进行规划,否则它无法做到。而且你不可能用一个LLM来做到这一点。你也许可以通过一个大幅增强的、能够进行搜索和规划的LLM来做到。
目前,做数学和代码的LLM实际上就在做这个。因为它们在搜索能够实际完成特定任务的标记(token)序列,而且它们可以运行代码或验证证明是否正确。所以你有一种方法来检查产生的东西是否正确。但那不是一种非常高效的规划方式,而且它只在可以在标记空间中执行这种搜索的领域有效。我所说的JEPA,你不是在标记空间中做这个。你是在抽象的思维空间中做这个。
主持人:我相信有些听众可能会想:“就算它效率低下但只要管用,而且在标记空间中完成的事情管用,那依然占据了经济的很大一部分。”
杨立昆:如果它管用,那就没问题。重申一遍,把它们用在它们擅长的地方完全没问题。只是它不是通向人类智能的道路。你遗漏了一个巨大的领域。
主持人:听起来您的观点是,“嘿,它在成为软件架构师之前就会触及天花板。”但我相信它不会就此停滞。
杨立昆:只是它在部署到越来越多用例时的能力将受到限制,因为你必须为每一个用例收集大量的训练数据。你无法让这些系统变得完全可靠,无法消除幻觉或危险行为,除非这些系统具备预测自身行动后果的能力,这意味着它们必须拥有显式的世界模型。
我没有改变看法,是他们改变了看法
主持人:我觉得,质疑它们能达到100%的准确率,以及跨不同任务的泛化能力,是合理的。这个领域发展历程中非常有趣的一点是,您和另外两位学者分享了图灵奖,而我感觉他们似乎对LLM的力量、潜在威胁或长期安全风险要确信得多。我很好奇,您的观点是从什么时候开始出现分歧的?
杨立昆:在2023年。
主持人:是什么促使您产生了这种想法?
杨立昆:我没有改变看法。是他们改变了看法。而且几乎是在同一时间,基本上是因为GPT-4。杰夫(Geoff Hinton)基本上没有接触过那些东西。他从未真正对LLM感兴趣,而在2023年GPT-4问世时发现了它,并基本上产生了一种顿悟,他说:“天哪,这些系统真的非常接近人类级别的智能,可能它们拥有主观体验。”
他做了一个快速的计算,说:“好吧,人类大脑皮层大约有160亿个神经元。如果你想做类似反向传播的事情——当然,大脑并不直接做反向传播,但如果它做了类似反向传播的事情,比如某种目标函数的某种梯度估计,你可能需要几个神经元组成的回路来重现神经网络中一个虚拟神经元的功能。假设你需要一个由10个实际神经元组成的回路来重现一个反向传播神经元所做的事情。那么突然之间,你的大脑皮层就只相当于16亿个神经元了。天哪,GPT-4真的非常接近这个规模。所以也许它会变得和人类一样聪明。”
我完全不相信这个说法。这有点像是杰夫在说:“好吧,基本上我可以退休了。我可以宣布胜利了。我整个职业生涯都在寻找大脑皮层的学习算法。也许我没有发现它到底是什么,但反向传播似乎是它的一个很好的替代品,而且效果非常好,所以也许这就是我们所需要的。所以我可以退休了,去世界各地发表演讲,谈论AI的潜在前景和危险。”
我认为这基本上就是他的思想轨迹。他现在对潜在危险的表态比一两年前要温和得多了。他有点意识到,这可能是一种设计真正智能系统的方法。首先,他可能意识到目前的LLM并没有那么聪明。其次,在达到类人智能之前,可能还需要几个概念上的突破。第三,那些系统的蓝图将与LLM截然不同,而且我们可能有办法让它们变得可控之类的事情。
这些话我已经说了很多年了,但好吧,他(Hinton)算是最近才发现这一点。
约书亚(Yoshua Bengio)也有类似的情况。我认为他们俩都担心的是社会和政治系统确保AI的利益最大化的能力,防止AI仅仅让少数富人变得更富,加剧不平等,并因为被恶意使用而导致重大灾难。
这不是AI接管世界的末日论调。它更多的是关于糟糕的使用者,这在今天的LLM看来是可能的。这确实是一种危险,但我并不认为它像某些人声称的那样具有末日色彩。肯定不像Anthropic声称的那样极具末日色彩,他们甚至试图游说政府,恐吓政府去监管AI。我完全不认同这一点。
主持人:他们似乎真的相信这一点。
杨立昆:我认为他们是真的相信,但同时我也认为,他们有某种商业上的好理由去相信这一点,并给一些人和政府洗脑,让他们认为自己的系统很危险。
主持人:听起来,对于这些新架构,尽管您极度不看好LLM会成为一切的终局,但您对这些新架构的时间表也有着相当雄心勃勃的预期。听起来您认为我们距离一些非常引人注目的能力并不遥远。如果这些突破最终来自于较新的架构,您如何看待围绕它们的安全性问题?这是否应该让我们睡得更踏实?
杨立昆:我要说一些可能又会引起争议的话,我Meta的一些同事肯定不喜欢我这么说,但我认为LLM本质上是不安全的(intrinsically unsafe)。我认为它们无法变得可靠和安全。它们无法变得可靠,因为你无法阻止它们产生幻觉。如果它们具有智能体属性(agentic),你无法保证它们不会采取它们没有预测到结果的行动。
主持人:鉴于人们对可靠性的担忧,它们能完成15小时的编码测试,这让您感到惊讶吗?
杨立昆:编码是你实际上可以验证生成的代码是否符合你设定规范的事情。但并非所有事情都是编码,也有编码智能体清空了你的硬盘的例子。或者做了一些愚蠢的事情,让你损失了大量的金钱或数据什么的。
我认为LLM在目前的形式下本质上是不安全的,因为它们无法预测自己行动的后果,而且因为它们完成任务的方式是由它们的训练决定的。你给它们一个提示词,它们就会完成与该提示词对应的任务,但前提是它们的训练已经条件化它们去实际执行与该提示词对应的正确任务。但是没有硬性约束能迫使它们完成这项任务,然后预测该任务会被妥善完成。
主持人:我想在早期,经常有这样的笑话:你问它们一个问题,它们就会一直重复问这个问题。
杨立昆:是的。比如这个。或者它们也没有常识。一个月前流传着一个笑话:“我需要洗车,洗车店离我家100码。我应该走着去吗?”大概两周前我又试了一次。它们都说“是的,你应该走着去”,除了Gemini。Gemini说……
主持人:所以它们是用您以前讲过这个段子的视频训练的。
杨立昆:那不是我的视频,因为这不是我想出来的。不知道是谁想出来的。但有几次我说一个LLM做不到某件事,然后六个月后它就能做到了。这仅仅是因为一旦人们看了我说LLM做不到这件事的播客,他们当然会把它输入ChatGPT。所以现在它成了训练集的一部分。当然,下一个版本的微调集里就有了那个东西。它当然能回答这个问题,但这并不是因为它突然变聪明了。只是因为它被专门用那个问题训练过。
所以LLM本质上是不安全的。我认为在当前的范式下没有任何办法修复这一点。我一直提倡的是我刚才谈到的架构,即目标驱动的AI(Objective-driven AI)。基本上,你给一个AI系统设定一个目标,即“完成这项任务”。那么系统怎么知道它将完成这项任务呢?它有一个世界模型,它预测自己想象中采取的一系列行动的结果。如果这个结果满足了一个成本函数(该函数描述了任务在多大程度上被完成或未被完成),那么如果系统的工作方式是通过优化——即寻找一系列能够完成这项任务、根据其模型最小化该成本的行动——它就只能做这件事。
当然,这中间有很多环节可能会出错。特别值得一提的是,成本函数可能不准确。可能你认为正在衡量任务完成程度的成本函数实际上并不准确。世界模型可能不准确。所以系统做出的预测实际上并不是正确的。它对自己行动后果的预测不正确。系统仍然会犯错,但它可以在一定程度上预测其行动的后果,我认为这对于任何具身智能系统来说都是不可或缺的。
现在你可以添加到那个系统中的,不仅仅是保证任务完成的成本函数,你还可以添加一堆其他的目标函数、其他的成本函数,甚至是安全约束,比如“在执行过程中不要伤害任何人”。你不能在一个抽象层面上指定这个,但你可以有底层的目标函数,把它们放在一起,就能保证系统不会变得危险。而且系统在构造上无法违反这些东西。它必须满足这些条件。LLM就不是这样。LLM总是可以逃脱。你的训练误差和测试误差之间总会存在差距。总会有一个提示词让系统做出极其愚蠢的事情。
主持人:聊聊一个关于LLM的具体领域,我想您显然对AMI在医疗保健领域的应用非常兴奋。人们一直在医疗保健领域使用LLM做各种事情。我很好奇,您如何看待在医疗保健领域中,哪些事情是LLM根本行不通的,从而需要一个更了解世界的模型?
杨立昆:比如为一种慢性病设计疗程,甚至为某个特定病人设计非慢性病的疗程,这些情况可能并不完全符合你以前观察到的模板。但如果你对病人生理动力学有一个很好的心智模型,你就有可能设计出一个真正能让病人恢复到良好状态的疗程。
当我说“一个病人”时,它可以是一个细胞。你如何告诉一个干细胞变成一个产生胰岛素的胰岛β细胞?对于一个1型糖尿病患者,他们的免疫系统基本上吃掉了自己的β细胞。这是一种自身免疫疾病。你如何不断制造β细胞?你能发送信号吗?你是否有一个人类细胞的模型,能让你弄清楚你需要向干细胞发送什么样的信号序列,才能让它变成β细胞?
主持人:挺LLM派和不挺LLM派似乎总是在各说各话。我认为实际上这两种情况都很有可能发生:一方面是LLM能做的事情,这也许是规模化顶尖医生的能力——你在顶尖医院得到的治疗,将其推广到全世界,如果你能做到这一点,其潜在影响力将是难以置信的;另一方面是您所说的,这在很多事情上确实还在探索阶段,即“好吧,那如何比顶尖医生做得更好?”
杨立昆:但这不仅仅是成为一个顶尖医生的问题。LLM能做好的事情是,它可以反刍你主要在书本上能读到的知识。但如果医学仅仅是积累书本上存在的陈述性知识,你只要看书就能当医生了。可是你不能光看书就当医生。你必须做住院医师,实际上去听心跳、按压肚子之类的事情,来诊断盲肠炎或其他疾病。
主持人:这很有趣。我非常好奇LLM本身是否能在全球范围内提供高质量的医疗保健。我们以后得再回顾一下这个问题。看起来它们已经很接近了。
获得突破性研究的最好方法,就是别去碍事
主持人:我绝对还想谈谈您在Meta的时光,因为您花了十多年的时间打造了世界上最受尊敬的研究实验室之一。显然,您最近离开了。当您回首在那里的时光时,您认为在管理FAIR期间,您做得最正确和最错误的事情是什么?
杨立昆:我们做对的事情是建立了一个顶尖的研究实验室,它真正进行了创新,产出了大量的基础方法、科学和工具,比如PyTorch,这些对整个行业都很有用。除了谷歌的少数人之外,整个行业基本上都是建立在PyTorch之上的。我认为还有一种开放和遵循科学过程的文化,我认为这对于突破性创新是必不可少的。
因为有一整条创新链。你有蓝天研究,产生新概念。这其中很多发生在大学里。有些发生在工业界的高级研究实验室里,这种实验室一只手就能数得过来。谷歌是一个很好的例子。FAIR曾经是一个很好的例子,希望未来还是,我不确定。还有其他几个。
然后你会进入下一个阶段:“这是一个好主意。让我们推动它,看看它是否能变得实用。”但这仍然是在研究层面,意思是,“我们不会自欺欺人。我们不会试图仅仅找一个只对这个问题有效的解决方案。我们要看看我们想象出的、或者从社区其他人那里学到的这项技术,是否真的能被推动并变得实用。”不是作为一个产品,而是说我们可以证明它在某些任务或基准测试上打破了记录。
再下一个阶段,就是主办这个研究实验室的公司要说:“好,现在我们要按下按钮,将大规模的工程力量投入到这个愿景中,然后向前推进。”这正是许多项目失败的地方。这也是许多公司未能接力的地方。Meta在这方面其实做得相当不错,但远非完美。它不像施乐帕克研究中心(Xerox PARC)那样是一个完全错过GUI界面、鼠标和视窗系统的反面教材。Meta只是错过了一些步骤。
这部分是组织架构的问题。部分原因是,你需要一个相当贴近研究、但不完全是产品组织的机构,来接力将技术推得更远。不是做一个有三个月期限的产品,而是推动事物发展。我们在Facebook和Meta曾经一度拥有这样的机制。但后来我们失去了它,FAIR在公司内部基本上被孤立了。有很多想法,但没人接手。
然后在2023年,生成式AI部门(GenAI)成立了,最初基本上是从FAIR抽调了大约60或70名科学家和工程师,然后建立起来。但随后它承受了太大的短期压力,以至于GenAI组织根本没有时间与FAIR沟通。因此,GenAI没有在LLM方面处于最前沿并进行创新,而是不得不专注于短期目标,变得非常保守。所以研究和开发之间出现了阻抗失配……
主持人:这就是Llama 4发生的情况吗?
杨立昆:其实从Llama 3就开始了。Llama 1是2022年FAIR内部的一个小项目。2023年初,GenAI成立了。做Llama的人基本上被转移到了GenAI。他们开始研发Llama 2,然后他们中的一群人意识到,“我可以去创业。”这就是Mistral的起源。Llama的两位作者基本上和另一个来自谷歌的人一起创立了Mistral,还有一些人离开去做其他事情了。
因为各种原因,那在Meta并不是一段快乐的时光。所以一群人离开了,然后接手Llama 2在一定程度上还有Llama 3和4的GenAI组织,承受了太大的短期压力,以至于他们变得非常保守。这是团队差异、领导层压力以及各种可能出错的方式的结合。你不能把责任归咎于任何特定的人。但是的,这就是大致发生的事情。
主持人:感觉现在很多这些组织显然都面临着短期压力,因为正在进行一场令人难以置信的竞赛。我很好奇,显然您曾经有过FAIR这样的建制,谷歌多年来也有类似的建制,而且肯定有很多研究人员在OpenAI和Anthropic里跑来跑去尝试很多不同的东西。您认为这种模式在未来还有可能存在吗?还是说离开并创办自己的公司是唯一的出路?或者您认为在当前的竞赛动态中,行业内仍然有保留FAIR最初精神的地方吗?
杨立昆:我认为在谷歌研究部门和DeepMind里,还是有几个地方人们真的在做研究。但整个行业日益变得更加封闭。谷歌肯定闭口不言了,Meta甚至FAIR也有点走向同样的方向。现在对发表论文有了限制,更多的限制。所以这对那些真正想做突破性研究的人来说吸引力下降了。如果他们做一些在中期有意义的事情,他们得不到那么多资源。他们被告知不要谈论它。所以我认为这种氛围对于取得突破是不好的。它不具建设性。
基本上,获得突破性研究的最好方法——就像我们在FAIR早期、在贝尔实验室鼎盛时期以及施乐PARC所获得的那样——就是你雇佣最优秀的人,这些人有敏锐的嗅觉,知道该研究什么,该攻克什么项目。你给他们成功的资源,然后你别去碍事。原谅我的粗口。
主持人:我很好奇这最终对更广泛的研究社区产生了什么影响。显然,FAIR的遗产之一是您培养了如此多的研究人员,他们遍布整个生态系统。感觉现在相当于那些在职业生涯早期加入FAIR的人,他们加入的实验室可能有着更短期的优先级和焦点。我想知道,在当前的生态系统中,许多刚进入这个领域的年轻人更多地被卷入这些短期动态中,这会改变生态系统演变的方式吗?
杨立昆:那些倾向于想和我一起工作的人,通常是那些足够疯狂、敢于吃螃蟹的人。
主持人:说得好。
杨立昆:或者他们认同这样一种理念:在学术界和攻读博士学位期间,你应该研究下一代AI系统。你不应该研究当前一代。如果你现在在学术界研究LLM,那是极其无聊的。至少对我来说是无聊的。它基本上是在研究LLM如何以及为什么起作用,并解释它们为什么起作用或局限性是什么。这就像是描述性科学。这真的不是很有创造性。我不觉得那特别有趣。它是有用的。但如果你真的想展示如何用LLM做新事情,你又没有你需要的GPU。
主持人:完全同意。
杨立昆:所以忘了它吧。如果你在读博士,别去研究LLM。毫无意义。你做不出什么贡献。
主持人:您是怎么知道离开Meta的时机已经成熟的?听起来您在很长一段时间里都在反复思考这些事情。有没有一个具体的时刻让这一切变得清晰起来?
杨立昆:这是多种因素结合的结果。首先,你必须明白,很多人对我在Facebook的角色有一个完全错误的认识。我是2013年底加入的,真正开始工作是在2014年初。前四年半,我是FAIR的负责人。所以我建立了FAIR这个组织,确立了文化,雇佣了关键人员,并管理它。四年半后,我辞去了那个职务,原因有很多,我成为了首席AI科学家。
原因是我快到60岁了,首先是58岁,我就是不想做管理工作了。为了让组织启动,我愿意做一段时间,但我真的不擅长这个。我更像是一个科学或技术上的远见者、工程师和科学家。其他人在管理方面比我强得多。所以我基本上退下来了。乔尔·皮诺(Joelle Pineau)和安托万·博尔德(Antoine Bordes)接管了FAIR的领导权,我成为了首席AI科学家。
所以我向CTO汇报,我的目标基本上是重启一个我认为必要的科研项目,因为FAIR的雄心始终是构建智能系统。我想,你知道,我在管理FAIR的时候把自己的研究搁置了。我就是没有时间,我认为设计人类级别、类人AI系统的架构是很重要的。
我提出了这样一个概念:这将基于自监督学习(self-supervised learning),以及从视频等感官信号中进行预测。我是说,这些都是老想法了,还有世界模型。实际上,我在2016年的NIPS(神经信息处理系统大会)上做了一次主题演讲,我在那里说:“这是AI研究应该走的方向:世界模型、预测行动后果并进行规划。”我说:“强化学习(RL)不会带我们到达那里,因为它太低效了。监督学习已经显示出了它的局限性。所以未来是自监督学习和世界模型。”
那么我们如何做自监督学习和世界模型呢?我启动了几个关于这个的项目,有几条路径没有走通,比如一些关于视频预测的项目。然后提出了这样一个概念:你可以从视频中训练自监督学习,但你必须训练系统在表征空间(representation space)进行预测。这就是JEPA的想法。如果你有了JEPA,你可以通过让它以动作为条件,把它变成一个世界模型,然后你可以用它进行规划。
我在2020年左右有了这个想法,在2022年我写了一篇长篇愿景论文。我说:“我干脆把我的整个愿景写成一篇论文。把我的秘密全抖出来,我不在乎。但也许它们能把一群人聚集到这个愿景周围。”天哪,这招真管用。因为这不仅聚集了一群想在纽约大学或巴黎和我一起工作的学生,因为他们想研究这个,而且FAIR内部的整个团队也说:“这听起来太棒了。这就是我们想研究的东西。”
然后乔尔·皮诺说:“嗯,也许这应该成为FAIR的一个主要使命。”我们称之为高级机器智能(Advanced Machine Intelligence)。那是该项目的内部名称。
主持人:有意思。好的。然后他们让您带着这个名字离开了,现在它成了公司的名字。
杨立昆:马克·扎克伯格读了那篇论文,知道它是关于什么的,并认同了这个项目。CTO安德鲁·博斯沃思(Andrew Bosworth,我们叫他Boz),前任CTO迈克·施罗普弗(Mike Schroepfer),还有我的直接主管、首席产品官克里斯·考克斯(Chris Cox),也都非常喜欢这个想法。所以领导层对这个我们内部称为AMI的项目给予了很大的支持。
它在视频领域真的开始起效了,但公司将所有的精力都重新集中在了LLM上。尽管有马克和博兹的支持,但我认为下面的所有层级都看不到意义,所以在公司政治上变得有些困难。JEPA和世界模型的应用在于可穿戴智能体之类的东西,以及机器人技术。但Meta选择解散了整个由吉滕德拉·马利克(Jitendra Malik)领导的机器人AI团队。
所以很显然,那里不再是合适的环境了。大部分应用都在Meta不感兴趣的工业界。FAIR也面临着越来越大的压力,基本上被要求去帮助Mistral搞LLM的时代。所以是的,事情变得很清楚了。而且这种直言不讳的理念灌输在投资者那里也起到了很好的作用,因为当我必须为AMI筹集资金时,每个人都知道我的故事。许多风险投资公司的员工读过我的论文或听过我的演讲,并买账了我的故事,他们意识到LLM有局限性,并对构建下一代AI系统的想法感兴趣。
主持人:收购Scale是促使内部完全聚焦LLM的催化剂之一吗?
杨立昆:是的,绝对是。我是说,可能还有一些其他原因。我没有任何内部信息来评论这个,但马克可能在亚历克斯身上看到了一个潜在的继任者,就像一个年轻版的他自己。
主持人:我觉得媒体上很多流行的说法是,“哦,当亚历克斯进来后,运营一个研究机构就变得更难了。”我不知道您在多大程度上感觉到了这一点。
杨立昆:好的,这里有一个关于我的角色、我与亚历克斯的关系,以及Meta内部是如何运作AI的巨大误解。我对Llama没有任何技术上的贡献。完全没有。我对Llama的唯一贡献,就是力排众议主张开源Llama 2。因为关于我们是否应该开源,内部有很大的争论。法务部门反对,政策部门有点反对,公关部门支持,所有的工程方面都支持,博兹也支持。所以内部进行了极其高规格的讨论,从马克·扎克伯格往下的40个人,每周开会两个小时,持续了几个月。
那是内部一场激烈的辩论,我真的极力推动并主张——博兹对此也非常直言不讳——安全风险基本上被夸大了,创造一个行业的机会极其强大,我们将通过开源Llama 2来启动AI行业。事实上,这正是后来发生的事情。
但我对Llama没有任何正面或负面的技术贡献。我没有做任何事情去阻止它或放慢它的速度。FAIR内部有很多人在研究LLM,这很好。我从未说过任何反对它的话,除了说“这不是通向人类智能的道路”。但这很好。它很有用。语音识别、翻译也是一样。
特别是从2018年我卸任FAIR负责人以来,我没有对人们研究什么产生任何直接影响,除了发表我的愿景,然后把人们聚集到我的项目周围。但他们和我一起工作是因为他们想这么做,而不是因为我是他们的老板。我没有命令他们和我一起工作。
所以我对Meta内部的LLM没有任何正面或负面的影响。我对战略有一些影响,但更多的是着眼于长期,以及如何维持一个研究实验室之类的事情。在过去的一年里,大概从24年初开始,肯定是在25年,FAIR被推动和管理的方向,基本上不符合我认为保护创新、研究和突破,以及留住优秀人才所必需的条件。很多优秀的人才已经离开了。
主持人:我猜在内部让人参与您正在研究的东西可能变得更难了,而且我相信您自己也面临着去研究很多LLM相关内容的压力。
杨立昆:是的。不过,也有很多其他人离开了,对吧?
LLM是自监督学习极其成功的一个盲目案例
主持人:这太吸引人了。在我们的整个对话中,让我印象深刻的一点是,我觉得您在很长一段时间里对这个领域有着极其一致的观点,这可以追溯到您提到的很多早期的演讲。显然,这是一个快速发展的领域,过去一年里发生了很多有趣的事情。在过去的一年里,有一件让您改变看法的事情是什么?
杨立昆:整个关于我们过去称之为无监督学习,现在称之为自监督学习的理念。直到2003年左右,整个无监督预训练的理念——即你为输入数据获得一个好的表征,然后用一点点带标签的监督数据来微调模型——给了我们一些证据,证明这整套技术是行得通的。
我试图将此应用于视频,因为最终我想做的是训练一个系统,仅仅通过看着世界运转来理解世界是如何运作的。这就是基本的想法。我在2010年代初开始主张这一点,在简单的视频预测上做了一些工作。当时我们还没有GPU。然后在FAIR成立后更认真地做这件事,做像素级别的视频预测,意识到那行不通,然后转而主张自监督学习。
这个理念是:不是为了解决特定任务而训练系统,而是基本上只训练它去预测,然后使用以这种方式学到的表征作为下游任务的输入,你可以用监督学习或强化学习等方法来训练下游任务。那是我在2016年NIPS主题演讲后半部分的有点像主题的内容。当时那个会议还叫NIPS。
主持人:当然。
杨立昆:在2016年。然后我继续推动这个想法,并试图发现一些方法让它奏效。让我惊讶的是,它取得了令人难以置信的成功,但不是在视频领域,而是在语言领域。LLM基本上就是自监督学习极其成功的一个盲目案例。
主持人:确实如此。嗯,我觉得这几乎是结束对话的完美音符,但我想确保把最后的话语权留给您。我们所有的听众对您都非常熟悉,但我至少想把麦克风交给您,向他们推荐任何您认为他们应该去看看的您正在做的新东西,或者您想指出的任何工作。麦克风交给您。
杨立昆:好的。让我告诉你一件事。LLM之所以奏效,是因为当你有一系列离散的符号时,进行预测是很容易的,因为在你的语言中只有有限数量的可能符号,比如10万个可能的标记(token)。你可以让你的神经网络产生一个涵盖所有可能标记的概率分布。然后你可以从该分布中采样,将该标记移入输入端,然后产生下一个标记。你可以进行自回归预测。
所以这是一个特例。如果面对的是真实世界,你不能使用生成式模型。所以现在你必须训练一个系统,它学习一种表征,并在表征空间中进行预测。这带来了一个大问题,直到大约五年前我都不认为这个问题很容易解决,尽管我在几十年前发明了一项技术来解决它。
这个问题就是,如果你接受两个输入,比如说一段视频的初始片段和该视频的后续片段,或者你接受一张图片和它的被破坏版本,你让它们都通过一个编码器,然后你训练一个预测器,从其中一个的表征去预测另一个的表征。这里有一个非常简单的解决方案,系统基本上会预测出一个恒定的表征。预测问题变得微不足道了。这叫做坍塌(collapse)。表征坍塌。
所以自监督学习对于JEPA(联合嵌入架构)来说,最大的问题是:你如何防止坍塌?我很多年前在1993年想出的解决方案是对比学习(contrastive learning)。基本上,你有一些应该能互相预测的例子,还有一些不应该能互相预测的例子。事实证明这种方法有效,但它不能随维度很好地扩展。它的扩展性不是很好。
还有另一种技术,实际上是杰夫·辛顿(Geoff Hinton)和苏·贝克尔(Sue Becker)在80年代末发明的,你有那两个网络,你试图最大化它们之间的互信息。尤尔根(Juergen Schmidhuber)对我很生气,因为他也在1992年提出了这个的一个版本,他说那就是JEPA。那不是JEPA。那只是一种防止联合嵌入架构坍塌的方法。这没问题,但这是实现它的一种特定方式,我不认为它特别好。
所以现在你有了这个JEPA架构。你必须想出一个防止坍塌的好方法。正如我已经说过的,我认为对比方法不是一个好途径。还有另一组被称为知识蒸馏(distillation methods)的方法,它们确实能防止坍塌。我们不知道为什么。DINO就是一个很好的例子。这是一种使用蒸馏方法的联合嵌入方法。基本上,其中一个编码器训练另一个,被用作另一个编码器的老师。正在被训练的那个编码器,你对它进行反向传播。没有被训练的那个,你不做反向传播,但你通过某种指数移动平均与另一个共享权重。这是一种策略的集合。
DeepMind有一篇关于此的论文叫做“Bootstrap Your Own Latent”,它使用了这个技巧。这个技巧源于强化学习的一些直觉,不知何故它防止了坍塌,但我们不知道为什么。有几篇关于它的理论论文,解释了为什么它在某些简单情况下可能会起作用,但这并不令人满意。你认为你正在最小化的成本函数,实际上你并没有在最小化它,所以你无法监控它。它实际上在训练时会上升。所以我们不喜欢这种方法,但它管用。我们训练的一些模型,大规模视频表征学习系统,如V-JEPA、V-JEPA 2、V-JEPA 2.1,它们就是用这种方法训练的。I-JEPA也是。
但我们正在摆脱这种方法。现在我们有几篇最近发表的论文,关于一种显式的正则化器来防止这种坍塌,它基本上试图最大化从编码器输出的信息内容。所以它和89年的贝克尔与辛顿,以及1992年的施密德胡伯(Schmidhuber)属于同一个家族,此后还有一堆其他人,在某种程度上也包括对比技术,尽管它不是样本对比。
接下来的问题是,你如何测量信息内容?你如何最大化从神经网络输出的信息内容?问题在于,如果你想最大化这个量,你要么需要能够测量它,要么需要有它的下界。对于信息内容,我们只有上界。我们无法测量它。我们只能得出上界。所以我们采用一个上界,然后祈祷它管用。结果它确实有点用。
最新的一个叫做SIGReg。意思是草图化各向同性高斯正则化(Sketched Isotropic Gaussian Regularization)。我们之前有一个叫做VICReg,方差-不变性-协方差正则化(Variance-Invariance-Covariance Regularization)。而SIGReg的东西真的很酷。这是由兰德尔·巴莱斯特里耶罗(Randall Balestriero)做的一些工作,他曾是我的博士后,现在是布朗大学的助理教授。它基本上在于迫使从编码器输出的变量分布本质上是联合高斯分布,从而在某种程度上最大化信息。这只是与尤尔根·施密德胡伯、苏·贝克尔和杰夫·辛顿所做的非常不同的一种方式。
所以在我看来,这非常有前景,我们有它的变体。一种可以产生稀疏表征,另一种可以产生各向同性但不一定是高斯分布的表征。我们和兰德尔以及Mila(蒙特利尔学习算法研究所)的一名学生有一篇论文,我们在其中用这个训练了一个世界模型。虽然规模还很小,但我认为超级有前景。所以如果你想读一篇论文,去读那篇。它叫L-World Model。
主持人:太不可思议了。杨,说真的,非常感谢您。能和您共度这段时光真是一种特权,非常感谢您来参加播客。
免费领取 50 小时 AI 算力|限时开放
加入 AI 开发者计划
获取:
✅ AI 算力资源
✅ 官方技术社群
✅ Workshop 与 AI Academy
✅ 开发者专属福利
完成认证后,额外领取:
☕ 9.9 元瑞幸咖啡券
立即加入
热门跟贴