未经许可不得转载,务必保留原文出处链接和公众号按钮

关注本城公众号并设星标,不错过最新精彩内容

打开网易新闻 查看精彩图片

文:Web3天空之城·城主

在这场访谈中,谷歌的传奇AI负责人Jeff Dean深入回顾了他在推动谷歌人工智能发展中的关键角色。

从90年代初加入谷歌,Dean见证了从一个小型创业公司到全球技术巨头的转变。他领导了TensorFlow的推出,使得机器学习的普及成为现实,特别是通过扩展计算能力和网络规模推动了搜索引擎和神经网络的发展。他谈到了谷歌AI研究的转折点以及与DeepMind的合作。最引人注目的是Dean对未来的展望,特别是关于多模态AI模型Gemini的潜力,该模型能够处理文本、音频、图像和视频,带来了全新的跨领域应用前景。

谷歌早期的计算扩展与AI发展

Jeff Dean回顾了谷歌在90年代如何通过扩展计算资源来应对快速增长的搜索需求。谷歌从一开始就注重提供高质量、快速的搜索服务,而Dean作为其中的重要推动力,通过优化代码、提升计算机性能,确保谷歌能够承载日益增长的用户流量。他指出,这为神经网络的扩展和现代人工智能的发展铺平了道路。

神经网络的历史与进化

Dean详细解释了神经网络的起源以及在90年代初的局限性。尽管当时神经网络被广泛讨论,但由于计算能力有限,实际应用范围受到限制。随着时间的推移和摩尔定律推动的计算能力提升,谷歌的研究团队开始使用数千台计算机并行训练大型神经网络,这最终导致了现代神经网络的飞跃。他特别提到了2012年TensorFlow框架的推出,如何让神经网络训练的规模和复杂度达到了前所未有的高度。

Gemini多模态模型的潜力

Jeff Dean重点介绍了谷歌当前正在开发的Gemini项目,这个项目被认为是AI的未来。Gemini模型不仅是一个语言模型,它还可以处理多种输入模式,包括文本、图像、音频和视频。Dean解释了这种多模态模型将如何在教育、医疗等领域带来革命性变化,允许用户从不同输入模态中获取更丰富、更有用的输出。特别是Gemini模型在教育中的应用潜力,例如帮助学生通过对话理解复杂概念,使个性化的学习成为现实。

与DeepMind的合作与整合

Dean详细回忆了谷歌与DeepMind的早期合作,特别是如何将监督学习和强化学习相结合,推动了AI在多个领域的进展。他提到DeepMind在使用强化学习玩雅达利游戏上的成就,以及如何将这些技术扩展到更大规模的AI模型训练中。Dean强调,正是通过这种合作,谷歌和DeepMind得以创建强大且具有变革性的AI模型,如Gemini。

AI对未来社会的深远影响

Dean深入探讨了AI在未来教育和医疗中的应用。他指出,AI工具可以帮助学生实现个性化学习,甚至提供类似于一对一辅导的体验,从而显著提升教育效果。此外,他认为AI有潜力改善全球医疗服务的可及性,通过更准确的诊断和医疗建议,特别是在资源匮乏的地区。他同时警告,AI技术也有可能造成社会的两极分化,只有少数人能享受其好处,因此他呼吁让这些技术尽可能地广泛应用。

B站传送:【精校】AI大神Jeff Dean访谈| 解码Google Gemini大模型 【中英字幕】-哔哩哔哩】

https://b23.tv/5LxuLVD

主持人:

欢迎回到谷歌DeepMind播客,我是主持人汉娜·弗莱教授。在这一集中,我们有幸采访到了计算机科学领域最传奇的人物之一,Jeff Dean。

在1990年代末,杰夫编写了将谷歌从一家小型创业公司转变为今天跨国公司的代码。他率先推出了TensorFlow,这是推动机器学习民主化的编程工具之一,并推动了人工智能在大规模模型方向上的边界。如果这还不够,他还共同创立了谷歌的AI研究项目——Google Brain,并且是早期新神经网络架构——Transformers的先驱之一。

人们开玩笑说,杰夫·迪恩的简历上只列出了他没有做过的事情,因为这样比较短。最近,作为谷歌的首席科学家,杰夫在桌子旁占据了最重要的席位之一,因为Alphabet的两大AI部门DeepMind和Google Brain已经合并。他最新的项目是与他共同合作的Gemini,这是一个远远超越了语言的大型语言模型。Gemini是一个多模式模型,可以理解文本、代码、音频、图像和视频。它完全是人工智能,并且几乎肯定是谷歌搜索本身的发展方向。

杰夫,非常感谢你今天跟我一起聊天。

Jeff:

谢谢你邀请我,很高兴来到这里。

主持人:

所以,好吧,25年,四分之一个世纪在谷歌。我想了解一下早期的情况,比如90年代你刚加入的时候,谷歌还不是现在这般成熟的组织。那时候是不是都是很多带着贴纸的笔记本和穿着人字拖在编码?

Jeff:不幸的是,那时候还没有笔记本电脑。

主持人:没有笔记本电脑!

Jeff:

是的,我们都有那些巨大的CRT显示器。那时还是前液晶显示器时代,所以它们占用了很多桌面空间,不太灵活。我的桌子就像两个锯马上的一扇门。你可以自己调整它,比如从桌子上站起来背对着它,像这样把它调整到更高的设置。

主持人:真的吗?

Jeff:是的。

主持人:太棒了。

Jeff:

当我开始工作时,我们在这个小办公室区域,其实也不算特别小,大概是这个房间的三倍大。整个Google在帕洛阿尔托的University Avenue上,位于现在一家T-Mobile手机店的上方。那个时候真正有趣和令人兴奋的事情是,我们是一家小公司,但我们能看到人们越来越多地使用我们的服务,因为我们提供了优质的、高质量的搜索服务。你可以看到你的流量在增长,日复一日,周复一周。所以我们总是尝试在星期二中午不要崩溃,那是全周流量高峰时段。为了应对需求,我们需要快速部署更多计算机,优化代码以提高运行速度,并提出新的、有趣的创新,使下个月的索引在相同硬件上能够服务更多用户。

主持人:

我可以想象这是非常令人兴奋的。有没有一个时刻让你们意识到,这真的要变大了?

Jeff:

我认为从我加入公司的最早期就可以看到这一点。我加入公司是因为我们的流量增长非常快。我们认为,通过专注于提供高质量的搜索结果并快速完成这一过程,给用户他们想要的东西,我们实际上是希望尽快将人们从我们的网站上引导到他们所需的信息。这是一种成功的提议,用户似乎也喜欢我们的服务。所以我会说,即使从早期开始,这看起来也是相当有前途的。

主持人:

不过,合理乐观和实际结果之间存在相当大的差距。对你们所有人来说,这是否是一个惊喜?

Jeff:

我认为我们已经拓展到了一些显然难以预料的领域,比如自动驾驶汽车。当你在开发搜索引擎时,很难想象这些东西。但是,我认为我们产品组合逐步扩展到其他类型的信息是非常合理的。从公共网页到帮助用户用Gmail组织自己的电子邮件,这些都是自然的进化,解决了人们的实际问题。这让我们处于一种状态,现在我们不再只有一个产品,而是有一系列人们经常使用的产品。

主持人:

回顾所有这些时间,你认为谷歌一直是一家搜索公司吗?你认为它是一家假装是搜索公司的AI公司吗?

Jeff:

是的,我认为我们作为一家公司想要解决的很多问题确实是那种需要AI来真正解决的问题。所以在这个过程中,在长达25年的时间里,我们一直在逐步解决一些艰难的AI问题,并在这些问题上取得进展,然后在搜索以及我们所有其他产品中使用现在开始有效的新技术。

主持人:

你认为Google将永远是一家搜索公司吗?或者你认为它现在甚至是一家搜索公司吗?它在改变吗?

Jeff:

我非常喜欢Google的一件事是我们的使命依然非常相关,即便是25年后,仍然是要组织全球的信息,并使其普遍可访问和有用。我觉得Gemini确实在帮助我们朝着理解各种不同信息的方向推进。所以文本,文本数据,软件代码,它在某种程度上是文本性的,但在某些方面非常结构化。但也包括所有其他类型的输入模态,人类在这些模态上非常流利,我们自然会阅读东西,但我们也用眼睛看东西,用耳朵听东西。而且你希望模型能够接收各种形式的信息,并且也能以文本形式生成信息,或者生成音频,以便你可以与模型进行对话,或者在合适的情况下生成图像,或者用图表或类似的东西来注释文本。我们真正尝试的是构建一个能够接收和生成所有模态的单一模型,并在合适的时候使用这种能力。

主持人:

你还记得你第一次接触神经网络是什么时候吗?

Jeff:

是的,神经网络有着有趣的历史。人工智能是一个相当古老的学科,早期的AI阶段是关于如何定义事物运作规则的过程。这大约是20世纪50年代、60年代、70年代的情况。然后,神经网络在70年代出现,并在80年代末和90年代初引起了激动的浪潮。

实际上,我在1990年是明尼苏达大学的本科生。当时我在修一门并行处理的课程,这个概念是如何将问题分解成可以在不同计算机上完成的部分,然后这些计算机共同合作解决单个问题。

主持人:

我猜这也是因为当时计算能力还不如现在强。这就像是,如何让计算机像团队一样工作?

Jeff:

那时,神经网络是一种特殊的方法,用于机器学习和AI,涉及到非常粗略地模拟我们认为的真实人类或其他大脑中的神经元工作方式。这就是为什么它们被称为神经网络,因为它们由人工神经元组成。人工神经元与其下方的其他神经元有连接,然后它们查看从那些人工神经元传来的信号,并决定对特定的信号模式有多感兴趣,是否应该足够兴奋以将信号进一步传递到神经网络的上层。

神经网络由许多层许多这样的神经元组成。更高层次的神经元建立在较低层次神经元的表示上。例如,如果你在构建一个用于图像处理的神经网络,最底层的神经元可能会学习特征,比如这是一个红色或绿色的斑点,或者在某个方向上有个边缘。然后下一层可能会学习到,它是一侧有黄色边缘的边缘。再更高层,它可能会学习到,它看起来像一个鼻子或耳朵或者一张脸。通过构建这些分层的学习抽象,这些系统实际上可以开发出非常强大的模式识别能力。

这就是为什么人们在1985年、1990年对神经网络感到兴奋的原因。

但我们谈论的是非常小的网络,所以它们无法识别例如人脸和汽车这样的东西。它们可以识别像是人工生成的图案中的小图案。例如你有一个网格,你可以识别可能是一个十字,或者一个手写的数字,这是一个七还是一个八。那时的技术他们大概只能做到这些。然而,人们非常兴奋,因为他们能够解决那些基于纯粹逻辑规则的系统无法很好解决的问题,而这些规则无法很好地概括所有种类的凌乱手写字。

在听了两场关于神经网络的演讲之后,我对这个领域产生了浓厚的兴趣。于是,我决定做一个关于神经网络并行训练的高级论文、荣誉论文,因为我觉得我们需要更多的计算能力。如果我们使用系里的32处理器机器,做一个更大的系统,我们可以训练更大的神经网络吗?于是,我花了大约三个月的时间在这个项目上。

主持人:它成功了吗?

Jeff:

是的。无论如何,我当时非常激动。我觉得,32个处理器会让神经网络运行得非常顺畅。结果证明我是错的。那时天真的本科生我,并没有意识到我们需要大约多一百万倍的处理能力,才能真正开始在实际问题上取得好效果。

但是,感谢摩尔定律20年的进步,以及更快的CPU和计算设备,我们开始拥有实际的系统,这些系统的计算能力是我们那台先进的32处理器机器的一百万倍。于是,我又开始对神经网络产生兴趣。

当斯坦福教授Andrew Ng每周在谷歌进行一天的咨询时,我在我们众多的微型厨房中的一个碰到了他。我问他,你在谷歌做什么?他说,我还没有真正弄明白,因为我刚开始在这里做咨询。但我在斯坦福的一些学生在神经网络方面取得了不错的成绩。我说,真的吗?为什么我们不训练非常非常大的神经网络呢?于是,这就成为了我们在谷歌进行神经网络工作的开端。

然后,我们组建了一个小团队,称为Google Brain Team,开始研究如何利用谷歌的计算资源来训练非常大的神经网络。我们建立了这个软件基础设施,使我们能够拿到一个神经网络描述,然后将它分解为不同计算机、并行团队的不同成员可以处理的部分,并以他们需要的方式进行通信,以便解决如何在2000台计算机上训练一个神经网络的整体问题。这是我们最早为扩展神经网络训练而构建的软件,它使我们能够训练比现有神经网络大50到100倍的模型。

主持人:这是2011年。

Jeff:

确切地说,是2012年初的事情。这是在图像识别重大突破之前的事情。

主持:那时,你们做的还是把计算机连接在一起的工作。就像我本科论文一样。

Jeff:

没错,但这次我们可以在更大规模上再做一次。这一次真的成功了,因为计算机速度更快,而且我们用了更多的计算机。

主持人:2011年那时感觉有点赌博的意味吗?

Jeff:

是的。我们为训练这些神经网络并尝试不同拆解方法而建立了一个系统。我把它命名为DistBelief,部分原因是人们认为它不会真的有效果,另一个原因是它是一个可以构建这些的分布式系统。我们想要训练的不仅是神经网络,还有置信网络。

主持人:

我喜欢这个名字。当这在美国进行的时候,大西洋彼岸的DeepMind也开始了。我知道你是被派去看看他们的人,你能讲讲那个故事吗?

Jeff:

是的。Geoffrey Hinton,一位非常著名的机器学习研究员,2011年夏天在谷歌呆过一段时间。当时我们不知道该如何将他归类,所以他被归类为实习生,这有点搞笑,毕竟他是历史上最资深的实习生。

他和我一起工作,然后我们发现了DeepMind。我想Geoffrey对公司成立的事情有一些了解,其他一些人也说,英国有这样一家公司。当时它非常小,大概有40或50个人。于是我们决定作为公司去看看他们,作为一个潜在的收购对象。

当时我在加州,Geoffrey在多伦多,他当时是那里的教职人员。Geoff有背部问题,所以他不能坐商业航班,因为他不能坐下来,只能躺着或站着。航空公司不允许你在起飞时站着,所以我们必须找到解决办法,就是在私人飞机上安装医疗床。

我们一群人从加利福尼亚出发,飞往多伦多,把Geoffrey从停机坪接上来,放在医疗床上,然后一起飞往英国,降落在一个非主要机场。在城边,我们全都上了一辆大面包车,前往访问DeepMind,我想那是在Russell Square附近。我们前一晚飞行都很疲惫,但随后我们连续听了大约13个20分钟的讲座,介绍他们正在做的各种事情。

主持人:这些讲座是来自DeepMind团队的吗?

Jeff:

是的,来自DeepMind团队。我们看了一些工作,但时差还没倒过来。时差还没倒过来,简直像情景喜剧里的情节。

我们看了一些关于他们在 Atari 工作的展示,这些工作后来发表了关于如何使用强化学习去学玩老版 Atari 2600 游戏的研究。像 Breakout 或 Pong 之类的游戏,还有其他一些游戏,都非常有趣。

主持人:当时你们并没有进行强化学习。

Jeff:

我们主要专注于如何扩展大规模的监督学习和无监督学习。我认为这些技术都非常有用,而且它们通常结合使用会更有用。

您应该把强化学习想象成有一个在环境中操作的代理,每一步都有很多不同的动作或操作可以选择。例如,在围棋游戏中,你可以在很多不同的位置下子。在雅达利游戏中,你可以向上、向下、向左或向右移动摇杆,或按下左键或右键。

在这些情况下,通常不会立即得到奖励。比如在围棋中,你下了一步,但直到整个游戏过程结束之前,你并不知道这是否是一个好主意。强化学习的一个有趣之处在于,它能够对一系列较长的行动进行评估,然后根据你采取的行动序列的意外程度来分配奖励或惩罚。

当你做出那个决定时,你认为这是一个好主意吗?然后你赢了,所以你可能应该增加一点你认为这是个好主意的可能性。或者你输了,你可能应该减少一点你认为这是个好主意的可能性。这就是强化学习背后的主要想法。这是一种非常有效的技术,尤其是在立即判断这个是否是个好主意很不明确的环境中。

相反,监督学习是指你有一个输入,并且有一个类似于真值的输出。经典的例子就是你有一堆图像,每张图像都被标记为一类。比如说有一张图像,标签是汽车。另一张图像,标签是鸵鸟。再另一张图像,标签是石榴。如果你有一组丰富的类别。

主持人:

告诉我,当你在 DeepMind 时你决定要进行收购时,Demis 紧张吗?

Jeff:

我不知道他是否紧张。我想我当时说,好吧,你已经看过这些精彩的演示,但我能看看一些代码吗?因为我想确保背后确实有代码,并且看看编程标准是怎样的,人们是否实际写了注释之类的东西。所以 Demis 有点不确定。我说,不需要是超级机密的代码。我和一位工程师进入办公室,坐下聊了10分钟。我问他这段代码是做什么的,并请他展示一下它的实现。离开时,我对代码的整洁感到满意。对于一家试图快速发展的小公司来说,这段代码相当整洁。虽然是研究性代码,但很有趣且文档齐全。

主持人:

我听说你在写代码时会加一个小东西,就是LGTM(looks good to me 看起来不错)。

Jeff:我在现实生活中也会用它,不仅仅是用于代码审查。

主持人:在这些展示中,你能回忆起你的印象吗?

Jeff:

他们似乎在做非常有趣的工作,特别是在强化学习方面。我们专注于扩展,训练的模型比当时DeepMind使用的要大得多。他们正在学习使用强化学习来解决某种游戏玩法,这是一个适合强化学习的干净环境。强化学习的结合,加上我们一直在进行的许多扩展工作,会是一个非常好的组合。

主持人:

你们似乎正从两个不同的方向接近一个问题:使用强化学习从非常小的问题开始并逐步建立,然后在非常大的规模上拥有丰富的理解。当两者结合在一起时,事情便变得非常强大。

Jeff:

这正是我们去年将传统的DeepMind、传统的Brain和Google研究的其他部分结合在一起的动机。我们决定将这些单位合并在一起,组建谷歌DeepMind。Gemini的想法在合并之前就有了。我们认为应该在这些问题上真正地一起工作,因为我们都在尝试训练高质量、大规模、多模态模型。分散我们的想法和计算资源是不合理的。我们应该把这一切结合在一起,组建一个联合团队来解决这个问题,这就是我们所做的。

主持人:为什么叫Gemini(双子星)?

Jeff:

其实是我命名的。我喜欢命名事物。Gemini与双胞胎有关,我觉得这是一个很好的名字,因为它代表了前DeepMind和前Brain这两个“遗产”团队的结合,真正开始一起在一个雄心勃勃的多模态项目上工作。

主持人:

Gemini这个名字让人联想到太空任务,就像是阿波罗计划的前身。

Jeff:

一个名字有多重含义是件好事,这也是选择这个名字的另一个原因。这有点像是雄心勃勃的太空计划进展的前兆。

主持人:

我想谈谈多模态的东西。在我这样做之前,我猜公众对聊天机器人和大语言模型的意识发生重大变化的一个主要原因之一,部分来自于Google Brain的Transformers技术。如果你能原谅这个双关语,你能告诉我们一些关于Transformers技术的工作以及它的变革性吗?

Jeff:

当然。事实证明,你想要在语言以及其他许多领域解决的问题,其实都是序列问题。如果你考虑Gmail中的自动补全功能,当你在输入一个句子时,系统能否通过为你完成句子或想法来帮助你?很多时候,这依赖于看到序列的一部分,然后预测其余部分。本质上,这就是这些大语言模型被训练去做的事情。它们被训练为一次处理一个单词或一个单词的一部分,然后预测接下来会是什么。

主持人:像高级的自动填充?

Jeff:

是的,事实证明这很有用。你可以用这种方式建模许多不同的问题。比如翻译,你可以将其建模为输入一句英文句子,然后训练模型在有足够多的英法句对的情况下输出句子的法文版本,类似于一个序列。你也可以在医疗环境中使用此技术。比如,如果你试图预测,现在面前的患者报告了这些症状,并且他们有这些实验室测试结果。过去,他们有这些情况。你可以将整个情况建模为一个序列,然后你可以预测,如果你有其他去标识化的数据作为训练,这些数据也被类似地组织为这些序列,这样你就可以预测可能合理的诊断。你可以这样做的方法是你隐藏序列的其余部分,并强迫模型尝试预测接下来会发生什么。

这确实是一件非常有趣的事情,因为它适用于语言、翻译、医疗环境、DNA序列和各种各样的事情。

主持人:但是关键在于你在任何时候关注的部分。

Jeff:

在Transformer架构之前,成功的模型是所谓的循环模型,它们具有一些内部状态,每次看到一个词时,它们都会进行一些处理来更新其内部状态。然后它们继续处理下一个词,再进行一次。它们的状态会稍微向前移动一点,并根据刚刚看到的下一个词更新状态。你可以想象它像一个12个词的句子,你需要更新状态12次,但每一步都依赖于前一步。这意味着其实很难让它跑得很快,因为你有一个所谓的顺序依赖,其中第七步依赖于第六步,第六步依赖于第五步,依此类推。Google Research的一组研究人员提出了一个非常有趣的想法:与其在每个词上更新单一状态,不如一次性处理所有词,并记住处理每个词时得到的状态。当我们尝试预测一个新词时,可以关注所有之前的状态,并学习注意重要部分。这就是Transformer中的学习注意机制,用于预测下一个词。

对于某些词汇,可能需要非常关注前一个词。在某些上下文中,稍微关注一下上下文中的许多词也非常重要。关键是,这一过程可以并行完成。你可以同时处理一千个词,为每个词并行计算状态,这使得在扩展性和性能方面比之前的循环模型高效10到100倍。这就是为什么这是一个如此大的进步。

主持人:

通过仅仅序列和语言,有可能获得某种概念上的理解或抽象。这是出乎意料的吗?

Jeff:

我认为我们在Google Brain团队做的有关语言建模的早期工作,主要在于建模词汇,而不是将它们表面形式建模成像H-E-L-L-O或C-O-W那样,而是关于表示词汇使用方式的高维向量。

我们习惯于以二维或三维的方式思考,但当你有一百个维度或一千个维度时,一千维空间有很多余地。当你有一些东西是临近的,并且你以某种方式训练了模型,牛、羊、山羊和猪都靠得很近,而它们与浓缩咖啡机距离很远。虽然牛奶可能介于两者之间,牛奶可能更靠近牛,但在两者之间。是的,它可能在百维空间中的某条百维线上。

这就是为什么这些模型具备惊人的能力。我认为这是因为它们使用高维空间来表示事物,所以它们实际上可以同时抓住一个词或一个句子或一个段落的许多不同方面,因为它们的表示空间非常大。

主持人:它提取了我们赋予语言的基础,我猜是这样。

Jeff:

是的。当我们听到一个词时,我们不仅仅考虑这个词的表面形式。我们想到牛,那会触发一堆其他的东西,比如牛奶或浓缩咖啡机,或者挤奶,牛犊和公牛。

与那些早期的词汇表示法一起,我们发现方向是有意义的。如果你考虑像 "walk" 这样的动词现在时,你会在这个百维空间中沿着相同的方向从 "walk" 变为 "walked",就像从 "run" 变为 "ran",以及从 "read" 变为 "read" 一样。

主持人:

所以它实际上理解了,理解了,我一直用这个词,但我并不是这个意思,但在这些结构中确实存在某种时态表现。

Jeff:

是的,这只是从训练过程中自然生成的,并不是我们告诉它要做的事情,而是我们使用的训练算法使然。语言有很多方式可以使特定的形式被使用,从而显现出这种现象。例如,你可以在男性或女性版本的词之间互相转换。所以,从“cow”到“bull”与从“queen”到“king”或从“man”到“woman”、“woman”到“man”是相同的方向。这真是不可思议。

主持人:

但是,这仍然只是我们在这里讨论语言。那么,多模态方面的变化是如何的?这使得它有什么不同?

Jeff:

是的,因为你仍然是在这些高维空间中表示输入数据。这实际上是个问题:你如何从图像的像素中,将其转化为某种理想状态,即你希望多模态模型具有与我们类似的东西。当我们看到一头牛时,这引发了我们大脑中与阅读“牛”这个词或听到牛叫声类似的激活。你希望训练模型,使其具有那个共同的意义和表示,而不论它们是如何获得那些输入数据的。

所以,如果模型看到一段牛在田间行走的视频,这应该会触发模型中与之相关的一大堆事物,基于模型通过激活建立起来的这些事物。通常这些模型是非常深层次的,最低层通常有非常简单的表示,然后模型中的较高层在这些表示的基础上构建,并构建出更有趣和复杂的特征和表示的组合,无论是词语还是图像或其他。

当你说从零开始的多模态,即通常听到的一个大词汇,并不是说你在此处有单词部分,在彼处有像素部分,并在两者之间进行转换,而是在模型本身中,这些表示非常早期就在模型中。

主持人:

这是否在开始设置时更加困难?这是否使其更加难以执行?

Jeff:

是的,我认为弄清楚如何将不同的模式整合到模型中,以及如何训练一个多模态模型,比单纯的语言或纯字符模型更复杂。但你从中获得了很多好处,因为你有时会得到跨模态传递。现在看到关于奶牛的视觉内容实际上有助于语言理解。也许你在草地上或某些地方看过许多关于奶牛的描述,但现在它突然看到了这些图像和视频,并且能够以一种使模型内部触发相似事物的方式将这些表征结合起来,无论你是看到了“奶牛”这个词还是奶牛的图像。

主持人:

给我举一个你认为在未来这种情况有用的例子。

Jeff:

我认为它已经很有用了,这很好。比如,你想要能够拍摄一张手写白板上解决数学问题的图片,然后说,这个学生解决这个问题。现在确实需要在一个例子中引入多模态能力。你需要实际进行手写识别,从中理解这是一个学生在白板上写的物理问题,可能还有一张滑雪者下坡的图片。

在早期的Gemini技术报告之一中,我们有一个很好的例子:一名学生在白板上解决了一个问题。你实际上可以问Gemini,学生是否解决了这个问题。如果没有,哪里出了问题?你能解释一下如何正确解决这个问题吗?它实际上能够判断出,学生错误地应用了滑雪者在无摩擦坡道上滑行的公式,他们用了斜边而不是高度。它会说,“不,不,实际上,你应该用这个。”这是解决的问题。它做了所有这一切,并且识别了所有的手写内容。事实上,这是一个物理问题,这种物理知识模型已经具备,这种应用是正确的。

主持人:

我认为,这确实是一个很巧妙的方式,你可以在现有的教育模型中使用Gemini现有的模型。但我认为,实际上,这些并不是彼此独立的系统。所以,从某种程度上说,你认为这些多模态模型会彻底改变我们进行教育的方式吗?

Jeff:

我认为,使用人工智能工具帮助教育的潜力真是令人惊叹。作为一个社会,我们才刚刚开始这段旅程。例如,我们知道,接受一对一辅导的学生的教育成果比传统教室里一个老师和30个学生的设置要好两个标准差。那么我们如何让每个人都感受到他们拥有一个一对一的教育导师的好处,这个导师了解他们知道什么,了解他们不知道什么,可以帮助他们以他们最擅长的方式学习呢?这就是人工智能在教育中的潜力。

其实,我们离这样的一种情况并不远。在这种情况下,你可以指向一个Gemini模型或未来的Gemini模型,针对某些材料,说,“你能帮我学习这个吗?”比如你生物课本的第六章。它包含了一堆图片,包含了一堆文本,也许还有你看过的一段讲座视频。然后你实际上可以说,“我真的不理解这件事。你能帮我理解吗?”它可以向你提问,你可以向它提问。你可以回答问题,它可以评估你是否正确,并真正引导你在学习旅程中的进步。

因为这是个性化的,我们应该能够将其提供给世界各地的许多人,不仅仅是英语,还涵盖世界上成百上千种语言。

主持人:

所以我理解你说的关于多种语言,以及试图让这些语言尽可能广泛地可用。但是否存在创建某种两级系统的危险?一方面,拥有这些工具接触的人,如你所描述的,能够获得更好的结果,加速他们的学习和生产力。那些不幸无法接触到这些工具的人确实会面临困境。

这是你关心的问题吗?

Jeff:

是的,我认为确实存在创建两级系统的风险。我们应该努力使这些技术尽可能广泛地、普遍地为每个人所用。如果我们能做到这一点,就能真正利用这些优势为社会做出贡献,并使人们能够负担得起或免费利用这些能力,用于教育和医疗。我认为这是人工智能在医疗可及性方面真正产生巨大影响的另一个领域。

主持人:

回到Gemini,如果可以的话。

如果你是从Google搜索开始的,那么事实性绝对是你所关心的一切的基石。但是Gemini,我的意思是你一直在与它合作。我想你一定见过它说一些相当离奇的事情。你是如何在脑海中调和这一点的,例如,不再总是需要绝对的事实性?

Jeff:

是的,作为一家公司,这实际上是一个棘手的平衡,因为我们从一开始就是一家基于搜索的公司。正如你所说,提供准确的事实信息是搜索引擎体验的顶峰。我认为我们实际上在内部建立了一些有趣的大型语言模型,大家都很喜欢与之对话。事实上,其中一些模型在疫情期间可以在内部使用,所以大家都在家时就能使用它们。实际上,你会看到在午餐时间,内部使用量会激增,因为大家会和他们的虚拟聊天机器人对话,毕竟,在家独自一人时还能跟谁聊天呢?

这些模型实际上被训练成预测合理的下一个词元,本质上就是这个。你可以将词元理解为一个单词或一个单词的一部分。预测合理的下一个词元和绝对真理是不同的,它是一个概率上合理的句子。这与事实是不同的。我认为我们逐渐意识到的是,这些模型即使不是100%真实的,实际上也可以相当有用。所以我认为,意识到还有很多其他的用例,或者能不能在五条中总结这个幻灯片?是的,您可以争论第五个要点是否完全正确,但仍然很有用,能有4.5个关于幻灯片放映的事实准确的要点。我们在努力争取达到五个事实准确的要点。但即使没有那一点,我认为这些模型的实用性其实已经相当高了。

主持人:

这是一个让人不舒服的认知吗?因为当然,其他实验室确实更早推出了他们的模型。您认为您们因为这个事实问题而显得过于小心了吗?

Jeff:

我认为我们有很多不同的顾虑,事实性只是其中之一,还有像模型训练方式中的毒性和偏见,以及它可以产生的输出,这是我们希望在很多方面使模型减少偏见的一个领域。所以在发布给公众之前,我们在诸多领域都希望保持相对谨慎。我认为我们已经解决了很多这些问题,以至于我们认为我们在这个领域发布的产品是有用的,尽管在事实性或偏见等方面显然还有改进的空间。我认为人们需要进行一些调整,既要尽力做到最好,也要意识到如果不发布某个东西,实际上是在抑制一些对很多人可能有用的东西,即使它还有一些瑕疵。

主持人:

那么,有了这些瑕疵,我们从这里开始该往哪个方向走呢?在我看来,计算方式似乎已经发生了真正的转变。比如,使用计算器时,输入同样的计算两次会得到同样的答案。而我们现在处于一个概率计算的时代。因此,我想知道,公众是否需要接受这一点,并接受我们正处于一个事物更像人类且可能犯错的时代,还是你认为这是可以解决的问题?

Jeff:

我认为两者都有一些道理。我认为有很多技术方法可以改善这些问题的真实性。一个例子是,如果你考虑一下模型训练的数据,比如万亿级的文本和其他数据,然后把这些数据混合在这个巨大的包含数十亿参数的“汤”中。我喜欢把这比作你见过很多东西,但记得不是很清楚。

如果你把信息放在……我们在Gemini中推动的事情之一是拥有一个长上下文窗口。当你有一大段空间可以放置你试图总结、操纵、比较或提取信息的各种直接信息时,模型在上下文窗口中实际上对这些信息有一个更清晰的视图。它就像拥有实际文本和这些文本的表示,而不是与它看到的所有其他内容纠缠在一起。

主持人:

因此,这个上下文窗口就是模型在那一刻可以看到的重要部分。

Jeff:

是的,它可以以比在其训练过程中看到的其他事物更精确的方式进行推理。

因此,它可以处理五个科学文章的PDF,然后你可以提出问题,比如,能否请你告诉我这些文章的共同主题是什么?它实际上能够做到这一点,因为它拥有所有这些文章内容的自我表示。这就是我们一直在推行Gemini模型的超长上下文窗口的原因之一,因为我们认为这对于事实性、视频摘要以及各种应用都非常有用。

主持人:

但是上下文窗口有上限吗?你能不能一直推一直推,直到它变成一个无限的上下文?

Jeff:

这是个很好的问题。目前,注意力处理的计算方面花费相当昂贵。你试图将其做得越长,它变得越昂贵。昂贵在时间上的开销、计算时间、金钱、计算能力以及各种资源的开销。但我们认为可能可以通过算法改进使其超越我们当前的两百万标记上下文窗口。我指的是,一百万标记已经相当多了。一百万标记大约是600页文字,相当于大多数书籍,约20篇文章,或一小时的视频。

主持人:

那么在另一方面呢?因为你说这两方面都有一点。

Jeff:

也许人们必须调整他们的期望。我认为这些模型是工具,人们需要理解它们的能力,但也要知道,在某些情况下,可能不应该使用这些工具。因此,这对人们来说是一个教育过程。不要立刻相信语言模型所说的每一个事实,你需要对其进行一些审查。我们已经教育人们,如果你在网上看到某些信息,那并不一定意味着它是真的。我认为,对来自语言模型的某些类型的信息保持类似程度的怀疑也是合适的。随着模型的改进,这种怀疑可能会减少,但最好带着一种健康的态度来看待,可能它实际上并不是真的。

主持人:

除了上下文窗口之外,还有其他方法可以让你在编写提示时尽量减少得出完全虚假的结果的风险吗?

Jeff:

谷歌研究人员提出了一种技术叫做“链式思维提示”。如果你只是给模型一个有趣的数学问题,然后问它答案是什么,它可能会答对,但也可能不会。而如果你说,这是一个有趣的数学问题,你能一步一步地展示你的解题过程吗?回想一下你四年级的数学老师,他或她可能会说你真的应该逐步展示你的解题过程,然后得到最终的答案并写下答案。这部分原因是因为这帮助你通过多步骤的思维过程,从被问到什么到我需要计算这个,基于那个计算这个,等等,最后得到答案。事实证明,这不仅使模型的输出更易于解释,因为它有点告诉你它经过了哪些步骤,而且也更有可能得到正确的答案。

主持人:但如果这不是一个数学问题呢?

Jeff:

即使在那些不是明确定义正确答案的领域,这种方法也有效。这有点微妙,我认为人们需要实际学习如何使用这些模型,你提示它们的方式实际上是一个很大的决定因素,影响输出的质量有多高。比如,如果你说总结这个,那可能会导致一个结果。如果你说,请总结这篇文章并给我五个重点突出文章主要内容的要点,并列出作者写下的两个缺点。如果你这样说,这对模型应该做什么来说是一组更清晰的指示,而不是只是简单地说总结这个。

主持人:

当我们把这些东西放在一起时,就是逐步分解步骤,但也理解更多的背景和多模态的内容。我们是否在向一种多模态模型理解我们作为个体和我们的偏好这种情况迈进?

Jeff:

是的,我认为你真正想要的是一种非常个人化的Gemini版本,它了解你现在正在尝试做什么,但也了解你在尝试这样做的背景。我是素食者,所以如果我问Gemini关于伦敦的餐馆推荐,它知道我是素食者,它会推荐不同的东西,而不是我不是素食者时推荐的东西。我认为,一个通用模型,如果是为每个人提供相同的服务,这种模型并不会比一个真正了解你和你的背景的模型好。有些类型的问题你可能想问一个模型,但现在用Gemini还不能完全做到。不过,你可以想象一下你想要实现的功能,比如,你能把我上周远足时拍的照片做成一本插图故事书吗?

今晚我孩子的就寝时间,模型会知道你徒步旅行时的那些照片来自哪里,并且知道如何制作一本能够吸引你孩子的插画故事书。也许它还会知道你孩子的年龄,以便使其内容适合。

所以我认为你现在还不能做到这一点,但这可能会是一个有用的功能。人们会想要,你会希望人们选择加入。我认为你希望模型知道和掌握的上下文信息越多,你就越希望人们能理解正在发生什么。

我们能做的一件事情是,不是基于这些数据去训练模型的一个版本,而是仅在上下文中提供正确的信息,以便在生成响应时可以调用这些信息。我觉得那会挺不错。

主持人:

就像你有一个几乎可以将自己的上下文印刻其中的常规结构,但那对于你来说是私密的。

Jeff:没错。

主持人:

这看起来会非常好。

我们在这里只限于音频、视频、屏幕上能看到的东西、语言等,还是我们是否期望这些助手能够从我们的电脑里走出来?

Jeff人:

我认为实际上有许多不同种类的新数据模式,这些模式并不完全是人类的模式,我们希望这些模型能理解。

比如,来自世界各地的大量温度读数有助于天气预测,或者基因序列,或者自动驾驶汽车或机器人应用的LiDAR数据。在一个环境中,你希望这些模型或许能够帮助实际世界的机器人应用。能够与机器人设备对话,用普通语言给它指示,比如你能不能去厨房,擦一下柜台,然后把我留在柜台上的汽水罐回收掉,然后给我拿包开心果之类的。

传统上,机器人无法理解这样的语言,但我认为我们正处在实现这种能力的边缘。能够让机器人在凌乱环境中完成50或100个有用的任务,而不仅仅是在过去机器人已被部署的那种非常受控的环境中,比如工厂装配线那种,他们从这里到那里。这是一个非常可以预见的事情。

主持人:

我们在这里谈论作为助手,这些东西在某种程度上是增强人类能力的方式。我可以在医疗环境中看到它,在教育环境中看到它。但是,多模态方面是否为我们提供了更多,比如关于我们如何理解世界的方面?

Jeff:

我认为这些模型现在能够做的是通常可以进行一些推理步骤,从而完成你要求它做的任务。我认为随着这些模型在能力上的提高,你将能够让模型与您合作完成更多复杂的任务。就像是区别于能否在椅子租赁处订购一堆椅子与帮我策划一场会议。后者是更高层次的,更复杂的。合适的模型会向你提出一连串的后续问题,因为其中存在模糊性。例如,有多少人会来?这是关于什么的?你在哪个国家?你想在哪里举行?什么时候?然后我们就可以出发,并且能够完成你可能想要实现的许多事情,以实现那个高级目标。

主持人:

如果你有这种概念性的连接或这些概念性的连接,我指的是回到奶牛这件事,它理解图片,还理解重力,通过在互联网上看视频。它们可能看过像是物理入门课程的讲座。所以它从这个角度理解它,并且还看过很多东西落下。那么某天你可以进来说,给我画一个非常高效的飞机蓝图吗?

Jeff:

我认为这些模型需要与某种探索过程结合。这种探索过程可以是这样子的,不一定非要在200毫秒内给你答案。也许你明天拿到飞机就开心了。

所以我认为在那时,你就有更多的自由去设计系统,从而能够有效地完成类似的事情。它们可以在模拟器中进行一些实验,或许是他们可以访问的模拟器,或者他们为基本流体动力学等创建一个模拟器。然后他们尝试,知道,尝试一堆设计。也许他们对飞机形状有一些想法,在看过很多现有飞机之后觉得有什么意义。所以,他们可以尝试完成你所要求的事情。希望他们首先问的是,你希望你的飞机具有什么特性。

主持人:原来一直是纸飞机。

Jeff:

是的,纸飞机。知道它是纸的很重要,这可以大大降低成本。

所以,我认为这些事情最终会实现。要准确说出这些能力的确切时间有点困难,那是一种相当复杂的集成,涉及到模型的推理能力、它所需要的知识、你要求它做的事情以及你如何要求它去做的事情。但是,我们已经看到这些模型在五年、十年期间能力的巨大进步。所以在五年、十年的时间里,这可能是有可能的。甚至可能比这更快,例如,你能帮我设计具有这些特性的一架飞机吗?

主持人:

但我想这些就像是我们希望阿波罗成为那样东西的早期前兆。

Jeff:是的,没错。

主持人:

Jeff,非常感谢你加入我。

Jeff:

很高兴来到这里。谢谢你邀请我。

主持人:

在很多方面,我认为杰夫的整个故事就是关于规模的。对于谷歌搜索来说,这就是如何获取更多的网页,更多的用户,更快的查询。对于神经网络来说,关键在于更多的计算能力和更多的机器。在最近的机器学习时代,关键在于越来越多的数据。

从这一切中,出现了一种真正的世界概念模型。这种模型具备抽象能力,已经证明能提高人类的生产力。值得注意的是,Jeff 并没有就此止步。还有更多的传感器和更多的模式将会出现。而且,当它们与在这栋楼里诞生的强化学习工具结合时,也许在人类通用人工智能(AGI)的道路上还会取得更大进展。