打开网易新闻 查看精彩图片

2024年的智源大会落幕了。

这一持续举办6年的会议,或许是目前国内最坦诚的AI大会。

在这里,曾出现过Geoffery Hinton、Stuart Russell 、杨立昆、姚期智、张钹等全球顶级AI学者的交锋。全球最具影响力和争议性的AI公司CEOSam Altman也曾连线发言。

今年6月,在AGI席卷全球一年半后,我们不仅在智源大会上看到Russell和Tegmark讨论AI安全、谢赛宁和Sora及Dall-E团队负责人连线交流多模态,还见证智谱AI、月之暗面、零一万物、百川智能、面壁智能这几家国内大模型顶流罕见齐聚。

(「四木相对论」拍摄)
打开网易新闻 查看精彩图片
(「四木相对论」拍摄)

在「四木相对论」的观察中,这届智源大会迸发出若干有趣的火花。

首先是国内顶流AGI公司的CEO们,直面了大模型API降价、Scaling Law失效、大模型商业模式等关键问题。

而且,AGI的内涵虽然已存在相对共识,但多位大咖还是被要求多次定义这一名词。

此外,语言和视觉等多模态元素如何融合,如何找到真正通往AGI的多模态路径,也被多个学者激烈讨论。

另一个值得关注的现象是,由于学术界和产业界算力资源差距加大,一些学界老师甚至已经开始思考该如何定位自己在产业中的工作。面对一些来自产业观众的提问,他们也直言,在学界没有遇到过这类问题,无法给出解决方案。

但自由思考同样是学界的优势。

比如,在「意识和通用人工智能」的Panel中,我们看到几位研究脑科学的学者,持续尝试定义人与机器的最终区别——在产业界,这一定会被认为是太过遥远的话题。

在两天的参会后,「四木相对论」通过梳理现场20+位嘉宾的观点,从众多议题中抽取出讨论性最高的六个话题进行总结。

我们挑选的话题覆盖AGI、多模态、具身智能、Scaling Law、AI安全和人类意识,从技术延伸到哲学,从猜想延续到商业落地。

希望能在这一很多人担忧被AI抛弃的时刻,提供一份知识参考。

AGI的定义:本质上不是非共识,但值得拆解

AGI的定义:本质上不是非共识,但值得拆解

*AGI,当今科技界最热的词汇。

但在2024年智源大会上,我们看到一道奇异景观——包括百川智能CEO王小川、月之暗面CEO杨植麟、智谱AI CEO张鹏在内的AI大咖们依然在火热讨论什么是AGI。

事实上,在「四木相对论」观察到AGI的定义在硅谷不存在过多争议。大多数人认为,AGI指AI系统具备取代大部分人类白领工作的能力。而实现这个目标的时间周期,大概是6年。

在围观今年的Panel后,我们认为国内大咖们对AGI的讨论依旧围绕AI帮助人类完成任务展开,并不存在过多非共识。但相比之前,大家拆解出了更多可定义的细节。

打开网易新闻 查看精彩图片

月之暗面CEO杨植麟认为,AGI 的定义是重要的,但它不一定需要在现在被非常精确地、有量化地定义。因为它可能是一个定性的,感性的东西。

"我觉得它最重要的作用,是能让社会或者说所有人,能够对于说接下来要发生什么事情有个准备。因为也许这个技术的节奏会非常快。那我们如果能够知道 AGI 它是什么样的,能够某种程度上去定义它,我觉得其实是可以更好地去准备这个事情,不管是对每个人的职业,还是说行业接下来可能会怎么发展。"

第二,他觉得AGI在短期内可能需要一些量化(指标),因为如果完全没有量化的话,可能就没有办法去衡量AGI开发的进度。短期来说,杨植麟觉得 evaluation(评估) 本身也会是一个很难的问题,可能也是个很大的挑战。

百川智能CEO王小川进行了举例。他认为,判断AGI的一个标准是,AI是否能够成为一个医生。

"AI的数据来自于人类社会产生的数据,所以在评价里面,我是拿人的职业来和AI作比较。医生在所有职业里,相对而言智力密度最高,既需要多模态,也需要少幻觉、有效记忆(看70 万字的病历),也有推理的能力,也有查文献的能力等等。"他解释自己的逻辑。

但术业有专攻,医生也有自己相对了解和不了解的领域,不够通用。

所以,"如果我们认为医生是比 AGI 低的,医生都造不了,咱们就别谈这 AGI 。不过如果你觉得医生比 AGI 高,但医生也只是'造人'里的一种,所以在我的逻辑里面,医生跟 AGI 是可以基本划个等号的。"王小川认为。

面壁智能CEO李大海,尝试从经济学角度解读AGI。

他觉得从经济学的角度讲,如果大模型去执行任何一个任务,边际成本为零,这就是理想中的 AGI 。

智谱AI CEO张鹏认为,这一概念当前以"人"为参照度,但外延会变化。

他认为可以把 AGI 定义成我们的一个目标。当前的目标是以人为参照,让机器像人一样去思考,这是第一步。但机器的能力远不止人的这个水平,我们期待它可以出现超越人的能力,比如Super Intelligence。

"下一步它是否能产生超过人的智能水平?那就是我们会不断地去更新迭代 AGI 的内涵和外延。"张鹏说。

多模态、视觉和语言:通往AGI路径未定

多模态、视觉和语言:通往AGI路径未定

*多模态理论上是实现AGI的手段之一——至少,一个能够完成人类诸多技能的系统,一定具备处理多种类型数据的能力。

在产业中,今年Sora、 GPT-4o、Suno等产品的火爆,让视频、音频等模态也拥有了类似语言的关注度。而这些产品中,语言和其它模态地自然交互,也让多模态产品更加常见。

这带来的更深思考是,多模态架构能让我们真正通往AGI吗?语言是其中的桥梁吗?语言又该如何和其他模态融合?

打开网易新闻 查看精彩图片

在会议中,纽约大学助理教授谢赛宁和Sora及Dall-E团队负责人阿迪蒂亚·拉梅什提到了视觉和AGI的问题。

谢赛宁询问拉梅什,是否认为视觉生成是通往AGI的关键道路,以及如何看待建模人类语言,与建模包含丰富感官数据的现实世界之间的关系。

后者的回答笃定。他觉得在任何给定的视频中,模型都可以获取很多信息。并且,视频中的很多信息用语言很难表示,从视觉中学习到的智能类型,很难仅仅通过学习语言来模拟。

"所以我认为语言将成为实现能够推理的、那些更智能的系统的重要组成部分。但在某个时刻,我们会将语言纳入视觉,这是一种更通用的界面。"拉梅什表示。

关于语言和多模态之间的关系,他告诉观众:"我们在DALL-E 3中看到的是,当你用很有描述性的说明文字和一些简短的说明文字训练模型时,由于使用了更多描述性的文字,简短说明文字的性能也会得到改善。从这个方向看,也许我们可以使用语言来训练生成模型,帮助提高训练效率。但随着我们投入越来越大的规模,模型不再依赖语言作为条件信息,而是可以开始自己解决问题。"

一个差异点是,关于多模态模型的路线,各家的选择不尽相同。

智源研究院院长王仲远介绍,智源研究院的多模态大模型并未采用Sora带火的DiT路线,而是选择了自回归模型(auto regressive)路线。

现在智源研究院正通过自回归路线训练的多模态模型是Emu 3,目标是实现原生多模态世界模型。

他觉得,如果追求通过多模态大模型实现 AGI,虽然难度很大,但自回归才是终极技术路线。

在另一场Panel中,昆仑万维2050全球研究院院长颜水成提到,多模态的超级智能体,可以形成AGI。

打开网易新闻 查看精彩图片

背后逻辑是,视觉是3D的信息,语言是1D信息,人类吸收信息的70%来自于视觉。但同时,多模态的信息要融合、推理(reasoning),可能还需要用Language来统一。

百川智能联合创始人谢剑认为,多模态大家希望的终局是Any(模态) To any (模态),现在大家的Any To Text已经做到挺好的水平,但多种模型架构之间还没有很好的统一方案。

他觉得语言是桥梁,让其它模态和语言去做对齐之后,可以更好地提升模型的智能。

零一万物联合创始人黄文灏解释,之前零一万物没有过多发力多模态模型,是不确定多模态会提升模型智能的上限。但今年通过数据优化等方式,零一万物已经取得了一定进展,今年也会有多模态的成果发布。

整体来说,通往AGI的架构还有很多探索空间。

另外在交互方面,不少学者也认为,现在人类最习惯的交互模式还是语言,如果脱离语言打造多模态模型,适用性不强。

具身智能:最火热方向之一,但或许问题最多

具身智能:最火热方向之一,但或许问题最多

*从Figure01的持续发布,到OpenAI重启机器人团队,具身智能同样是2024年全球的AI焦点。

但数据缺失、成本较高、现有大模型还不足以支撑具身落地,也是这一领域正面临的问题。

打开网易新闻 查看精彩图片

在具身智能Panel中,我们总结了来自北大、清华、NUS、宇树科技的专家观点。

整体来说,具身智能领域目前存在两大核心难点,一是技术发展路线存在诸多瓶颈,二是短期的未来几年内的实际落地应用场景尚不清晰。

技术上可以细拆为几个方面:用于感知、获取信息并推理出明确任务目标的大模型;用于实际执行动作、作用于真实世界实际物体的小模型;能够支撑模型做持续训练和迭代的高质量真实数据;机器人本体。

首先来说大模型层面的难点。

不同于目前主流的多模态大模型,机器人对于为了感知外界物理世界信息而捕捉到的图像,需要进行更复杂的识别与推理。

例如,准确识别目标物体、获取物体的相对方位和距离、根据物体信息及任务目标推理出需要执行的动作指令等等。而这些功能,都不是目前主流多模态大模型所擅长的。

其次是小模型方面,也可以叫作机器人的“技能库”。

目前的技能库并不丰富。相对常规的技能按照本体技能、互动技能来分类大约只有走路、跑步、跳跃,以及抓取、移动、放置。

而且,由于目前能够实现的技能相对比较简单和少量,在实际训练时都是采用端到端的训练方式,意味着针对每一个技能单独训练了一个模型,每一个技能是一个单独的API。

这在实际应用场景中就会造成,当机器人明确了任务目标及实现方式后,首先必不可少的过程是选择技能,并执行调用。这样一是会造成时间延迟上的问题,二是这一步本身也可能会有误差。

理想形态下是将技能库整合为一个模型,一个API,不论任务目标和对象物体是什么,都是调用这一个相对泛化的通用模型来解决。

另外,训练数据依旧是相对匮乏。

目前具身智能的训练数据大多都来自操作模拟器得出的过程及结果数据,而模拟器对真实世界的近似模拟程度会严重影响数据质量。

为提高模拟效率,目前主流的模拟器技术都是相对轻量级的模拟,与真实世界的偏差较大。但是如果想要提升模拟器的真实性,又会导致模拟器本身的“体积”相对较重,开发难度高的同时,模拟效率也会比较低。

除了模拟器外,具身智能训练数据的另一重要部分是采集自真实世界的数据,而这一部分数据的依旧数量较少。从技术和成本的角度出发,目前不太可能投入大量的机器人在真实世界中执行采集数据的任务,所以目前大家暂时还是通过人工采集,或者极少量的真实机器人去采集,成本和速度都存在一定问题。

最后是机器人本体方面,核心问题主要集中在触觉缺失和造价成本上。

目前机器人能够获取的主流的信息模态,主要集中在图像和声音上,图像部分包括了文字、数字等符号元素。

而对比人能够完成的各种复杂任务来看,触觉的缺失会导致很大的一部分信息丢失,比如布料的材质、水流等流体的判断等。

但触觉传感器相比其他传感器来说成本较高,且传感器反馈的数据形态也较为复杂。此外,造价成本高昂也是限制具身智能投入真实应用场景的主要阻力之一。

除了技术外,另一个核心难题是短期内的实际应用场景较不清晰。

综合来看,3-5年内能够应用机器人到实际业务场景中的领域,需要满足几个条件。

首先是任务相对简单。因为技术上的限制,目前机器人尚不能完成较为复杂的任务。

其次是与人力相比,机器人的综合成本相对较低,当然也有可能是一个人力成本可能无穷大的领域,比如排爆、飞机试飞等。

然后是错误率容忍度相对较高,因为按照目前的技术,机器人是比较有可能出错的,而且相比人的话,机器人在出错后可能并不会及时进行反应并弥补。

最后是安全层面,投入机器人后一定不能对人类造成伤害。有专家认为,最先可能应用的领域是工厂或体育赛事,因为这两个领域相比较而言都目标明确且简单、规则清晰、相对远离人类。

AI安全:无尽的拷问与追求

AI安全:无尽的拷问与追求

*包括可解释性、隐私、可控在内的AI安全问题,一直困扰着产学研界。这次智源大会上,不少专家学者也给出自己的看法。

但根据「四木相对论」的长期观察,这一领域目前依旧困难重重、进展缓慢。

打开网易新闻 查看精彩图片

加州大学伯克利分校计算机科学教授、《人工智能:现代方法》作者斯图尔特·罗素(Stuart Russell)一直认为,“如果我们不理解人工智能如何运作,就无法保证这个系统是安全的。”

在这次大会中,罗素表示,人工智能的能力会不断提高,最终会远远超过人类。

他认为OpenAI首席执行官萨姆·奥尔特曼表示会研究如何创建AGI并保证它的安全,研究它的用途。但罗素觉得,一旦制造出 AGI,就没有另一个十年的时间来研究如何让它变得安全。

罗素还给出一个红线的概念:安全和不安全很难区分,不过可以划定明确的不安全行为和不可接受的行为,要求人工智能系统不要越过这些红线。比如人工智能系统不应该自我复制、不应该侵入其他计算机系统、它们也不应该帮助恐怖分子设计生物武器。

有意思的是,在其他并行论坛上,有学者在回答观众关于检测AI生成内容的问题时,直言并不能给出具体的建议。

另外,还有产业界知名专家表示,目前关于虚假图像类的检测,比较容易解决。但如果要针对大语言模型,检测出模型生成的虚假文字内容,并没有特别好的方案。

纽约大学助理教授谢赛宁和Sora及Dall-E团队负责人阿迪蒂亚·拉梅什的对话中,也提到了安全。

谢赛宁询问,我们是否能期待 Sora 近期会发布一些更新?

拉梅什回应称,如果要发布一个强大的视频生成系统,我们最关心的是安全性以及对社会的影响。

要小心谨慎,保证发布像 Sora 这样的模型时,人们不会把它用于传播虚假信息之类的事情,并且模型运行的方式也在人们的期望范围内。他觉得认为需要做大量工作才能确保模型安全,才能足够自信地发布。

Scaling Law:大模型第一性原理,现在也需要"雕花"了?

Scaling Law:大模型第一性原理,现在也需要"雕花"了?

*Scaling Law还会持续奏效,但Scale的方式也要改变。

在持续一年多的大模型战局中,Scaling Law似乎是最先被证明的共识。

但随着模型越来越大,也有很多人认为Scaling Law会面临数据和算力的上限。并且,总有一些数据是大模型无法获得的,各家独有的数据也无法统一。

各种原因,让Scaling Law出现争议。

打开网易新闻 查看精彩图片

在智源大会上,国内"Scaling Law"信仰第一人——月之暗面CEO杨植麟,依然认为Scaling Law,是通往AGI的第一性原理。他觉得,提升模型规模的本质是压缩,而压缩可以产生智能。

但是杨植麟同样认为,现在Scaling Law的最大问题是怎么解决这些比较稀缺,甚至可能不存在的数据。整体他觉得规模化定律,或者说大模型,本身没有太本质的问题。

但或许,实现Scaling Law的方式要发生变化。

“如果只是沿着现在的方法预测下一个Token,用和现在完全一样的数据分布,搞一堆网页文本,上限是明显的。Scaling Law并没有定义模型是什么样的,比如要有多少模态,数据是什么样的,数据是生成出来的还是用网页文本,所以Scaling Law会持续演进,只是在这个过程中Scaling Law的方法可能会发生很大变化。”

百川智能CEO王小川同样认为,Scaling Law到目前为止没有看到边界,还在持续发挥价值。比如马斯克的xAI号称要买30万片B100、B200来做,就是一个例子。

但他觉得,在 Scaling Law 之外需要范式的变化,不应该只是简单地去 predict token 变成压缩模式。

智谱AI CEO张鹏也觉得,Scaling Law还在向前推进,目前为止还未看到Scaling Law失效的预兆。“至于它是否能够帮助我们到达顶峰,现在找不到一个确切答案,但现阶段它是有效的,未来相当一段时间之内它仍会有效。”

张鹏还说,Scaling Law的“有效”是动态概念。对于Scaling Law,早期关注的是参数量规模,现在扩展到参数量、数据量、数据质量,变成一种计算量。随着对规律的认知越来越深,规律的本质越来越被揭示,掌握本质就能掌握通往未来的钥匙。

零一万物CEO李开复觉得,Scaling Law已被验证有效并且尚未达到顶峰,但利用尺度定律不能盲目堆GPU,仅仅依靠堆砌更多算力提升模型效果,只会导致那些拥有足够多GPU的公司或国家才能胜出。

面壁智能CEO李大海认为,Scaling Law其实是一个经验公式,是整个行业对于大模型这样一个复杂系统的观察以后的一个经验总结。这个经验总结会随着对模型训练工作过程中做的实验越来越多、认知越来越清晰,会有更加细的颗粒度的认知,

比如,面壁就发现除了前面说的这些维度之外,在模型训练中的训练方法本身,对于Scaling Law、对智能的影响也是比较显著相关的。

他说:"这个显著的影响在我们固定住参数规模以后,其实就会变得非常重要,因为现在大家觉得参数规模是能够不断地往上scale,它是低垂的果实,只要扩就可以,所以就觉得没关系,我们先去做这个,先往上放大,但是一旦我们固定说我们要让端侧的芯片能够去支撑这个规模的模型,能够去做到足够好的智能,那么数据的质量、训练的方法这些都变得非常重要。"

清华大学智能产业研究院院长、智源学术顾问委员张亚勤认为,至少将来5年左右,Scaling Law还是产业的大方向。

但相比只有3斤重、能耗20瓦的大脑,当前大模型决策效率低。不管是微软、OpenAI还是当前的主流大模型,仍处于采购英伟达芯片的阶段,只有提高大模型效率才能建立真正的商业模式。

关于"意识",人类最后的壁垒是什么?

关于"意识",人类最后的壁垒是什么?

*相比机器智能,人类最像人的地方是什么?

这或许才是关于终局的讨论。

打开网易新闻 查看精彩图片

人类作为智慧生命所独有的能力是什么?来自北京大学和清华大学的学者们得出了相对一致的结论。

人类具有主动的学习能力,能够根据外部条件来做出适应性的改变,这是智慧生命的核心标志。由此推导,如果机器具有跟人一样的智慧水平,那它应该也能做到自我学习、自我改变,而这,也是具有“意识”的一种可能的体现。

关于如何达到这一目标,大家相对持谨慎的悲观态度。

当前AI发展的路径,本质上还都是在对信息进行压缩,试图通过压缩来将世间万物的运行规则“浓缩”到一个更高维的程度,而这就代表了模型的“水平”。

但是人作为智慧生命,所感知到的信息并不仅仅来自于文字的描述,我们有太多的经验及知识的获取途径,是通过各个器官感知真实的世界后而得出的。所以如果AI不具备具身、不能通过具身来进行感知,那获得的信息一定是有局限性的。

当讨论到人与机器的本质的区别、或者说人类作为智慧生命的“最后的”壁垒时,几位专家给出了不同的答案。相对来说获得大家普遍认可的,一是人类是唯一的对死亡具备认知的生物,二是人类是始终具有自驱的动力来不断进行进化的物种。而这两项,至少目前看来,机器可能完全不会具备。

一个系统、一个模型,是不具备理论上的生命周期的。它可以通过不断的迭代、信息补充,永远存在于世界上。所以对机器来说,它并不会真正知道“死亡”是什么,自己也永远不会来到这一个节点。

而人类是有相对固定的生命周期的,虽然这个周期也在随着科技的发展而延长。如果将人类的普遍生命周期缩短或延长一个数量级,我们的社会形态、意识,所有的一切都会有本质的不同。

人类群体正是因为存在这个相对固定的生命周期,导致这个物种持续具有自发的、源自于内心的持续迭代和进化的动力。

反观机器,它并没有这样的一个核心需求,来推动它自己进行持续不断的迭代。而这个主动性,可能是人和机器最终的本质区别,也是人类作为智慧生命的最后壁垒。