【AI问爱答】第七期 | 多模态视觉会进化到怎样的形态呢?
打开网易新闻 查看更多视频
【AI问爱答】第七期 | 多模态视觉会进化到怎样的形态呢?
【AI问爱答】第七 期完整视频

【AI问爱答】第七期问答节选

多模态大模型在视觉方向的演进

本期主题

如何看待多模态视觉演进的技术发展?

多模态大模型在B端场景中,有哪些应用场景和空间?

回答专家:

薄列峰,通义实验室应用视觉实验室负责人

深度问答

Q1薄老师在通义APP上,给广大用户提供了非常多爆款应用背后的技术支持。像年初爆火的全民舞王,四月份推出的全民演唱,还有七月刚刚结束的巴黎奥运会相关的全民云运动。包括在央视的AI盛典当中,让兵马俑开口唱华阴老腔。这些都是基于线上APP角色扮演的motion,包括Outfit Anyone、Animate Anyone以及EMO等技术能力去呈现的。您如何看待多模态视觉演进的技术发展呢?

打开网易新闻 查看精彩图片

用通义APP实现的兵马俑开口唱歌视频在央视AI盛典上引起热烈讨论

打开网易新闻 查看精彩图片

通义APP-角色扮演频道

薄列峰首先回到多模态的定义。其实多模态就像它的名字一样,它就有多种模态。典型的模态包括语音、文本、图像、视频。最近关注度比较高的,包括像从文字到图像,从文字到视频,从图像、视频再到文字,这些都是目前比较典型的多模态。从图像、视频到文字这个方向,我们叫vision language model,视觉语言模型。

其他文生图、文生视频,都是现在蓬勃发展的一些方向。特别是年初随着OpenAI Sora的发展,文生视频在过去几个月获得了相当多的关注,包括国内也有很多进展。随着时间推移,刚才提到的这几个模态,我们会继续去完善,现在我们有非常好的进展,但同时也有相当多还没有解决的问题。举个例子,像文生视频,时不时会出现物理合理性的问题。如果看视频的分辨率,目前跟我们能够去录制的高清视频都还有差距。所以在包括物理合理性、视频质量、可控性上,都需要去大力地发展和推进,才能逐渐扩大应用领域。再看未来的未来,我觉得在多模态有一个非常终极的形态,就是视频到视频。

回到今天,举个例子,像我们两个人这样聊天,从我来看你,看到的是一个视频,我能看到你,同时能看到你讲话,你也能看到我。我们两个人之间的交流,其实是video到video的状态,而且在3D空间。我觉得目前有一些大家提出来但做得相对少的问题有多种原因,数据是一个原因。同时模态之间的难度、复杂度是另外一个原因。相信随着大模型的发展,这个方向会受到越来越多关注。

Q2:若视频到视频这一终极场景实现,是否意味着很多视频工作者会失业,行业会有哪些颠覆性改变呢?

薄列峰他肯定会对行业带来颠覆性的改变。如果回到科技的每一次进步,他都会对行业有颠覆性改变。举个例子,以交通为例,我们最开始是人走路,后面有汽车,汽车之前还有骑马这件事。当技术进步的时候,我们总是能找到和技术共存的方式。所以我觉得这个形态到来的时候,我们人依然会和这个形态去共存,去提升。

目前来讲AI它还是一个工具,它还是被我们人类控制的。随着未来的发展,我们要关注的是一些新职业的诞生。我们怎么样去实现共赢,从我的角度还是比较乐观的。

Q3:您觉得在B端场景中,多模态大模型有哪些应用场景和空间呢?哪些行业的从业者可以来调用视觉相关的模型呢?

薄列峰我们现在做C端有很重要的一个考量,是现在的技术需不需要在一个场景中去打磨,同时需要在实践中看到它的提升空间去完善。我们在通义APP提供很多能力,包括年初的全民舞王,也包括EMO,在七月份它有相当大的流量。在通义APP,这些基于领先技术所打造的产品的展现,会让B端客户看到机会和可能性,来看到在他们的工作中,怎样使用最先进的AI的技术。典型的我目前的客户实际上也是一些做视频APP的客户。我们的产品,包括能力,还是受到了客户非常好的反馈。

Q4我们希望很多to b到to c的企业级市场的客户,更多关注我们相关的模型能力。刚刚聊到了产业相关的问题,其实很多开发者有偏技术的一些问题。比如OpenAI Sora视频生成是基于transformer架构,但EMO不是。EMO在技术创新方面有什么不一样的地方?

薄列峰我们在做视频生成或数字人,一直坚持自己对这个问题最本质的思考,不是简单的人云亦云。DiT本身确实是挺好的架构,diffusion也有很多应用的方向。关于diffusion和DiT,在这一块是我们工作的一个选择,它并不是我们这个工作最核心的部分。EMO最核心的部分是能够通过声音信号去生成讲话视频,这是非常本质的一个问题。它是典型的多模态。这里的模态是声音而不是文本。再比如说像Sora的模态是从文本到视频,它是相对视频的另一个模态,是文本。

对比声音和文本,有一个非常本质的差异。声音是一个时间序列,时间序列能为视频生成提供更好的可控性。视频是一个典型的时空序列。通过声音信息生成视频在时间维度上的可控性会非常好。如果让Sora生成一段5秒的视频,你告诉他第0.1秒的时候做什么,0.3秒的时候做什么,就非常复杂,某种程度非常低效。

我们另一个Animate Anyone也是类似的思路。在Animate Anyone里,我们用骨骼序列作为输入的模态,或者说一个控制信号为什么选择骨骼序列呢?骨骼序列是一个时空序列。他去控制人的动作的时候,不仅能在指定时间说你去做什么,骨骼之间的相对关系,也给定了空间上的一些引导。所以在数字人这个方向,对可控要求比较高的骨骼序列,亦或声音都提供了非常有特色的,时间上甚至空间上的控制信息,这是我们的一个思路。

打开网易新闻 查看精彩图片

Animate Anyone效果展示

回到DiT和diffusion,我们选择diffusion,也在试DiT是否有本质的优势。未来2到3年,我个人的观点transformer和diffusion还会是共存的状态,不是简单的替代关系。其实你看DiT,它也是个diffusion transformer,其实也是两个的融合,大概整体上是这样的思路。新的架构也有像Mamba,还有其他的架构,新的架构会不会带来更多惊喜,能在本质问题上有些突破,也是我们所期待的。

Q5:数字人、虚拟人等这些人物视频以后的技术路线是什么样子的?

薄列峰从两个维度来展开。第一个维度是我们关注的问题是什么?我们需要把问题思考清楚,是what这样的概念。第二个是我们问题思考清楚之后,解决的路径是什么?具体实现的技术方法是什么?

关于人物视频生成,首先从这个问题的演进上,我的思考是说现在包括EMO和交互数字人,基本还是单人的概念。随着时间的推移,我们会看到越来越多的工作会涉及到人和物体的交互。在这次奥运上,我们也做了一些尝试。举个例子,比如说打排球这样一个动作,那就是需要一个很潇洒的排球动作,还有射击。在我们奥运的方案里头,物体还是固定的,以后物体实际上可以更加多样。

熟悉文生视频的朋友可能会说,文生视频实际上已经有人物交互了,这是文字生成的一个优势,它表达交互比较强。但在这里我们讲的还在骨骼序列驱动的范畴,我们在这个范畴上做人物交互,能兼顾时空的可控性。还有交互这件事,如果从文字去做,大概率可能是说来描述下一个人在打排球。但是具体什么时间,什么节点,什么动作,这个是他挑战的一个部分。我觉得人物视频生成后续一个发展就是多人的交互,而且是可控的,比如通过骨骼序列,甚至多个模态之间的交互。

我觉得未来的另一个方向就是骨骼序列、声音、文本这三个不同的控制信号之间,作为一个多控制信号去控制人物的生成。这样它能够满足更加广泛的需求。

Q6我们现在要看到的是最大的头部GPT4o的能力。您觉得目前我们包括阿里自己,还有像国内的一些友商,在视觉这个方向中,跟GPT4o的差距到底有多大?比如说在效果、时效性上,您觉得有哪些技术能力和计划去赶超GPT4o?

薄列峰首先大模型这整个领域,考虑的因素比较多,像算力、数据、人才等等综合因素。到目前为止看到像Open AI,还有谷歌的DeepMind,包括微软自己也在研发一些大模型,还有硅谷的创业公司,他们进展也都比较快。

这里头一个考虑点就是算力,算力很重要。我相信随着国产算力的推进,未来我们也会在越来越多的领域取得领先。回到GPT4o,目前来讲,国内头部也都在关注这块的能力,包括刚才提到的千问VL,具备图像视频的理解能力。整体上我们也在快速地对齐。特别是考虑到从2023年开始,所谓的百模大战,大家知道当ChatGPT出来的时候,我们的差距还是挺大的。但当时钟走到现在一年半之后,实际上我们取得了长足的进步,也还有差距,在一些局部的方向,甚至我们能获得领先。考虑到这么短的时间,我们有这么多的进展,未来我们有更多的时间,相信我们可以取得更多的进展,所以这一块我们还是乐观的。

Q7我觉得国内厂商在中文本身的数据集和数据的方向,其实是有一定优势的,毕竟我们有自己的中国文化,包括中国文化所沉淀的数据。说到数据问题,接下来高质量且没有被使用的文档和数据变得越来越稀缺,我们怎么去解决数据枯竭的问题?

薄列峰首先在给定的一个时间节点,数据一定是有限的。当我们使用更多的数据,那未被使用的数据就会变少。这是一个规律。自然语言、大模型语言进展相对来讲是领先于其他的,包括多模态,所以他首先遇到这个问题。未来其他的模态像视频、图像也会遇到类似的问题。但在视频这一块,我们是具备一定优势的。大型的视频生态的公司,实际上都是国内在主导。而且视频这个形态,包括直播,在国内更加蓬勃发展。所以国内在这一块是有一些优势的。

第二个点是,当数据走到一定阶段,我怎么去解决它?解决方式实际上比较多样化。像刚才提到的视频数据,两个人对话的一个视频数据,是比较难去搜集的。有一个方式,比如我们讲话的时候,可以带上摄像头,可以获得交互的数据,就像在真实物理世界中交互一样。所以我觉得采集数据的手段要更加丰富。

另一个角度,特别是在视频生成,甚至是在语言模型上,逐渐出现的就是合成高质量的数据。举个例子,在奥运会项目中,像射箭、篮球这样的运动非常专业,它的数据非常少,我们可以通过像UE unity这种渲染引擎来合成这样的数据,也取得了不错的结果。整体上合成数据随着时间的推移,特别是在多模态领域,它会发挥越来越多的作用。

Q8:多模态训练时,不同模态会不会相互干扰?联合训练的结果,会不会不如单模型训练效果好?

薄列峰首先技术进展到今天,实际上我们去看底层的架构,它在某种程度上不是变得更复杂,它实际反而变得更简单。像transformer这些,不同的模态我们都可以用token这样的表达方式去做统一。另外可能会出现某些模态的缺失。这个时候我们可以在网络架构中引入模态不激活等等的一些策略,来利用模态有缺失的数据。所以这里头给我们提出了新的挑战,同时给了我们广大开发者一个创新的机会。在训练的方法上,我们也可以针对模态缺失去做对应的针对性的策略。这是两个解决方法。整体上现阶段多模态的模型越来越多,效果也都在提升,从另一个方面佐证了这一块目前来看可能还不是最大的问题。

Q9:多模态大模型的研究范式是什么?未来2到3年,预计哪些能力会获得比较大的进展?

薄列峰首先现在文生图的结果已经到达了相当高质量的水准。包括近来发布的flux模型,整个文生视频、骨骼序列、语音生成视频,我认为是在高速迭代的阶段。在未来两三年,我期望在技术上取得两个阶段的提升。通过这两个阶段的提升,他能够去逐步地去扩大使用者群体。举个例子,现在这一代的文生视频的模型,基本上还是需要专业的创作者来做,写prompt还是一个技术活。随着它性能的提升,我们对prompt的文字的理解能力会变得更强,做这件事会变得更容易。再到下一个阶段,它的可控性会加强,包括去和时空信号的结合,这是视频方向。

如果看视觉语言模型(vision language model)这块,数据覆盖度,包括模型能够去处理各种不同情况,各种case的通用性会提升。

快问快答

Q:多模态的支持度表现比较好的智能体有推荐的吗?

薄列峰肯定还是推荐我们通义APP。我们最近上线了数字人口译老师,它的模态包括文字、声音、视频,是一个典型的多模态,欢迎大家来体验。

打开网易新闻 查看精彩图片

通义APP部分功能如图

Q:您对于数字人预训练模型有什么想法?

薄列峰我们的工作EMO就是一个典型的预训练模型。在EMO完成训练之后,我们给定一个人物的照片,上传一段音频,就可以生成这个人讲话的视频。

Q:千问VL目前在多模态搜索以及问答上有什么比较好的方案呢?

薄列峰大家可以去体验通义APP的主chat。在主chat里我们可以上传一张照片,然后去做问答。整体上我们更多的这方面能力,包括视频都在研发的过程中,现在已经上线了图片功能,大家都可以来体验一下。

打开网易新闻 查看精彩图片

通义APP主chat