打开网易新闻 查看精彩图片

【CSDN 编者按】传统的大型语言模型依赖于人类生成的文本数据作为桥梁,而多模态大型语言模型可以直接从世界获取信息,突破了人工智能的瓶颈,并且被认为是通用人工智能的通用接口。

作者 | 《新程序员》编辑部

出品 | CSDN(ID:CSDNnews)

大模型时代,多模态技术被认为是通往 AGI 的必由之路,也是推动 AI 发展的关键因素。多模态大模型能够整合多种数据,为人们更准确地理解和处理现实世界的复杂问题提供了可能。

在 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 ML-Summit 2024 全球机器学习技术大会的「多模态大模型前沿」专题上,零一万物联合创始人潘欣微软亚洲研究院首席研究员刘树杰、上海交通大学教授倪冰冰、新浪微博新技术研发负责人张俊林、潞晨科技副总裁李彤、北京大学博士生导师袁粒、中科院自动化所副研究员、武汉人工智能研究院算法总监 吴凌翔、Cofounder CTO、OriginX AI Technologies 姚佳晨进行了精彩的现场分享。他们深入浅出地阐述了多模态大模型的前沿技术与应用前景,让参会者对多模态大模型有了更全面、更深入的认识。

该专题演讲吸引了众多参会者的目光,现场更是座无虚席,嘉宾与听众互动不断。(按专家演讲时间顺序整理分享内容)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

潘欣:多模态技术和应用

“没有大规模的多模态数据,大语言模型就难以获取各个模态足够多的知识,因此,预训练应尽早纳入多模态”。潘欣在演讲中提到。

打开网易新闻 查看精彩图片

零一万物联合创始人 潘欣

以视觉计算(CV)和自然语言处理(NLP)为例,潘欣深入梳理了从 2015 年到 2024 年的技术演进脉络。在图像分类上,模型从 Alexnet 进化到 VGG,再到 Resnet,一步步提升图像处理效率;检测任务经历了从 RCNN 到 Fast RCNN,再到更高阶版本的演进;而在图像分割方面,Unet 引领潮流,随后 DeepLabv1、v2、v3 相继问世,为图像解析带来了更多可能。在产品生成方面,从 DCGAN 到 Big GAN,再到 StyleGAN,每一次迭代都为人们带来了更加真实、细致的图像生成效果。

在 NLP 领域,翻译任务的技术路线则从最初的 Seq2Seq 发展到 Seq2Seq 结合 Attention 机制,语言模型也经历了从 Word2Vec 到 Ngram,再到 GRU/LSTM 的演变。此外,他还提到了命名实体识别(NER)和语音识别(speech)等相关任务的技术进步。

潘欣强调,这些领域中的技术发展有着类似的轨迹,并且都与全球资源管理系统紧密相连,共同推动着人工智能技术的快速发展。

当下,构建多模态大语言模型是构建通用人工智能(AGI)的必经之路。潘欣向参会者分享了 MMLM 和 Diffusion 两种大模型技术。

在他看来,对比传统大语言模型,多模态大型语言模型接口除了文本处理,还能处理多种模态的数据,如视觉、声音等,而视觉大型语言模型是多模态大型语言模型的一种具体类型。那么如何训练视觉大语言模型呢?

潘欣表示:视觉大语言模型的训练过程有两种开始阶段,一种是在大语言模型预训练期间开始,其优点是早期可压缩嘈杂的多模态数据且不损害微调,但灵活性较差,如 Gemini;另一种是在大型语言模型微调之后开始,包括多阶段和单阶段,多阶段有多种变化,如先使用适配器再用大型语言模型最后全部开放,或单阶段开放模型一部分并训练到底,其优点是更灵活且实验成本更低,但会损害语言能力。

扩散模型(Diffusion Model)是一种基于概率统计和非均衡热力学原理的深度学习生成模型。它通过对原始数据逐步添加高斯噪声,将清晰的数据点转化为越来越随机的状态,然后训练模型学习如何通过一系列去噪步骤来逆转这个过程,从随机噪声中逐渐重构出清晰的数据样本。

扩散模型在图像生成领域取得了显著进展,可以生成高质量的图像,也被应用于音频、视频和多模态数据的生成任务中。然而,扩散模型在推理过程中存在计算成本较高的问题,因此出现了一系列加速扩散模型推理过程的算法

在对比大语言模型和扩散模型区别时,潘欣用了这样的比喻:大型语言模型如同大脑,而扩散模型如同工具/解码器,不会带来通用人工智能。

打开网易新闻 查看精彩图片

MLLM vs Diffusion

此外,潘欣还分享了多模态应用在生产力工具、社交应用和一些基本问题面的挑战,如多语言光学字符识别存在的一些问题,包括在非英语方面的不足,对复杂图表的处理困难,以及推理能力相对较弱等。

最后,潘欣以零一万物所研发的多模态大模型 Yi-VL-Plus 为例介绍了开发多模态大模型产品的开发流程及存在的问题和解决之道。他总结道,多模态处理需要更好的流程(need better Procedure for Multimodality)。

打开网易新闻 查看精彩图片

倪冰冰:视觉目标的矢量化表征与内容生成技术

在大模型领域,高校研究更多地聚焦在多模态基础表征方法上进行一定程度的探索。近年来,AIGC 类大模型在 2D、3D 视频等模态上展现出众多新应用,然而,在实际去尝试使用时,大家会发现很多技术在商业化进程中仍存在着最后一公里的距离。一些更高维度的应用,比如 Sora,尽管发展得十分迅猛,但至今仍未大规模展现出非常稳固的商用状态。

打开网易新闻 查看精彩图片

上海交通大学教授 倪冰冰

上海交通大学教授倪冰冰表示,当下视频内容生成挑战主要有两大问题和一个挑 战,第一个问题是结构性的问题,在生成的视频内容里面,有时候会多出一些内容,有时候又会缺少一些内容。第二个是细节问题。挑战则是来自算力方面的巨大鸿沟。

而在视觉表征方面,当前流行的底层表征包括 2D 图像的像素、3D 模式中三角网格点云的存储以及 3D 中包含隐式表征的 SDF等表征,它们都是存储原始图像数据。

人脸和人体表征处理的方法是用一组基元组合来表示,这些参数在某种意义上是具有物理意义的矢量化。视觉属性表征处理的方法是将它们融合在一起,以不结尾的存储方式存在于各个像 素或变体中。

如果需要进行精细编辑,大家就需要用到解耦式表征,比如将光照与复杂几何解耦,用 BRDF 函数的参数来表达光照等。

倪冰冰表示:对于视觉内容,矢量化的表征在生成时代更具优势。在计算方面, 他们通过某种方式将规则的参数注入到模型中,参与最终计算规则,从而更好地解决规则嵌入问题。在某个范畴或层面做 AIG seed 模型,可能会看到一些新方法。

矢量化有信息遵循密度低、可编辑具体部分、无损缩放、可无限采样等优点,但目前尚未大规模应用。因为视觉属性表现非常复杂,所以进行时代化的表征并非易事。

图像或 3D 模型中各局部信息力度不同,如何合理分配有限的表征资源是个难题。

基于此,倪冰冰提出了一个多模态视觉内容矢量化表征的生成范式,参数空间的约束生成框架,并在该框架下进行了很多应用和新方法的研究。对于多模态识别数据,他希望能用某种空间结构方式,如网络或传统方法,将其解构为具有机源的形式。最终实现高品质渲染与模型驱动协同表征。

打开网易新闻 查看精彩图片

张俊林:原生多模态大模型的方法与问题:以 Gemini 为例

打开网易新闻 查看精彩图片

新浪微博新技术研发负责人 张俊林

原生多模态一词最先由谷歌提出,目前 99% 的多模态大模型内核都由训练好的大模型直接拿来用,目前真正的原生大模型目前只有 4 个,张俊林表示。这 4 个分别是:

  • OpenAI 的 GPT-4V,也是当前全球首个实用化多模态大模型,也代表了当前多模态大模型的最佳水准;

  • 谷歌 Gemini,支持音频、视频理解等更多种模态,与 GPT-4V 能力相当;

  • Llama 3,多语言多模态

  • rek,一位谷歌离职研究员开发的多模态模型

多模态大模型的典型架构包括 Visual Encoder 用于图像信息编码,Adapter 能使图像语义向文本空间靠近,LLM 具备语言知识、世界知识及逻辑推理能力。多模态数据用于不同模态语义对齐,同时还有 Instruct Tuning 帮助理解指令,这些组件共同协作,构成了多模态大模型的完整体系。

其中,张俊林以谷歌 Gemini 为例,为我们揭开原生多模态大模型背后的神秘面纱。他分别从 Gemini 可能采取的整体架构,视觉编码器参考、音频编码器参考、多模态训练数据及 Gemini 指令微调的可能做法进行分享。

整体架构方面,Gemini 采取 VideoPoet 模型,类似于 OpenAI 最近发布的视频生成模型 Sora。它采用了 Transformer 架构,能够执行各类零次学习生成任务,包括文本生成视频、图像生成视频、视频补全及视频风格转换等。视觉编码器可能是采用 VideoPrism,而音频编码器参考估计是 Universal Speech Model (USM) 。据张俊林推测,Gemini 的训练数据枢纽大概率是以文本作为枢纽模态,并且其基座模型采取了多阶段的训练过程,采用的 Instruct Tuning 类似 ChatGPT 的 SFT+Reward Model+RLHF。

除了原生多模态大模型,目前多数大模型都属于拼接粘合型多模态大模型,张俊林同样列举了 4 个拼接粘合型多模态大模型例子:

  • Fuyu-8B:以极简模型结构著称;

  • LLaVA 1.5:英文多模态大模型 SOTA 代表模型之一,模型架构具有当前多模态大模型的典型性;

  • Qwen-QL:Qwen-QL 是效果最好的中文多模态大模型之一,采取多阶段训练过程;

  • SPHINX-X:高清图像输入及多 Visual Encoder 的代表模型。

最后,张俊林也分析了当下原生大模型存在的主要问题,在他看来,尽管原生多模态大模型具备诸多理论优势,经过精心设计与训练,但从效果角度来看,其结果不一定优于拼接粘合型多模态大模型。

当下的原生多模态大模型无论是在视觉的感知能力方面还是在识别图片物体空间关系、理解图片信息、视觉数理推理能力、处理图片序列方面,均与人类表现差距较大大,其中有 35% 的错误是与 Visual Encoder 有关。

打开网易新闻 查看精彩图片

刘树杰:预训练方法在语音处理领域的探索和应用

对比文本预训练,语音预训练要面临一些独特的挑战。语音是一个没有片段边界的更长的序列,它是连续的,没有一个固定的单元字典进行自我监督学习,这与文本有很大的不同。而且,语音处理任务还需要诸如内容信息和说话人信息等正交信息,这也是语音预训练与文本预训练的一个重要区别。

打开网易新闻 查看精彩图片

微软亚洲研究院首席研究员 刘树杰

刘树杰向大家分享了语音预训练的三类方法,包括编码器补充、基于编解码器结构的方法和仅对解码器预训练的方法。

他以 WavLM 项目为例,这是个能处理全栈语音任务的预训练模型,可对内容、噪音、说话人三方面信息建模,适用于语音识别等任务,还能做说话人分离任务。WavLM 提出了掩蔽语音预测和去噪的方法,他们采用混合策略做数据增强,通过随机混合噪音和干净语音数据来模拟带噪音信号,混合两个语音数据来模拟多说话人,噪声和第二个语音数据被随机剪切缩放,且要求第二个不超第一个的 50%,以防混淆。

训练时,模型预测清晰音频生成的离散序列,从而具备抗噪和说话人建模能力。此外,他们还通过引入相对位置嵌入对模型结构进行修改,在 Transformer 结构中添加门控相对位置偏差,使自注意力网络能根据语音内容调整注意力。引入门控位置偏差在不影响参数量和训练速度的前提下,提高了 ASR 等内容相关语音处理任务的性能。

对于 Low Resource Language 自动语音识别系统,他们可以像 Wav2vec2.0 和 HuBERT 那样先用大量的无标注数据来预训练一个模型,再在 Low Resource 的标注数据上微调。然而对于某些语言,比如英语,因为他们有大量的标注数据,所以,如何利用标注数据来提高 Low Resource Language 的自动语音识别性能就是刘树杰他们 UniSpeech 的研究内容。

他们采用了多任务测试的思路,使用了 1500 小时的英文数据和低资源语音数据,比较系统有迁移学习,即使用英文数据 CTC 进行预训练,然后再使用低资源数据微调 Wav2vec2.0 的结果。用英文无标注数据预训练,然后用各个语言的数据进行微调。从实验结果来看,简单的多任务学习尽管有一定的提高,但并不显著。其原因可能是对比损失和 CTC 的监督损失在不同的空间对模型进行了优化。

为了解决这个问题,他们引入了一种 Swap 的方法来使用离散化的 token 嵌入来随机替换转换编码器的输出。这样 phonetic ctc layer 的输入就是混合了离散 token 的上下文表示。由于 Y 是 phoneme 的序列,使用离散 token 来预测 phoneme 可以显式的指导量化器来学习 phoneme 的信息,并将该信息融合到 量化器的 codebook 里。通过这种方式对比损失和连续时间隐马尔可夫模型损失就可以在同一个隐含空间进行优化。

打开网易新闻 查看精彩图片

他们发现 Unispeech 能够相比简单的多任务学习有显著地性能提升,相比 Wav2Vec2.0 平均获得 13.2% 的 WERR。

最后,刘树杰提到,如今 Speech pre-training 变得越来越流行,它在语音领域发挥着重要作用。预训练模型能够有力地促进语音识别和生成,而基于编解码器的方法更是为语音处理开启了新的途径,这无疑为语音处理领域打开了一扇新的大门,并且这种方法将会被广泛应用于所有的语音处理任务中。

打开网易新闻 查看精彩图片

李彤:Sora 开源复现架构模型与训练揭秘

打开网易新闻 查看精彩图片

潞晨科技副总裁 李彤

OpenAI Sora 的面世让大家看到了大模型的另一种可能,那就是文生视频成为现实,这也激发了不少国内开发者的追捧与探索。在李彤看来,如何低成本训练类 Sora 模型并取得较好的效果才是关键。

对此,他们用低成本、完全开源的 Open-Sora 方案将 OpenAI 的 Sora 模型引入社区。Open-Sora 采用主流的 DiT 框架,并使用强大的文本到图像模型 PixArt-α 作为模型的初始化。为了降低训练和推理成本,他们提出了 STDiT 训练框架,并实现高达 5 倍的加速。

Open-Sora 的训练计划受稳定视频扩散 (SVD) 工作的启发,包括三个阶段:第一阶段通过大规模图像预训练,借助成熟的文生图模型,有效降低视频预训练成本。第二阶段进行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列关联。他们使用了 PixArt-alpha 的开源权重作为第二阶段 STDiT 模型的初始化,采用了 T5 模型作为文本编码器,并为模型添加了时间注意力机制。第三阶段对高质量视频数据进行微调,通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。数据预处理则是采用 LLaVA 1.6 的视频字幕生成,效果媲美 GPT-4V 。

最后,李彤还介绍了他们在系统层面的训练策略 Colossal-AI ,目前已在 GitHub 开源,其高效的背后离不开这三方面的技术优化:高效的内存系统、N 维并行系统、低延迟推理系统。

打开网易新闻 查看精彩图片

袁粒:Open-Sora Plan 视频生成开源计划

在 ML-Summit 2024 首日的多模态专场,与会者了解了企业端的 Sora 复现架构与效果。会议第二日,主办方邀请到北京大学博士生导师袁粒分享高校在文生视频方面的研究与具体实践。袁粒他们希望站在高校的公立、公益角度复现 Sora 项目,于是 Open-Sora Plan 项目应用而生,并在 GitHub 上开源(https://github.com/PKU-YuanGroup/Open-Sora-Plan),目前 Open-Sora Plan Star 超 10k,并多次登顶 GitHub Trending。

打开网易新闻 查看精彩图片

北京大学博士生导师 袁粒

袁粒表示,Open-Sora Plan 的架构其实很简单,主要包含三个部分,其中视频编解码器无疑是至关重要的部分,他们所采用的是 CausalVideoVAE 编码器。这个阶段的主要任务是将视频进行极致压缩。之所以要这样做,主要是因为视频文件的体积过于庞大。而 Sora 相较于上一代文生视频技术非常重要的区别就在于其在执行时长上实现了突破。而这一突破的背后,离不开“压缩即智能”技术理念。将压缩后的视频输入到大模型中,大模型所获取的语料便是长视频,且所学到的也是具有连贯性的长视频,而非以往那种将一个视频切割成多个 clips 片段的形式。

那么,如何对视频进行压缩呢?Open-Sora Plan 主要是通过 3D VAE 进行时空编码压缩,而且压缩率越高、PSNR 越高,所呈现的效果也就越好。

Open-Sora Plan 架构的第二部分是采用 Diffusion Transformer 进行视频扩散。袁粒表示,由于采用 3D DiT 计算开销太大,目前 Open-Sora Plan 采用的是计算更友好的 2D + 1D Diffusion Transformer。第三部分便是视频 Conditioning。

在模型训练方案上,被 Open-Sora Plan 团队验证有效的方案是采用注意力掩码机制支持任意比例视频输入,兼容不同的视频输入分辨率及输入时长,第二种方案是将 NaViT模块融合进框架,目前正在验证其效果。

Open-Sora Plan 目前已经发布 V 1.0.0,接下来袁粒团队希望能在有效框架基础上训练更多数据和更大算力,希望训练出生成 20 秒以上,720P 清晰度的模型。

打开网易新闻 查看精彩图片

吴凌翔:紫东太初多模态大模型创新与实践应用

多模态大模型贯通不同模态间的知识表达与语义对齐,相较现有模型的单/双模态更易覆盖现实需求。吴凌翔表示:“利用文本、图片、音频和视频等多模态数据进行跨模态的统一表征和学习,是更接近人类的学习方式”。

中科院自动化所副研究员、武汉人工智能研究院算法总监 吴凌翔

多模态大模型贯通不同模态间的知识表达与语义对齐,相较现有模型的单/双模态更易覆盖现实需求。吴凌翔表示:“利用文本、图片、音频和视频等多模态数据进行跨模态的统一表征和学习,是更接近人类的学习方式”。

在此,她以「紫东太初」多模态大模型为例,向参会者分享多模态大模型的落地实战经验及背后的技术。

紫东太初从 2020 年开始攻关多模态大模型,到 21 年 9 月发布紫东太初 1.0 版本,再到 23 年 6 月发布紫东太初 2.0 版本。紫东太初 1.0 是全球首个具备图、文、音三模态的千亿参数大模型,可以通过多任务跨模态自监督学习,实现多模态数据语义统一表示、模态理解与模态生成统一建模。最新的紫东太初 2.0 更是首次提出全模态多任务统一生成式学习框架,通过全模态低成本协同关联优化学习,融合多任务全模态能力,更具拓展性。

吴凌翔从数据、模型到应用三大层面拆解了紫东太初团队在多模态方面的研发思路和创新方法。首先在数据层面,他们提出了一个完整的数据抽取工具链 EvalWeb,该工具链可以帮助开发人员从网络噪声文本中抽取高质量中文预训练数据。与此同时,他们分别发布了一个 1.42TB 规模的中文预训练数据集 ChineseWebText 和 更高质量的数据子集 Cleaner Subset,ChineseWebText 的每一条文本数据均包含了其对应的质量打分,从而帮助大模型研究人员依据新的阈值选择合适的数据,Cleaner Subset 的规模达到了600 GB,且人工质量评估的准确率达到了 90%。此外,他们还介绍了开源中文多模态数据集「紫东太素」的构建方式。目前,太素(TaiSu)公开了 1.66 亿图片数据集 urls,2.19 亿中文描述。

模型方面主要涉及语言模态、视觉模态和多模态多任务理解的模型训练。语言模态上,他们提出在小模型中利用参数高效的微调方法学习到具体的任务信息,注入到大模型中,让大模型进行推理。具体训练方法是先用小模型先做高效微调。之后,任务相关参数、插件模块和 bridge model 微调来解决维度不匹配的问题和交互问题。多模态多任务理解上,提出了图文理解生成统一模型,输入输出侧均支持图、文、框,以及图、文、音、视频多模态基础模型 VAST,支持图像、视频、声音、字幕、自然语言五种模态输入等。

在应用模型方面,吴凌翔介绍了团队的虚拟换装工作和基于大模型的工业异常检测工作。

最后,在具体落地应用方面,吴凌翔介绍了紫东太初开放服务平台以及智能运维大模型、医疗诊断大模型、智慧教育大模型等行业模型,助力各行各业实现智能化、精细化管理。

打开网易新闻 查看精彩图片

姚佳晨:多模态智能体在下一代 AI 原生 2C 产品的探索和实践

在当今的大模型时代,智能体正悄悄进入人们的生活。之前,有 OpenAI CEO Sam Altman 投资,由前苹果功勋设计师 Imran Chaudhri 与苹果前系统负责人 Bethany Bongiorno 共同创办的公司 Humane 所研发的 AI Pin 就是一款智能体产品尝试。尽管人们在拿到 AI Pin 后发布了不少负面评价,但它似乎让人们看到了智能体所具有的无限潜力。

打开网易新闻 查看精彩图片

Cofounder CTO、OriginX AI Technologies 姚佳晨

在姚佳晨看来,智能体是一个能够感知其环境,基于感知做出决策以实现特定目标的系统。具体而言,智能体不仅需要具备感知能力,还需要具备思考能力和行动能力。

智能体的感知能力主要包括获取和预处理多样化环境中的多模态信息,思考能力则是要处理感知到的信心,需具备记忆、工具、决策能力,行动能力则是包含了虚拟行动、具身行动、中间行动和终端行动这几个方面。

姚佳晨表示,智能体的实现主要围绕决策、记忆、工具调用和行动四大功能模块进行构建,其中决策功能有思维链、思维树等,记忆主要是通过预训练数据、提示词上下文来实现短期记忆,长期记忆需要用到向量数据库、知识图谱、传统数据库等。工具调用层所用到的技术有 MRKL 路由、TALM、Toolformer 微调。智能体的通用框架有单智能体和多智能体,单智能体可以依靠 AutoGPT、BabyAGI、LangChain 实现,多智能体可以采用 AutoGen、MetaGPT 等技术。

最后,姚佳晨还以 Character Al、AI 小镇、Devin、Inworld AI 为例,介绍了智能体产品的交互模式。他表示,当下智能体产品形态想象力空间巨大。智能助手、聊天陪伴、智驾座舱、生活和工业场景下的自动化等等。智能体产品形态也会受到底层技术的限制。智能体往往需要通过比较长时间的规划和工具调用,大大增加了响应时间(time to first token)。在些需要实时响应的场景下仍需底层技术的进一步加强。

在 ML-Summit 2024 全球机器学习技术大会上,专家们从多维度全面分析了多模态技术在图像、语音、视频等多个领域的应用及背后的技术机构。会场,专家和参会者积极互动,技术讨论氛围浓厚。

立即扫码预约全球机器学习技术大会PPT