打开网易新闻 查看精彩图片

大家好,这是我们的新专栏——大模型月报(100 篇必读论文)——的第三篇文章,内容主要为当前大模型领域热门研究方向(如文生图、文生视频、文生音乐等)的热门论文

打开网易新闻 查看精彩图片

我们希望,这一专栏能够为大家提供较为全面的大模型最新研究进展。当然,大模型月报」目前还无法涵盖所有热门论文以及研究方向,望请见谅。

欢迎大家在评论区多提建议~

想要第一时间获取每日最新大模型热门论文? 扫描下方二维码,加入「大模型技术分享群」。 或点击“阅读原文”,获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。

以下,为 2024 年 4 月份,我们收录的一些热门大模型研究论文。文章篇幅较长,共计 4.5 万余字,建议收藏~

第 1 章 文生图

【清华、Meta 提出文生图定制新方法 MultiBooth】

来自清华大学和 Meta 的研究团队提出了一种用于从文生图的多概念定制的新型高效技术—— MultiBooth。尽管定制生成方法取得了长足的进步,特别是随着扩散模型的快速发展,但由于概念保真度低和推理成本高,现有方法在处理多概念场景时依然困难。

为了解决这些问题,MultiBooth 将多概念生成过程分为两个阶段:单一概念学习阶段和多概念整合阶段。在单概念学习阶段,他们采用多模态图像编码器和高效的概念编码技术,为每个概念学习一个简明且具有辨别力的表征;在多概念整合阶段,他们使用边界框来定义交叉注意图中每个概念的生成区域。这种方法可以在指定区域内创建单个概念,从而促进多概念图像的形成。

这一策略不仅提高了概念的保真度,还降低了额外的推理成本。在定性和定量评估中,MultiBooth 都超越了各种基线,展示了其卓越的性能和计算效率。

论文链接:https://arxiv.org/abs/2404.14239

项目地址:https://multibooth.github.io/

【 ID-Aligner:利用奖励反馈学习增强“文生图”身份保持】

扩散模型的快速发展催生了各种应用。尤其是身份保持的文本到图像生成(ID-T2I),因其广泛的应用场景(如人工智能肖像和广告)而备受关注。

虽然现有的 ID-T2I 方法已经取得了令人瞩目的成果,但仍存在几个关键挑战:1)很难准确保持参考肖像的身份特征;2)生成的图像缺乏美感,尤其是在要求身份保持时;3)无法同时兼容基于 LoRA 和基于 Adapter 的方法。

为了提高 ID-T2I 的性能,来自中山大学和字节跳动的研究团队,提出了一种通用反馈学习框架——ID-Aligner。同时,为了解决身份特征丢失的问题,他们提出了身份一致性奖励微调,利用人脸检测和识别模型的反馈来改进生成的身份保存。此外,他们还提出了身份美学奖励微调,利用人类标注的偏好数据奖励和自动构建的字符结构生成反馈,从而提供美学调整信号。

得益于其通用反馈微调框架,该方法可轻松应用于 LoRA 和 Adapter 模型,从而实现一致的性能提升。在 SD1.5 和 SDXL 扩散模型上进行的大量实验验证了该方法的有效性。

论文链接:https://arxiv.org/abs/2404.15449

项目地址:https://idaligner.github.io/

【LazyDiffusion:用于交互式图像编辑的懒惰扩散 Transformer】

来自 Adobe 研究院和特拉维夫大学的研究团队提出了一种新型扩散 transformer——LazyDiffusion,它能高效地生成局部图像更新。 他们以交互式图像编辑应用为目标,在这些应用中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列局部图像修改。

他们的生成器分两阶段运行。首先,上下文编码器处理当前画布和用户掩码,生成一个紧凑的全局上下文来适应要生成的区域。其次,以该上下文为条件,基于扩散的 transformer 解码器以“lazy”的方式合成掩膜像素,即只生成掩码区域。

之前的工作要么重新生成整个画布,浪费时间和计算,要么将处理范围限制在掩膜周围的狭小矩形区域,完全忽略了全局图像上下文。他们的解码器的运行时间与掩码大小成比例,掩码大小通常很小,而他们的编码器带来的开销可以忽略不计。实验证明,在质量和保真度方面,他们的方法与最先进的内绘方法相比具有竞争力,同时在典型的用户交互中(编辑掩码占图像的 10%),速度提高了 10 倍。

论文链接: https://arxiv.org/abs/2404.12382

GitHub 地址: https://lazydiffusion.github.io/

【MoA:新型“文生图”扩散模型个性化架构】

Snap 研究团队提出了一种新的架构——混合注意力(MoA),用于文本到图像扩散模型个性化。受大型语言模型(LLMs)中使用的专家混合机制(Mixture-of-Experts mechanism)的启发,MoA 在两个注意力路径之间分配生成工作量:个性化分支和非个性化先验分支。

MoA 的设计目的是通过将注意力层固定在先验分支中来保留原始模型的先验性,同时通过个性化分支尽量减少对生成过程的干预,该分支学会将主题嵌入到先验分支生成的布局和上下文中。一种新颖的路由机制可以管理各层像素在这些分支中的分布,从而优化个性化和通用内容创建的融合。

经过训练后,MoA 就能帮助创建高质量的个性化图像,这些图像包含多个主体,其构图和交互方式与原始模型生成的图像一样多样化。重要的是,MoA 增强了模型原有能力与新增强的个性化干预之间的区别,从而提供了一种以前无法实现的更加独立的主体—语境控制。

论文链接: https://arxiv.org/abs/2404.11565

项目地址: https://snap-research.github.io/mixture-of-attention/

【Controlnet++:利用高效一致性反馈改进条件控制】

目前,为了增强文本到图像扩散模型的可控性,ControlNet 纳入了基于图像的条件控制。 然而,来自佛罗里达中央大学和字节跳动的研究团队提出,现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。

他们提出了一种新方法 Controlnet++,通过显式优化生成图像和条件控制之间的像素级循环一致性,来改善可控生成。具体来说,对于一个输入条件控制,他们使用预训练的判别奖励模型来提取生成图像的相应条件,然后优化输入条件控制与提取条件之间的一致性损失。一个直接的实现方法是从随机噪声中生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步的梯度,消耗了相当大的时间和内存成本。

为了解决这个问题,他们提出了一种有效的奖励策略,通过添加噪声故意干扰输入图像,然后使用单步去噪图像进行奖励微调。这避免了与图像采样相关的大量成本,允许更有效的奖励微调。

大量实验表明,Controlnet++ 在各种条件控制下显著提高了可控性。例如,在分割掩码、线条艺术边缘和深度条件方面,它比 ControlNet 分别提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。

论文链接:https://arxiv.org/abs/2404.07987

【RLCM:通过强化学习微调一致性模型】

强化学习(RL)通过直接优化获取图像质量、美学和指令跟随能力的奖励,改进了扩散模型的引导图像生成。然而,由此产生的生成策略继承了扩散模型的迭代采样过程,导致生成速度缓慢。

为了克服这一局限性,一致性模型提出学习一类新的生成模型,直接将噪声映射到数据,从而产生一种只需一次采样迭代就能生成图像的模型。

在这项工作中,为了优化文本到图像生成模型从而获得特定任务奖励,并实现快速训练和推理,来自康奈尔大学的研究团队提出了一种通过 RL 对一致性模型进行微调的框架——RLCM,其将一致性模型的迭代推理过程构建为一个 RL 过程。RLCM 在文本到图像生成能力方面改进了 RL 微调扩散模型,并在推理过程中以计算量换取样本质量。

实验表明,RLCM 可以调整文本到图像的一致性模型,从而适应那些难以通过提示来表达的目标(如图像压缩性)和那些来自人类反馈的目标(如审美质量)。与 RL 微调扩散模型相比,RLCM 的训练速度明显更快,提高了在奖励目标下测量的生成质量,并加快了推理过程,只需两个推理步骤就能生成高质量图像。

论文链接:https://arxiv.org/abs/2404.03673

项目地址:https://rlcm.owenoertell.com/

【InstantStyle:实现“风格保护”的文生图】

基于 Tuning-free 扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。

然而,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,从而实现风格强度和文本可控性之间的平衡。

在这项工作中,InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后,他们提出了一个用于解决这些问题的框架——InstantStyle,包括两个关键策略:(1)一种直接的机制,将风格和内容与特征空间内的参考图像解耦,其前提是同一空间内的特征可以相互添加或减去;(2)将参考图像特征完全注入特定风格块中,从而防止风格泄漏,并避免了繁琐的权重调整,这通常是参数较多的设计的特点。

这一工作展示了优秀的视觉风格化成果,在风格的强度和文本元素的可控性之间取得了最佳平衡。

论文链接: https://arxiv.org/abs/2404.02733

项目地址: https://instantstyle.github.io/

【SPRIGHT:提高“文生图”模型的空间一致性】

当前文本到图像(T2I)模型的主要缺陷之一是无法始终如一地生成忠实于文本提示中指定的空间关系的图像。

来自亚利桑那州立大学、Intel Labs 的研究团队及其合作者,对这一局限性进行了全面的研究,同时还开发了能达到 SOTA 的数据集和方法。

研究团队发现当前的视觉语言数据集不能很好地表现空间关系;为了缓解这一瓶颈,他们从 4 个广泛使用的视觉数据集中抽取了 600 万张图片重新进行标注,进而创建了首个以空间为重点的大规模数据集——SPRIGHT。通过三重评估和分析,他们发现 SPRIGHT 在捕捉空间关系方面比现有数据集有很大改进。为了证明 SPRIGHT 的功效,他们只利用了约 0.25% 的 SPRIGHT,就在生成空间精确图像方面提高了 22%,同时还提高了 FID 和 CMMD 分数。

此外,他们发现在包含大量物体的图像上进行训练可大幅提高空间一致性。值得注意的是,通过在小于 500 张图像上进行微调,他们在 T2I-CompBench 上达到了 SOTA,空间分数为 0.2133。

论文链接: https://arxiv.org/abs/2404.01197

项目地址:https://spright-t2i.github.io/

【上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K HD】

由于分辨率限制,大型视觉语言模型(LVLM)在理解细粒度视觉内容方面面临挑战。

来自上海 AI Lab 和香港中文大学的研究团队提出了 InternLM-XComposer2-4KHD —— 将 LVLM 分辨率提升到 4K HD(3840 x 1600)及更高分辨率。同时,考虑到并非所有场景都需要超高分辨率,它支持从 336 像素到 4K 标准的各种不同分辨率,大大拓宽了其适用范围。

研究表明,将训练分辨率扩展到 4K HD 可带来持续的性能提升,而不会触及潜在改进的上限。InternLM-XComposer2-4KHD 在 10 项测试中表现出了与 GPT-4V 和 Gemini Pro 相媲美甚至超越的能力。

论文链接:https://arxiv.org/abs/2404.06512

Github 地址:https://github.com/InternLM/InternLM-XComposer

第 2 章 文/图生视频

【ID-Animator:零样本身份保持人类视频生成器】

生成具有指定身份(ID)的高保真人类视频,已引起内容生成领域的极大关注。然而,现有技术很难在训练效率和身份保持(identity preservation)之间取得平衡,要么需要进行繁琐的逐个微调,要么通常会在视频生成过程中遗漏 ID 细节。

来自中国科学技术大学、中国科学院和腾讯的研究团队,提出了一种零样本人类视频生成方法 ID-Animator,它可以在给定单个参考面部图像的情况下,无需进一步训练即可生成个性化视频。ID-Animator 继承了现有的基于扩散的视频生成骨干技术,并配备了人脸适配器,可从可学习的面部潜在查询中编码与 ID 相关的嵌入。

为了便于在视频生成过程中提取 ID 信息,他们提出了一个面向 ID 的数据集构建管道,该管道从构建的面部图像池中整合了解耦人类属性和动作字幕技术。在此基础上,他们进一步设计了一种随机人脸参考训练方法,从而从参考图像中精确捕捉与 ID 相关的嵌入,从而提高该模型在特定 ID 视频生成中的保真度和泛化能力。

大量实验证明,ID-Animator 在生成个性化人类视频方面达到了 SOTA。此外,他们的方法与流行的预训练 T2V 模型(如 animatediff 和各种社区骨干模型)高度兼容,在需要保持 ID 的视频生成实际应用中具有很高的可扩展性。

论文链接:https://arxiv.org/abs/2404.15275

GitHub 地址:https://github.com/ID-Animator/ID-Animator

【PhysDreamer:通过视频生成,与 3D 物体进行基于物理交互】

逼真的物体交互对于创造身临其境的虚拟体验至关重要,然而如何根据新颖的交互合成逼真的 3D 物体动力学仍是一项重大挑战。

与无条件或文本条件动态生成不同,动作条件动态生成需要感知物体的物理材料属性,并根据这些属性(如物体刚度)进行 3D 运动预测。然而,由于缺乏真实材料数据,估计物理材料属性是一个未决问题,因为测量真实物体的这些属性非常困难。

来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究团队提出了一种基于物理学的方法 PhysDreamer ,它利用视频生成模型学习到的物体动力学先验,赋予静态 3D 物体以交互式动态效果。通过提炼这些先验,PhysDreamer 能够合成逼真的物体对外力或智能体操作等新型交互的反应。

他们在各种弹性物体示例中演示了这种方法,并通过用户研究评估了合成交互的逼真度。PhysDreamer 通过使静态 3D 物体以物理上可信的方式对交互刺激做出动态响应,向更吸引人、更逼真的虚拟体验迈出了一步。

论文链接:https://arxiv.org/abs/2404.13026

项目地址:https://physdreamer.github.io/

【“图生视频”新研究:剪贴画秒变卡通动画】

剪贴画是一种预先制作的图形艺术形式,为视觉内容提供了一种方便、高效的说明方式。将静态剪贴画图像转换成动态序列的传统工作流程既费力又费时,其中涉及许多复杂的步骤,如装配、关键动画和中间处理。文本到视频生成技术的最新进展为解决这一问题带来了巨大潜力。

然而,直接应用文字视频生成模型往往难以保留剪贴画图像的视觉特征或生成卡通风格的动作,导致动画效果不尽如人意。来自香港城市大学和莫纳什大学提出了一个将静态剪贴画图像转化为由文本到视频先验指导的高质量运动序列系统 AniClipart。

为了生成卡通风格的平滑运动,他们首先在剪贴画图像的关键点上定义 Bézier 曲线,作为一种运动正则化形式。然后,通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与所提供的文字提示对齐,该损失在预训练的文字视频扩散模型中编码了足够的自然运动知识。该方法采用了可微分的形状变形算法(As-Rigid-As-Possible shape deformation algorithm),可以在保持变形刚度的同时进行端到端优化。

实验结果表明,在文本-视频对齐、视觉特性保持和运动一致性方面,AniClipart 始终优于现有的图像-视频生成模型。展示了 AniClipart 的通用性,通过调整它来生成更广泛的动画格式,如分层动画,允许拓扑变化。

论文链接: https://arxiv.org/abs/2404.12347

项目地址:https://aniclipart.github.io/

【 MagicTime:一种变形延时视频生成模型】

目前,文生视频(T2V)技术的进展在从文本描述合成高质量的通用视频方面取得了 SOTA。

然而,T2V 中一个很大程度上被忽视的问题是,现有模型没有充分编码真实世界的物理知识,因此生成的视频往往具有有限的运动和较差的变化。

来自北京大学和罗切斯特大学的研究团队提出了一种名为 MagicTime 的变形延时视频生成模型,该模型从延时视频中学习真实世界的物理知识,并实现了变形生成。

首先,他们设计了一个 MagicAdapter 方案来解耦时空训练,从变形视频中编码更多的物理知识,并转换预训练 T2V 模型来生成变形视频。其次,他们提出了一种适应变形延时视频的动态帧提取策略,它具有更大的变化范围,涵盖了戏剧性的物体变形过程,因此比一般视频体现了更多的物理知识。最后,他们提出了一个魔术文本编码器,以提高对变形视频提示的理解。此外,该研究团队还创建了一个名为 ChronoMagic 的延时视频文本数据集,专门用于解锁变形视频生成能力。

实验证明,MagicTime 在生成高质量和动态变形视频方面达到了 SOTA,表明延时视频生成是构建物理世界变形模拟器的一个途径。

论文链接: https://arxiv.org/abs/2404.05014

项目网站:https://github.com/PKU-YuanGroup/MagicTime

【 CameraCtrl:为文生视频模型增加“相机控制”】

可控性在视频生成中起着至关重要的作用,因为它允许用户创建所需的内容。然而,现有模型在很大程度上忽视了对相机姿态的精确控制,而相机姿态能够表达更深层次叙事细微差别的电影语言。为了解决这个问题,来自香港中文大学、上海 AI Lab 和斯坦福大学的研究团队提出了 CameraCtrl,为文本到视频(T2V)模型提供精确的相机姿态控制。

据介绍,在精确设定相机轨迹参数后,即插即用的相机模块就可以在 T2V 模型上进行训练,而无需其他模型。此外,对各种数据集的效果进行的综合研究表明,相机分布多样、外观相似的视频确实增强了可控性和通用性。实验结果表明,CameraCtrl 能有效实现精确的领域自适应相机控制,这标志着在通过文本和相机姿态输入实现动态和定制化视频叙事方面又向前迈进了一步。

论文链接: https://arxiv.org/abs/2404.02101

项目地址:https://hehao13.github.io/projects-CameraCtrl/

第 3 章 文生音频

【英伟达推出 Audio Dialogues:用于音频和音乐理解的对话数据集】

现有的音频理解数据集主要集中在单回合交互(即音频字幕、音频问答)上,用于以自然语言描述音频,从而限制了通过交互式对话理解音频。

为了解决这一差距,英伟达研究团队提出了一个包含 163.8k 样本的多回合对话数据集——Audio Dialogues,用于一般音频和音乐。除了对话,Audio Dialogues 还具有问答对,可以一起理解和比较多个输入音频。

Audio Dialogues 利用基于提示的方法和来自现有数据集的标题注释,使用大型语言模型(LLM )生成多回合对话。在所提出的数据集上评估了现有的音频增强的大型语言模型,从而证明音频对话的复杂性和适用性。

论文链接:https://arxiv.org/abs/2404.07616

Github 地址:https://audiodialogues.github.io/

【港科大提出 FlashSpeech:高效零样本语音合成】

目前,语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。然而,这两种方法的生成过程都很慢且计算量很大。使用较低的计算预算进行高效语音合成,达到与之前工作相当的质量,仍然是一个重大挑战。

来自香港科技大学的研究团队及其合作者,提出了一个大规模的零样本语音合成系统——FlashSpeech,与以前的工作相比,它的推理时间大约减少了 5%。FlashSpeech 建立在潜在一致性模型的基础上,并应用了一种新的对抗一致性训练方法,无需预先训练的扩散模型作为“教师”,即可从头开始训练。此外,新的韵律生成器模块增强了韵律的多样性,使语音的节奏听起来更加自然。

FlashSpeech 的生成过程可以通过一个或两个采样步骤高效地完成,同时保持高音频质量和与零样本语音生成音频提示的高相似性。实验结果证明 FlashSpeech 达到了 SOTA。值得注意的是,FlashSpeech 可以比其他零样本语音合成系统快 20 倍,同时在语音质量和相似性方面保持相当的性能。此外,FlashSpeech 通过有效地执行语音转换、语音编辑和多样化的语音采样等任务展示了其通用性。

论文链接: https://arxiv.org/abs/2404.14700

GitHub 地址:https://flashspeech.github.io/

【Stability AI 推出长音乐生成模型,时常可达 4 分 45 秒】

基于音频的音乐生成模型近来取得了重要进展,但迄今为止还无法生成具有连贯音乐结构的完整音乐曲目。在这项工作中,Stability AI 表示,通过对长时空背景的生成模型进行训练,可以生成长达 4 分 45 秒的长篇音乐。据介绍,该模型由一个在高度降采样的连续潜在表征上运行的 diffusion-transformer 组成。根据音频质量和提示对齐度量标准,它在生成结果方面获得了 SOTA,主观测试表明,它能生成具有连贯结构的长篇音乐。

论文链接:https://arxiv.org/abs/2404.10301

项目地址:https://stability-ai.github.io/stable-audio-2-demo/

【Tango 2:通过直接偏好优化对齐基于扩散的文生音频模型】

生成式多模态内容在许多内容创作领域日益流行,因为它有可能让艺术家和媒体人员通过快速将他们的想法带到生活中来创建预制作模型。根据文字提示生成音频,是在音乐和电影行业中这类流程的一个重要方面。

目前,许多基于文生视频的扩散模型专注于在大量提示音频对数据集上训练日益复杂的扩散模型。然而,这些模型并没有明确地关注概念或事件的存在,以及它们在输出音频中与输入提示相关的时间顺序。

来自新加坡科技设计大学的研究团队及其合作者假设关注的是音频生成的这些方面如何在数据有限的情况下提高音频生成的性能。他们使用现有的文本到音频模型 Tango,综合创建了一个偏好数据集,其中每个提示都有一个赢家的音频输出和一些输家的音频输出,供扩散模型学习。从理论上讲,输家的输出可能缺少提示中的一些概念或顺序不正确。

他们在偏好数据集上使用 diffusion-DPO 损失对公开可用的 Tango 文生视频模型进行了微调,并表明它在自动和手动评估指标方面优于 Tango 和 AudioLDM2 的音频输出。

论文链接:https://arxiv.org/abs/2404.09956

GitHub 地址:https://github.com/declare-lab/tango

【Melodist:实现包含人声和伴奏的可控文生歌曲模型】

歌曲是歌声和伴奏的结合,然而,现有的工作主要集中在歌唱声音合成和音乐生成上,很少有人关注歌曲合成。

来自浙江大学的研究团队提出了一项名为“文本到歌曲合成”(text-to-song synthesis)的新任务,其中包含人声和伴奏的生成,他们开发的 Melodist 是一种两阶段文本到歌曲方法,包括歌唱语音合成 (SVS)和人声到伴奏合成 (V2A)。Melodist 利用三塔对比预训练来学习更有效的文本表示,用于可控的 V2A 合成。

为了缓解数据的稀缺性问题,他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估结果表明,Melodist 可以合成具有相当质量和风格一致性的歌曲。

论文链接:https://arxiv.org/abs/2404.09313

项目地址:https://text2songmelodist.github.io/Sample/

【微软、上交大推出 CoVoMix:实现多个对话者的多轮对话】

近来,零样本文本到语音(TTS)建模技术的进步推动了高保真和多样化语音的生成,然而,对话生成以及实现类似人类的自然语音仍然是该领域的一项挑战。

在这项工作中,来自微软和上海交通大学的研究团队,提出了一种用于零样本、类人、多扬声器、多轮对话语音生成的新型模型——CoVoMix。

据介绍,CoVoMix 能够首先将对话文本转换成多个离散的 token 流,每个 token 流代表单个对话者的语义信息。然后,将这些 token 流输入一个基于流匹配的声学模型,生成混合旋律谱图。最后,使用 HiFi-GAN 模型生成语音波形。另外,他们还设计了一套衡量对话建模和生成效果的综合指标。

实验结果表明,CoVoMix 不仅能生成自然、连贯、类似人类的对话,还能让多个对话者进行多轮对话。这些在单通道中生成的对话具有无缝语音转换(包括重叠语音)和其他语言行为(如笑声)的特点。

论文链接:https://arxiv.org/abs/2404.06690

项目地址:https://www.microsoft.com/en-us/research/project/covomix/

【字节推出 VoiceShop:保留原音色,任意修改性别、口音和说话风格】

字节跳动提出了一个新型语音转语音框架——VoiceShop,其可以在一次前向传递中修改语音的多个属性,如年龄、性别、口音和说话风格,同时保留输入说话者的音色。

以往的工作局限于只能单独编辑这些属性的专用模型,并存在以下缺陷:转换效果不明显,没有针对分布外扬声器的零样本功能,或者合成输出会出现音色泄漏,从而改变说话者的感知身份。

该工作在一个简单的模块化框架中提出了解决上述问题的方案,该框架基于一个条件扩散骨干模型,并带有可选的基于归一化流的模块和序列到序列的扬声器属性编辑模块,这些模块的组件可在推理过程中组合或移除,从而满足各种任务的需要,而无需额外的模型微调。

论文链接:https://arxiv.org/abs/2404.06674

项目地址:https://voiceshopai.github.io/

【MuPT:生成式符号音乐预训练 Transformer】

来自多伦多大学、中国科学院深圳先进技术研究院的研究团队及其合作者探索了大型语言模型(LLMs)在音乐预训练中的应用。

虽然在音乐建模中普遍使用 MIDI 已是公认的事实,但研究结果表明,LLM 本身与 ABC Notation 更为兼容,后者更符合 LLM 的设计和优势,从而提高了模型在音乐创作中的性能。为了解决在生成过程中不同音轨的测量值不一致所带来的挑战,他们提出了一种同步的多音轨 ABC 记谱法(SMT-ABC Notation),旨在保持多个音乐音轨之间的一致性。

他们建立了一系列能够处理多达 8192 token 的模型,涵盖了训练集中 90% 的符号音乐数据。此外,他们还探索了符号音乐缩放定律(SMS Law)对模型性能的影响,研究结果为音乐生成的未来研究指明了一个有希望的方向。

论文链接:https://arxiv.org/abs/2404.06393

项目地址:https://map-mupt.github.io/

【 WavLLM:实现鲁棒性和自适应语音大语言模型】

近年来,大型语言模型(LLMs)的发展给自然语言处理领域带来了巨大变化,其范围逐渐扩大到多模态感知和生成。然而,如何有效地将听觉功能集成到 LLM 中,尤其是在不同语境下的泛化和执行复杂的听觉任务方面,提出了巨大的挑战。

来自香港中文大学、微软的研究团队提出了一种具有双编码器和提示感知 LoRA 权重适配器的鲁棒自适应语音大语言模型——WavLLM,其通过两阶段课程学习方法进行了优化。

利用双编码器,研究团队将不同类型的语音信息解耦,利用 Whisper 编码器处理语音的语义内容,利用 WavLLM 编码器捕捉说话者身份的独特特征。在课程学习框架内,WavLLM 首先通过优化混合初级单一任务来建立其基础能力,然后在更复杂的任务(如初级任务的组合)上进行高级多任务训练。

为了提高灵活性并适应不同的任务和指令,研究团队在第二个高级多任务训练阶段引入了提示感知的 LoRA 权重适配器。他们在通用语音基准(包括 ASR、ST、SV、ER 等任务)上验证了所提出的模型,并将其应用于专业数据集,如用于 SQA 的高考英语听力理解集和语音思维链(CoT)评估集。

实验证明,在相同的模型规模下,所提出的模型在一系列语音任务中都达到了 SOTA,在使用 CoT 方法执行复杂任务时表现出了强大的泛化能力。

论文链接:https://arxiv.org/abs/2404.00656

第 4 章 文/图生3D

【DreamScene360:无约束文本-3D 场景生成】

随着虚拟现实应用的需求日益增长,制作身临其境的 3D 资产也愈发重要。

来自加州大学洛杉矶分校、德州大学奥斯汀分校的研究团队,提出了一个文本到 3D 360 度场景生成管道,可在几分钟内为野外环境创建全面的 360 度场景。该方法利用 2D 扩散模型的生成能力和 prompt 的自我完善来创建高质量、全局一致的全景图像。该图像可作为初步的“平面”(2D)场景表示。随后,将其提升为 3D 高斯图像,利用拼接技术实现实时探索。

为了生成一致的 3D 几何图形,该管道将 2D 单目深度对齐到全局优化的点云中,从而构建出空间一致的结构。该点云是 3D 高斯中心点的初始状态。为了解决单视角输入中固有的隐形问题,他们对合成视角和输入相机视角施加了语义和几何约束,作为正则化处理。这些约束为高斯的优化提供了指导,有助于重建未见区域。

总之,与现有技术相比,该方法能在 360 度视角内提供全局一致的 3D 场景,从而增强身临其境的体验。

论文链接:https://arxiv.org/abs/2404.06903

项目地址:https://dreamscene360.github.io/

【清华朱军团队新研究:从单一图像到 3D 生成】

近来,根据文本提示或单张图像生成 3D 内容的技术在质量和速度上都取得了显著进步,其主流模式之一是生成一致的多视图图像,然后进行稀疏视图重建。

然而,由于直接变形网格表示以接近目标拓扑结构的挑战,大多数方法在稀疏视图重建过程中学习隐式表示(如 NeRF),并通过后处理提取获得目标网格。虽然隐式表示法能有效模拟丰富的 3D 信息,但其训练通常需要较长的收敛时间。此外,隐式领域的后提取操作还会导致不良的视觉伪影。

为此,来自中国科学院大学、清华大学、西安电子科技大学和生数科技的研究团队,提出了一种新型单图像到 3D 生成框架——FlexiDreamer,其能以端到端的方式重建目标网格。通过利用称为 FlexiCubes 的基于梯度的灵活提取,该方法避免了后处理带来的缺陷,有利于直接获取目标网格。

此外,他们还采用了多分辨率哈希网格编码方案,将编码级别逐步激活到 FlexiCubes 中的隐式字段,从而帮助捕捉几何细节,实现每一步优化。值得注意的是,FlexiDreamer 在单个 NVIDIA A100 GPU 上从单视角图像中恢复密集 3D 结构仅需约 1 分钟,优于之前的方法。

论文链接:https://arxiv.org/abs/2404.00987

项目地址:https://flexidreamer.github.io/

第 5 章 智能体(Agent)

【智谱AI、清华团队推出自动网页导航智能体 AutoWebGLM】

大型语言模型(LLM)为许多智能体任务(如网络导航)提供了动力,但由于网页上操作的多样性、HTML 文本超出模型处理能力以及由于网页的开放域性质导致的决策的复杂性,大多数现有智能体在实际网页中的表现远不能令人满意。

为此,来自智谱AI 和清华大学的研究团队,在 ChatGLM3-6B 的基础上开发了自动网页导航智能体 AutoWebGLM,其性能超过了 GPT-4。

受人类浏览模式的启发,他们设计了一种 HTML 简化算法来表示网页,简洁地保留重要信息。他们采用人类与人工智能混合的方法来建立用于课程训练的网页浏览数据。然后,他们通过强化学习和拒绝采样对模型进行引导,进一步促进网页理解、浏览器操作和高效的任务分解。

为了进行更好的测试,他们为真实世界的网页浏览任务建立了一个双语基准——AutoWebBench,并在各种网页导航基准中对 AutoWebGLM 进行了评估,发现了它的改进之处,以及在应对真实环境时所面临的挑战。

论文链接: https://arxiv.org/abs/2404.03648

GitHub 地址:https://github.com/THUDM/AutoWebGLM

【BattleAgent:再现历史事件,对历史战役进行多模态动态模拟】

来自罗格斯大学的研究团队及其合作者提出了 BattleAgent,这是一个结合了大型视觉语言模型(LVLM)和多智能体(agent)系统的仿真系统,旨在模拟多个智能体之间以及智能体与其环境之间特定时间内的复杂动态互动。

它既能模拟领导者的决策过程,也能模拟士兵等普通参与者的观点,展示了当前智能体的能力,具有智能体与环境之间细粒度多模态交互的特点。它开发了可定制的智能体结构,从而满足特定的情境要求,例如侦察和挖掘战壕等各种与战斗相关的活动。这些组件相互协作,以生动全面的方式再现历史事件,同时从不同的视角洞察个人的思想和情感。

BattleAgent 为历史战役建立了详细和身临其境的场景,使单个智能体能够参与、观察和动态响应不断变化的战役场景。这种方法有可能大大加深我们对历史事件的理解,特别是通过个人叙述。由于传统的历史叙事往往缺乏文献记载,而且优先考虑决策者的观点,忽略了普通人的经历,因此这种举措也有助于历史研究。

论文链接:https://arxiv.org/abs/2404.15532

【MIT CSAIL 推出多模态自动可解释性智能体 MAIA】

MIT 计算机科学与人工智能实验室团队提出了一个多模态自动可解释性智能体—— MAIA。

MAIA 是一个使用神经模型来自动完成神经模型理解任务(比如特征解释和故障模式发现)的系统。它为预训练的视觉语言模型配备了一系列工具,从而支持对其他模型的子组件进行迭代实验,从而解释其行为。这些工具包括人类研究人员常用的工具:合成和编辑输入,计算来自真实世界数据集的最大激活示例,以及总结和描述实验结果。MAIA 提出的可解释性实验将这些工具组合在一起,用于描述和解释系统行为。

他们评估了 MAIA 在计算机视觉模型上的应用。他们首先描述了 MAIA 在图像学习表示中描述(神经元级)特征的能力。在几个经过训练的模型和一个具有配对 ground-truth 描述的合成视觉神经元新数据集上,MAIA 产生的描述与专家人类实验者生成的描述相当。此外,MAIA 可以帮助完成两个额外的可解释性任务:降低对虚假特征的敏感性,以及自动识别可能被错误分类的输入。

论文链接:https://arxiv.org/abs/2404.14394

项目地址:https://multimodal-interpretability.csail.mit.edu/maia/

【AgentKit:使用图而非编码进行流程工程设计】

来自卡内基梅隆大学和英伟达的研究团队为多功能智能体(agent)提出了一个直观的 LLM 提示框架——AgentKit,用于从简单的自然语言提示中明确构建复杂的“思维过程”。

AgentKit 的基本构件是一个节点,其中包含针对特定子任务的自然语言提示。然后,用户将节点链组合在一起,就像堆砌乐高积木一样。节点链的设计可以明确执行自然结构的“思维过程”。例如,对于撰写论文的任务,可以从以下思维过程开始:1)确定核心信息;2)确定先前的研究差距等。AgentKit 中的节点可以通过不同的设计和组合方式来实现多种高级功能,包括即时分层规划、反思和从交互中学习。

此外,由于其模块化性质和模拟人类思维过程的直观设计,一个基本的智能体可以通过简单的子任务提示列表来实现,因此没有任何编程经验的人也可以设计和调整智能体。

从定量分析上看,通过 AgentKit 设计的智能体在 WebShop 和 Crafter 上实现了 SOTA。这凸显了 AgentKit 在使 LLM 智能体有效并适用于更广泛应用方面的潜力。

论文链接:https://arxiv.org/abs/2404.11483

GitHub 地址:https://github.com/holmeswww/AgentKit

【COMBO:帮助多智能体合作的组合世界模型】

来自马萨诸塞大学阿默斯特分校、清华大学和北京大学的研究团队及其合作者,探讨了具身多智能体合作问题,在这种情况下,去中心化智能体必须在只有部分自我中心世界观的情况下进行合作。

为了在这种情况下有效地制定计划,与在单个智能体场景中学习世界动态不同,他们必须在仅对世界进行部分自我中心视觉观察的情况下,模拟以任意数量智能体的行动为条件的世界动态。

为了解决部分可观测性这一问题,他们首先训练生成模型,以便在部分自我中心观测条件下估计整体世界状态。为了能够在此世界状态下精确模拟多组行动,他们建议通过对多个智能体的自然可组合联合行动进行因式分解并组合生成视频,从而学习多智能体合作的组合世界模型。利用这种组合世界模型,结合视觉语言模型来推断其他智能体的行动,就可以使用树状搜索程序来整合这些模块,促进在线合作规划。

为了评估这一方法的有效性,他们使用 ThreeDWorld 模拟器创建了两个具有挑战性的多智能体长视野合作任务,并用 2-4 个智能体进行了实验。结果表明,他们的合成世界模型是有效的,而且该框架能使智能体在各种任务和任意数量的智能体中与不同智能体进行高效合作。

论文链接:https://arxiv.org/abs/2404.10775

GitHub 地址:https://vis-www.cs.umass.edu/combo/

【综述:基于大型语言模型的游戏智能体】

游戏智能体(agent)的开发在推动通用人工智能(AGI)的发展中起着至关重要的作用。大型语言模型(LLM)及多模态大型语言模型(MLLM)的进步为游戏 agent 的发展提供了前所未有的机遇,使其在复杂的计算机游戏环境中具备类似人类的决策能力。

来自乔治亚理工学院和 Cisco Research 的研究团队从整体角度全面概述了基于 LLM 的游戏 agent。首先,他们介绍了基于 LLM 的游戏 agent 的概念架构,其核心是六个基本功能组件:感知、记忆、思维、角色扮演、行动和学习。其次,他们调查了现有文献中具有代表性的基于 LLM 的游戏 agent 的方法和适应灵活性,涉及六种类型的游戏,包括冒险游戏、交流游戏、竞争游戏、合作游戏、模拟游戏以及制作和探索游戏。最后,他们对这一新兴领域的未来研究和发展方向进行了展望。

论文地址:https://arxiv.org/abs/2404.02039

GitHub 地址:https://github.com/git-disl/awesome-LLM-game-agent-papers

【综述:用于推理、规划和工具调用的智能体架构】

在这项工作中,来自 IBM、微软的研究团队探讨了 AI 智能体实现方面的最新进展,重点关注它们实现复杂目标的能力,这些目标需要更强的推理、规划和工具执行能力。

这项工作的主要目标是:1)交流现有 AI 智能体实现的当前能力和局限性;2)分享他们从观察这些系统的运行中获得的见解;3)为 AI 智能体设计的未来发展提出重要的考虑因素。

为此,他们概述了单智能体和多智能体架构,确定了设计选择中的关键模式和分歧,并评估了它们对实现既定目标的总体影响。

论文链接: https://arxiv.org/abs/2404.11584

【综述:大模型智能体的记忆机制】

近来,基于大型语言模型(LLM)的智能体引起了研究界和工业界的广泛关注。与原始 LLM 相比,基于 LLM 的智能体具有自进化(self-evolving)能力,这是解决现实世界中需要长期、复杂的智能体-环境交互问题的基础。

支持智能体与环境交互的关键要素是智能体的记忆。虽然以往的研究提出了许多有前景的记忆机制,但这些机制散见于不同的论文中,缺乏系统的综述,无法从整体的角度对这些工作进行总结和比较,也无法抽象出通用而有效的设计模式来启发未来的研究。

为此,来自中国人民大学和华为的研究团队对基于 LLM 的智能体的记忆机制进行了全面研究。具体来说,他们首先讨论了基于 LLM 的智能体的“记忆是什么”和“为什么需要记忆”;然后,系统地回顾了以往关于如何设计和评估内存模块的研究;此外,还介绍了许多智能体应用,其中内存模块发挥了重要作用;最后,分析了现有工作的局限性,并指出了未来的重要方向。

论文链接: https://arxiv.org/abs/2404.13501

第 6 章 对齐(Alignment)

【智谱AI、清华团队推出 ChatGLM-RLHF】

ChatGLM 是一项免费使用的人工智能(AI)服务,由 ChatGLM 系列大型语言模型(LLM)提供支持。

为增强 ChatGLM 与人类偏好的一致性,来自智谱AI 和清华大学的研究团队推出了一个基于人类反馈的强化学习(RLHF)系统——ChatGLM-RLHF。

ChatGLM-RLHF 包括三个主要部分:收集人类偏好数据、训练奖励模型和优化策略。在将 ChatGLM-RLHF 集成到生产中的整个过程中,研究团队遇到并解决了几个前所未有的挑战。他们为稳定的大规模训练提出了减轻奖励差异的策略,利用融合梯度下降实现了模型并行性,并设计了正则化约束,从而避免 LLM 中的灾难性遗忘。

实验表明,与 ChatGLM 的监督微调(SFT)版本相比,ChatGLM-RLHF 在配准任务中取得了显著改进。例如,与 ChatGLM-SFT 相比,它在中文对齐任务中的胜率平均提高了 15%。这项工作为 LLM 与人类偏好对齐作出了实践,为 RLHF 实现中的挑战和解决方案提供了见解。

论文链接: https://arxiv.org/abs/2404.00934

【针对 RLHF 的数据集重置策略优】

基于人类反馈的强化学习(RLHF)是微调生成模型的一种流行范式,已经产生了 GPT-4 和 Claude3 Opus 等强大的模型。这种框架通常包括两个步骤:从离线偏好数据集学习奖励模型,然后运行在线 RL 来优化学习到的奖励模型。

在这项工作中,来自康奈尔大学、普林斯顿大学和 Microsoft Research 的研究团队,利用重置思想提出了一种具有可证明保证的新型 RLHF 算法。受离线偏好数据集提供信息性状态(即标注者偏好的数据)这一事实的启发,他们提出的新算法——数据集重置策略优化(DR-PO)——通过数据集重置将现有的离线偏好数据集集成到在线策略训练程序中:它直接将策略优化器重置为离线数据集中的状态,而不总是从初始状态分布开始。

从理论上讲,该研究证明 DR-PO 在有限样本复杂度的一般函数近似条件下,其学习性能至少与离线数据集所涵盖的任何策略一样好。在实验中,他们证明了在 TL;DR 总结和 Anthropic Helpful Harmful 数据集上,在 GPT4 胜率指标下,DR-PO 的生成效果优于近端策略优化(PPO)和方向偏好优化(DPO)。

论文链接:https://arxiv.org/abs/2404.08495

GitHub 地址:https://github.com/Cornell-RL/drpo

【通过注意力调节实现更好的文本到图像生成对齐】

在文本到图像的生成任务中,扩散模型的进步提高了生成结果的保真度。然而,这些模型在处理包含多个实体和属性的文本提示时遇到了挑战。 注意力分布不均会导致实体泄漏和属性错位问题。要解决这个问题,从头开始训练需要大量的标注数据,而且非常耗费资源。

为此,来自新加坡国立大学、山东大学的研究团队提出了一种属性聚焦(attribution-focusing)机制,这是一种通过调节扩散模型的注意力来实现的免训练分阶段机制。

他们的核心理念之一是引导模型在不同的时间步集中于提示的相应句法成分。为此,他们在自注意力模块的早期阶段加入了温度控制机制,从而缓解实体泄漏问题。

另外,他们在交叉注意模块中集成了以对象为中心的屏蔽方案和分阶段动态权重控制机制,使模型能够更有效地辨别实体之间的语义信息关联。

各种配准场景的实验结果表明,该模型能以最小的额外计算成本实现更好的图像-文本对齐。

论文链接:https://arxiv.org/abs/2404.13899

【MIT、谷歌新研究:基于零样本跨语言对齐的奖励模型转移】

根据人类标注的偏好数据对语言模型(LMs)进行对齐,是获得基于 LM 的系统实用且性能良好的的关键一步。 然而,多语言人类偏好数据很难大规模获取,因此将这一框架扩展到多种语言具有挑战性。

来自麻省理工大学和谷歌的研究团队评估了一种简单的零样本跨语言对齐方法,即在一种源语言的偏好数据上训练奖励模型,然后直接应用于其他目标语言。在总结和开放式对话生成方面,他们表明这种方法在包括人工评估在内的综合评估设置下始终是成功的,在多达 70% 的评估实例中,跨语言对齐模型比非对齐模型更受人类青睐。

此外,不同语言奖励模型有时会比同种语言奖励模型产生更好的对齐模型。他们还确定了在没有特定语言数据甚至监督微调时的最佳实践。

论文链接:https://arxiv.org/abs/2404.12318

第 7 章 安全治理

【OpenAI:如何让大模型免受恶意攻击?】

当前的大型语言模型(LLM)容易受到提示注入、越狱攻击和其他攻击的影响,这些攻击允许攻击者用他们自己的恶意提示覆盖模型的原始指令。

OpenAI 研究团队认为,这些攻击的主要漏洞之一是,LLMs 经常将系统提示(比如来自应用程序开发人员的文本)与来自不可信用户和第三方的文本视为相同的优先级。为此,他们提出了一种指令层次(instruction hierarchy)结构,明确定义了当不同优先级的指令冲突时模型应该如何选择。然后,他们提出了一种数据生成方法来演示这种分层指令跟随的行为,该方法指导 LLMs 有选择地忽略低特权指令。

他们将这种方法应用于 GPT-3.5,结果表明它大大提高了模型的鲁棒性——即使对于在训练过程中未见过的攻击类型也是如此,同时对标准能力的影响降到最低。

论文链接: https://arxiv.org/abs/2404.13208

【Google DeepMind 新研究:减轻说服型生成式 AI 的危害】

最近,生成式人工智能(AI)系统已经显示出更先进的说服能力,并逐渐渗透到可以影响决策的生活领域。

然而,由于互惠交换和长时间互动的机会,生成式 AI 呈现了一种新的说服风险。这导致人们越来越关注说服型生成式 AI 的危害,以及如何减轻这些危害,从而突出了对说服型生成式 AI 进行系统研究的必要性。目前说服型生成式 AI 的定义不明确,相关的危害也没有得到充分的研究。现有的减轻危害的方法优先考虑说服结果带来的危害,而不是说服过程带来的危害。

在这项研究中,Google DeepMind 团队及其合作者提出了说服型生成式 AI 的定义,并区分了理性说服型生成式 AI 和操纵型生成式 AI(manipulative generative AI),前者依赖于提供相关事实、合理推理或其他形式的可信证据,后者则依赖于利用认知偏差和启发式方法或歪曲信息。

他们还提出了服型生成式 AI 的危害,包括经济、物理、环境、心理、社会文化、政治、隐私的定义和例子。然后,他们提出了一幅导致说服危害的机制图,概述了可用于减轻说服过程危害的方法,包括操纵分类的提示工程和红队。他们未来的工作将使这些缓解措施具有可操作性,并研究不同类型说服机制之间的相互作用。

论文链接:https://arxiv.org/abs/2404.15058

【Google DeepMind:先进人工智能模型的整体安全与责任评估】

先进人工智能模型(AI)的安全性和责任评估是一个关键但尚在发展中的研究和实践领域。

在 Google DeepMind 开发高级 AI 模型的过程中,他们创新并应用了一系列安全评估方法。他们总结并分享了他们不断发展的方法以及供广大受众参考的经验教训,其中包括:首先,理论基础和框架对于组织风险领域、模式、形式、指标和目标的重要性是非常宝贵的;其次,安全评估发展的理论和实践都能从合作中受益,从而明确目标、方法和挑战,并促进不同利益相关者和学科之间的见解交流;第三,类似的关键方法、教训和机构适用于责任和安全方面的各种问题 —— 包括既有的和新出现的危害。

因此,从事安全评估和安全研究的广泛参与者必须共同努力,开发、完善和实施新的评估方法和最佳实践。报告最后概述了快速推进评估科学、将新的评估纳入 AI 的开发和治理、建立科学依据的规范和标准,以及促进强大的评估生态系统的明确需求。

论文链接:https://arxiv.org/abs/2404.14068

【谷歌 274 页论文:高级人工智能助手的伦理】

来自 Google DeepMind、Google Research 的研究团队及其合作者,重点探讨了高级人工智能助理带来的机遇以及伦理和社会风险。

他们将高级人工智能助理定义为具有自然语言界面的 AI 智能体(artificial agents),其功能是根据用户的期望,代表用户在一个或多个领域规划和执行一系列行动。

他们首先从技术本身入手,概述了人工智能助手、其技术基础和潜在应用范围;然后,探讨了与人工智能价值一致性、幸福感、安全性和恶意使用有关的问题,他们将进一步扩大调查范围,更详细地考虑高级人工智能助手与个人用户之间的关系,探讨操纵和说服、拟人化、信任和隐私等话题,有了这些分析之后,他们将考虑在社会范围内部署高级人工智能助手,重点关注合作、公平与获取、错误信息、经济影响、环境以及如何最好地评估高级人工智能助手;最后,他们为研究人员、开发人员、政策制定者和公共利益相关者提供了一系列建议。

分析表明,高级人工智能助手很可能会对我们的个人和集体生活产生深远影响。他们认为,要使人工智能助手有益并与人类价值观一致,就必须对用户、开发者和社会之间相互竞争的诉求和需求做出适当回应。

人工智能助手所具备的功能,如更强的智能体能力、自然语言交互能力和高度个性化,对用户特别有帮助。然而,这些特点也使人们容易受到技术的不当影响,因此需要强有力的保障措施。

此外,当人工智能助手被大规模部署时,它们之间的互动所产生的连锁效应以及它们对更广泛的机构和社会进程的整体影响问题就会凸显出来。这些动态可能需要技术和政策干预,从而促进有益的合作,实现广泛、包容和公平的成果。

最后,鉴于目前的人工智能评估主要侧重于人工智能系统的技术组成部分,因此必须投资于人工智能助手的整体社会技术评估,包括人与人工智能的互动、多智能体和社会层面的研究,从而支持该领域负责任的决策和部署。

相关链接: https://deepmind.google/discover/blog/the-ethics-of-advanced-ai-assistants/

【确保 LLM 对齐和安全的 18 个基本挑战】

来自剑桥大学的研究团队及其合作者确定了在确保大型语言模型(LLMs)的一致性和安全性方面的 18 个基本挑战。这些挑战被分为三个不同的类别:对 LLMs 的科学理解,开发和部署方法,以及社会技术挑战。他们根据已确定的挑战,提出了 200 多个具体的研究问题。

论文链接:https://arxiv.org/abs/2404.09932

【负责任的生成式 AI:生成什么,不生成什么】

近年来,与大型语言模型和文本到图像模型一样,生成式人工智能(GenAI)在各个领域受到了极大的关注。然而,确保这些模型生成负责任的内容对于它们在现实世界中的适用性至关重要。

为了应对这一挑战,牛津大学高级研究员 Jindong Gu 探究了文本生成模型和视觉生成模型的实际负责任要求,概述了五个关键考虑因素:生成真实的内容,避免有毒内容,拒绝有害指令,不泄露与训练数据相关的内容,并确保生成的内容可识别。

具体来说,他们回顾了满足这些要求的最新进展和挑战。此外,他们讨论并强调了负责任的 GenAI 在医疗保健、教育、金融和人工智能领域的重要性。通过对文本和视觉生成模型的统一视角,该研究团队旨在为实际安全相关问题提供见解,并进一步使社区在构建负责任的 GenAI 方面受益。

论文链接:https://arxiv.org/abs/2404.05783

【首个根据人类审查的安全指令进行微调的开源多语言模型】

预训练语言模型是多种人工智能(AI)应用的基础,但其高昂的训练计算成本限制了其普及性。然而,现有模型面临着多语言能力有限、持续预训练会导致灾难性遗忘(而从头开始预训练的计算成本又很高),以及是否符合人工智能安全和开发法律等各种挑战。

Aurora-M 是一个 15B 参数的多语种开源模型,使用英语、芬兰语、印地语、日语、越南语和代码进行训练。Aurora-M 在 StarCoderPlus 的基础上对 4350 亿个额外 token 进行了持续预训练,总训练 token 数超过了 2 万亿个。它是首个根据人类审查的安全指令进行微调的开源多语言模型。Aurora-M 经过了各种任务和语言的严格评估,在多语言环境下,尤其是在安全评估中,表现出了对灾难性遗忘的鲁棒性和优于替代方案的性能。

论文链接:https://arxiv.org/abs/2404.00399

第 8 章 大模型/AI4Science

【ResearchAgent:基于 LLM 的科学文献迭代研究思想生成】

一些对改善人类生活至关重要的科学研究,由于其固有的复杂性、缓慢的速度和对专业专家的需求而受到阻碍。

为了提高它的生产力,来自韩国科学技术院和微软的研究团队,提出了一个大型语言模型驱动的研究思想写作智能体 —— ResearchAgent,它自动生成问题、方法和实验设计,同时根据科学文献迭代对它们进行改进。

具体来说,从一篇核心论文为主要焦点来产生想法开始,ResearchAgent 不仅通过连接学术图上的信息来关联出版物,而且根据其基本概念从以实体为中心的知识存储中检索实体,在许多论文中进行挖掘和共享。

此外,反映了人类通过同行讨论迭代改进想法的方法,利用多个评审智能体迭代来提供评审和反馈。用人类偏好对齐的大型语言模型来实例化它们,这些模型的评估标准来自实际的人类判断。他们在多学科的科学出版物上验证了 ResearchAgent,展示了其在基于人工和基于模型的评估结果生成新颖、清晰和有效的研究想法方面的有效性。

论文链接:https://arxiv.org/abs/2404.07738

【清华团队新研究:通过提示工程在 LLM 中整合化学知识】

该论文介绍了一项关于整合提示工程中特定领域知识来提高科学领域大型语言模型(LLM)性能的研究。

来自清华大学和牛津大学的研究团队设计了一个基准数据集,包括了小分子错综复杂的物理化学特性,在药理学上的可药性,以及酶和晶体材料的功能属性,强调了其在生物和化学领域的相关性和适用性。通过对麦克米伦催化剂、紫杉醇和氧化钴锂等复杂材料的案例研究,证明了该方法的有效性。

研究结果表明,领域知识提示可以引导 LLM 生成更准确、更相关的回答,突出了 LLM 在配备特定领域提示后作为科学发现和创新的强大工具的潜力。研究还讨论了特定领域提示工程开发的局限性和未来方向。

论文链接:https://arxiv.org/abs/2404.14467

【用于肿瘤临床决策的自主 AI 智能体】

多模态人工智能(AI)系统有可能通过解释各种类型的医疗数据来增强临床决策。

然而,这些模型在所有医学领域的有效性是不确定的。每个学科都提出了独特的挑战,需要解决最佳性能。当试图将不同的字段集成到单个模型中时,这种复杂性会进一步增加。

来自海德堡大学和德累斯顿工业大学的研究团队及其合作者提出了一种多模态医疗 AI 的替代方法,该方法利用大型语言模型(LLM)的通才能力作为中央推理引擎。这个引擎可以自主协调和部署一套专门的医疗 AI 工具。这些工具包括文本、放射学和组织病理学图像解释、基因组数据处理、网络搜索和医学指南文档检索。他们在一系列临床肿瘤学场景中验证他们的系统,这些场景与典型的患者护理工作流程非常相似。

研究表明,该系统在使用合适的工具、得出正确的结论、为个别病例提供完整和有用的建议方面具有很高的能力,同时在指导下持续参考相关文献。这项工作证明 LLM 可以有效地计划和执行特定于领域的模型,从而将检索或合成作为自主智能体的新信息,这使他们能够为病人量身定制的临床助理。它还通过允许单独验证和批准每个组件工具来简化法规遵从性。

论文链接:https://arxiv.org/abs/2404.04667

【大型语言模型是“超人”的化学家吗?】

大型语言模型(LLMs)由于能够处理人类语言并执行未经明确训练的任务而受到广泛关注。这与化学科学息息相关,因为化学科学面临着数据集小而多样的问题,而这些数据集往往是文本形式的。然而,我们对 LLMs 化学推理能力的系统了解仍然非常有限,而这正是改进模型和减少潜在危害所必需的。

为此,来自耶拿大学的研究团队及其合作者,提出了一个自动化框架 ChemBench,旨在对照人类化学家的专业知识,严格评估最先进 LLM 的化学知识和推理能力。

他们为化学科学的众多子领域策划了 7000 多个问答对,评估了领先的开放式和闭源 LLM,发现最佳模型的平均表现优于最优秀的人类化学家。然而,这些模型在一些对人类专家来说很容易完成的化学推理任务上却表现较差,并提供了过于自信和误导性的预测,比如关于化学品安全概况的预测。

这些发现表明,即尽管 LLM 在化学任务中表现出了非凡的能力,但进一步的研究对于提高其在化学科学中的安全性和实用性至关重要。

论文链接:https://arxiv.org/abs/2404.01475

【H2RSVLM:遥感视觉语言大模型】

目前,通用的大型视觉语言模型(VLMs)发展迅速,但在遥感(RS)领域仍表现不佳,这是由于遥感图像的独特性和专业性,以及目前的视觉语言模型的空间感知能力相对有限。现有的遥感专用视觉语言模型(RSVLM)仍有很大的改进潜力,这主要是由于缺乏大规模、高质量的遥感视觉语言数据集。

来自武汉大学和上海 AI Lab 的研究团队提出了 HqDC-1.4M,即大规模高质量和详细的 RS 图像标题,其中包含 140 万个图像标题,这不仅增强了 RSVLM 对 RS 图像的理解,还显著提高了模型的空间感知能力,如定位和计数,从而增加了 RSVLM 的帮助。

此外,为了解决 RSVLM 中不可避免的“幻觉”问题,他们还开发了首个旨在增强 RSVLM 自我认知能力的数据集——RSSA。

通过在典型的 RS 视觉问题解答任务中加入各种无法回答的问题,RSSA 有效地提高了模型输出的真实性并减少了幻觉,从而提高了 RSVLM 的真实性。在这些数据集的基础上,该研究团队提出了H2RSVLM,即 “有用且诚实的遥感视觉语言模型”。H2RSVLM 在多个 RS 公开数据集上取得了优异的性能,能够识别并拒绝回答无法回答的问题,有效地减少了错误生成。

论文链接:https://arxiv.org/abs/2403.20213

第 9 章 评测

【MMStar:一种新的大型视觉语言模型评测基准】

大型视觉语言模型(LVLM)近来取得了突飞猛进的发展,引发了大量评估其多模态能力的研究。

然而,来自中国科学技术大学、香港中文大学和上海 AI Lab 的研究团队深入研究了当前的评测工作,发现了两个主要问题:(1) 许多样本不需要视觉内容,答案可以直接从问题和选项或 LLM 中嵌入的世界知识中推断出来。这种现象在目前的基准中普遍存在。(2)LLM 和 LVLM 训练中存在无意数据泄露。LLM 和 LVLM 在没有视觉内容的情况下仍能回答一些视觉必需的问题,这表明在大规模训练数据中对这些样本进行了记忆。这两个问题都会导致对实际多模态收益的误判,并有可能误导对 LVLM 的研究。

为此,该研究团队推出了 MMStar,这是一个新的视觉多模态基准,由人类精心挑选的 1500 个样本组成。MMStar 对 6 种核心能力和 18 个细节轴进行了基准测试,旨在通过精心平衡和纯化的样本来评估 LVLM 的多模态能力。这些样本首先是通过自动管道从当前基准中粗选出来的,然后再由人工进行审核,以确保每个精选样本都具有视觉依赖性、最小的 数据泄漏以及先进的多模态能力。

此外,他们还开发了两个指标来衡量多模态训练中的数据泄漏和实际性能增益,在 MMStar 上对 16 种领先的 LVLM 进行了评估,以评估它们的多模态能力,并在 7 个基准上使用所提出的指标来研究它们的数据泄漏和实际多模态增益。

论文链接:https://arxiv.org/abs/2403.20330

项目地址:https://mmstar-benchmark.github.io/

【MMT-Bench:大型视觉语言模型综合多模态评测基准】

大型视觉语言模型(LVLM)在通用多模态应用(如视觉对话和嵌入式导航)方面取得了长足进步。然而,现有的多模态评测基准仅涵盖有限的多模态任务,只能测试最基本的能力。

在这项工作中,来自上海 AI Lab、上海交通大学和香港大学的研究团队及其合作者,提出了一个综合基准 MMT-Bench,用于评估大规模多模态任务中的 LVLM,这些任务需要专家知识和审慎的视觉识别、定位、推理和规划。MMT-Bench 包括 31325 个多选视觉问题,这些问题来自车辆驾驶和模拟导航等各种多模态场景,涵盖多模态理解中的 32 个核心元任务和 162 个子任务。由于任务覆盖面广,MMT-Bench 可以使用任务地图对 LVLM 进行评估,便于发现领域内和领域外的任务。

论文链接:https://arxiv.org/abs/2404.16006

【BLINK:视觉感知多模态大模型评测基准】

来自宾夕法尼亚大学、华盛顿大学和艾伦人工智能研究所的研究团队及其合作者,提出了一个多模态语言模型(LLMs)的新基准 Blink,主要专注于其他评测中未发现的核心视觉感知能力。

大部分 Blink 任务对于人类来说都能“瞬间”解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,他们发现这些需要感知的任务对当前的多模态 LLMs 提出了巨大挑战,因为它们无法通过自然语言进行调解。Blink 将 14 项经典的计算机视觉任务改编成 3807 道选择题,并配以单幅或多幅图像和视觉提示。

虽然人类的平均准确率为 95.70%,但 Blink 对现有多模态 LLM 的挑战却出人意料,即使是表现最好的 GPT-4V 和 Gemini,准确率也只有 51.26% 和 45.72%,仅比随机猜测高出 13.17% 和 7.63%,这表明这种感知能力尚未在最近的多模态 LLM 中 出现。他们分析还强调,专业的 CV 模型可以更好地解决这些问题,这为未来的改进提供了潜在的途径,Blink 将激励社区帮助多模态 LLMs 赶上人类水平的视觉感知。

论文链接:https://arxiv.org/abs/2404.12390

项目地址:https://zeyofu.github.io/blink/

【Ada-LEval:长上下文 LLM 评估基准】

最近,大型语言模型(LLM)界对增强 LLM 处理超长文档的能力表现出越来越大的兴趣。随着各种长文本技术和模型架构的出现,对模型的长文本能力进行精确而详细的评估变得越来越重要。

然而,现有的长文本评估基准(如 L-Eval 和 LongBench)基于开源数据集构建长文本测试集,主要侧重于质量保证和摘要任务。这些数据集包括不同长度(从 2k 到 32k+ 不等)的测试样本,这些样本混杂在一起,使得在不同长度范围内评估模型能力具有挑战性。此外,这些数据集也没有涵盖最新 LLM 声称可以实现的超长设置(100k 以上 token)。

上海 AI Lab 和上海交通大学的研究团队提出了一种长度适应性基准 Ada-LEval,用于评估 LLM 的长上下文理解能力。Ada-LEval 包括两个具有挑战性的子集:TSort 和 BestAnswer,可对 LLM 的长上下文能力进行更可靠的评估。这些基准支持对测试用例长度的复杂操作,可以轻松生成多达 128k token 的文本样本。

他们用 Ada-LEval 评估了 4 个先进的闭源 API 模型和 6 个开源模型。评估结果表明了当前 LLM (尤其是在超长上下文设置中)的局限性。

论文链接:https://arxiv.org/abs/2404.06480

Github 地址:https://github.com/open-compass/Ada-LEval

【卡内基梅隆大学、Meta 新研究:使用“图生文”评估“文生视觉”】

尽管生成式人工智能领域取得了重大进展,但由于缺乏有效的衡量标准和标准化基准,综合评估仍具有挑战性。

为此,来自卡内基梅隆大学和 Meta 的研究团队提出了 VQAScore,使用视觉问答(VQA)模型,通过计算“此图是否显示文本?”这类问题的“是”的概率来产生对齐分数。尽管 VQAScore 比现有技术更简单,但使用现成模型计算的 VQAScore 在 8 个图像-文本对齐基准中都取得了 SOTA。有趣的是,尽管他们只使用图像进行训练,VQAScore 也可以将文本与视频和 3D 模型对齐。

此外,他们还提出了一个更具挑战性的基准——GenAI-Bench,其包含 1600 个组合文本提示,需要解析场景、对象、属性、关系以及比较和逻辑等高阶推理,为 Stable Diffusion、DALL-E 3 和 Gen2 等图像和视频生成模型提供了 15000 多项人类评分。

论文链接:https://arxiv.org/abs/2404.01291

项目地址:https://linzhiqiu.github.io/papers/vqascore/

【IsoBench:基于同构表示的多模态基础模型基准测试】

当前,基础模型在仅使用文本或同时使用图像和文本输入时,可以表现出令人印象深刻的能力。但是,它们的能力会随着输入模态的不同而改变吗?

来自杜克大学、南加州大学的研究团队提出了一个基准数据集 IsoBench,其中包含数学、科学、算法和游戏四大领域的问题。每个示例都有多种同构输入表示,如视觉、文本和数学表示。IsoBench 提供细粒度的反馈,从而诊断由表示形式造成的性能差距。

研究团队表示,在各种基础模型中,在同一问题上,模型对文本表示形式的偏好是一致的。最突出的是,在对所有 IsoBench 问题进行评估时,当输入图片而不是文本时,Claude-3 Opus 的性能要差 28.7 分,GPT-4 Turbo 要差 18.7 分,Gemini Pro 要差 14.9 分。此外,研究团队也介绍了两种提示技术——IsoCombination 和 IsoScratchPad,这两种技术通过考虑不同输入表述的组合和转换来提高模型性能。

论文链接:https://arxiv.org/abs/2404.01266

第 10 章 其他

【智谱AI、清华团队提出 ChatGLM-Math,增强 LLM 解决数学问题的能力】

大型语言模型(LLMs)已经展示出对人类语言的出色学习能力,但在需要解决数学问题的实际应用中仍然表现不佳。虽然先前的研究开发了许多策略和数据集来提高 LLM 的数学能力,但要同时保持和提高已部署 LLM 的语言和数学能力仍然是一项挑战。

在这项工作中,来自智谱AI 和清华大学的研究团队,定制了“自我批判”(Self-Critique)流程,在 LLM 的对齐阶段解决了这一挑战。他们首先从 LLM 自身训练一个通用的数学批判模型,从而提供反馈信号;然后,依次对 LLM 自身生成的数据收集采用拒绝采样微调(rejective fine-tuning)和直接偏好优化。

基于 ChatGLM3-32B,他们在学术数据集和新创建的挑战性数据集 MathUserEval 上进行了一系列实验。结果表明,这一流程显著增强了 LLM 的数学问题解决能力,同时还提高了其语言能力,性能超过了可能是其两倍大的 LLM。

论文链接:https://arxiv.org/abs/2404.02893

GitHub 地址:https://github.com/THUDM/ChatGLM-Math

【Meta 新研究:大模型的端到端推理加速】

来自 Meta 的研究团队及其合作者,提出了一种端到端的大型语言模型(LLM)推理加速解决方案——LayerSkip。

首先,在训练过程中,他们采用了层间丢弃技术,早期层间丢弃率较低,后期层间丢弃率较高。其次,在推理过程中,他们证明这种训练方法提高了早期退出的准确性,而无需在模型中添加任何辅助层或模块。第三,他们提出了一种新型自我推测解码方案,即在早期层退出,并通过模型的其余层进行验证和校正。与其他推测式解码方法相比,该方法占用的内存更少,并能从共享计算以及草稿和验证阶段的激活中获益。

他们在不同大小的 Llama 模型上进行了不同类型的训练实验:从头开始预训练、持续预训练、针对特定数据域的微调以及针对特定任务的微调。他们验证了推理解决方案,结果表明,CNN/DM 文档的摘要处理速度提高了 2.16 倍,编码速度提高了 1.82 倍,TOPv2 语义解析任务的速度提高了 2.0 倍。

论文链接:https://arxiv.org/abs/2404.16710

【超越思维链(CoT),大模型的“Chain-of-X”范式调查】

思维链(CoT)是一种被广泛采用的提示方法,能激发大型语言模型(LLM)令人印象深刻的推理能力。受 CoT 的顺序思维结构的启发,人们开发了许多 Chain-of-X (CoX) 方法,从而应对涉及 LLM 的不同领域和任务中的各种挑战。

在这项工作中,来自上海交通大学、加州大学圣地亚哥分校的研究团队及其合作者,全面考察了不同背景下的 LLMs Chain-of-X 方法。具体来说,他们按照节点分类法(即 CoX 中的 X)和应用任务对这些方法进行了分类。他们还讨论了现有 CoX 方法的发现和影响,以及潜在的未来方向。

论文链接:https://arxiv.org/abs/2404.15676

【SnapKV:免微调,将 KV 缓存的大小降到最低】

目前,大型语言模型(LLMs)在处理大量上下文方面取得了显著进展,其中键值(KV)缓存在提高其性能方面发挥了重要作用。然而,随着输入长度的增加,KV 缓存的增长给内存和时间效率带来了挑战。

为此,来自伊利诺伊大学厄巴纳香槟分校、Cohere 和普林斯顿大学的研究团队,提出了一种创新的免微调方法 SnapKV,有效地将 KV 缓存的大小降到最低,同时在实际应用中产生了相当的性能。

他们发现,该模型中的每个注意力头在生成过程中会持续关注特定的提示注意力特征。同时,这种鲁棒性模式可以从位于提示语末尾的“observation”窗口中获得。利用这一洞察力,SnapKV 通过为每个注意力头选择重要的 KV 位置集群来自动压缩 KV 缓存。

该方法大大减少了处理长输入序列时不断增加的计算开销和内存占用。具体来说,在处理 16K token 输入时,SnapKV 实现了稳定的解码速度,与基线相比,生成速度提高了 3.6 倍,内存效率提高了 8.2 倍。同时,在处理 16 个长序列数据集时,它的性能与基线模型相当。此外,只需稍作改动,SnapKV 就可以在单个 A100-80GB GPU 上实现处理多达 380K 的上下文 token,在 Needle-in-a-Haystack 测试中表现出的准确率下降可以忽略不计。进一步的综合研究表明,SnapKV 具有实际应用的潜力。

论文链接:https://arxiv.org/abs/2404.14469

【微软、清华团队提出多头混合专家 MH-MoE】

稀疏混合专家(SMoE)模型可在不显著增加训练和推理成本的情况下扩展模型容量,但存在以下两个问题:专家激活率低,只有一小部分专家被激活用于优化;缺乏对单个 token 中多个语义概念的细粒度分析能力。

来自微软、清华大学的研究团队提出了多头混合专家(MH-MoE),它采用多头机制将每个 token 分割成多个子 token。然后,这些子 token 被分配给一组不同的专家并由它们并行处理,然后无缝地重新整合为原始 token 形式。多头机制使模型能够集体关注不同专家的各种表征空间的信息,同时显著提高专家激活度,从而加深对上下文的理解并减轻过度拟合。此外,MH-MoE 易于实现,并与其他 SMoE 优化方法解耦,易于与其他 SMoE 模型集成,从而提高性能。

以英语为重点的语言建模、多语言语言建模和掩码多模态建模任务的大量实验,证明了 MH-MoE 的有效性。

论文链接:https://arxiv.org/abs/2404.15045

【英伟达提出扩散模型采样新方法 Align Your Steps】

扩散模型已成为视觉领域及其他领域先进的生成建模方法。然而,扩散模型的一个缺点是采样速度慢,需要通过大型神经网络进行多次连续的函数评估。扩散模型的采样可以看作是通过一组离散的噪声水平(即采样时间表)来求解微分方程。过去的研究主要集中于推导高效的求解器,但很少关注如何找到最佳采样时间表,所有文献都依赖于手工制作的启发式方法。

为此,来自英伟达的研究团队提出了一种通用的原则性方法—— Align Your Steps,来优化扩散模型的采样计划,从而获得高质量的输出。他们利用随机微积分的方法,找到了针对不同求解器的扩散模型和数据集的最佳时间表。他们使用各种不同的采样器,在多个图像、视频和 2D 玩具数据合成基准上评估了新方法,并观察到该优化时间表优于以前的手工制作时间表。他们的方法展示了采样计划优化尤其是在几步合成机制中尚未开发的潜力。

论文链接:https://arxiv.org/abs/2404.14507

项目地址:https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/

【TriForce:利用分层投机解码无损加速长序列生成】

最近,随着大型语言模型(LLMs)被广泛应用于长内容生成,对高效长序列推理支持的需求日益增长。

然而,为避免重复计算而存储的键值(KV)缓存已成为一个关键瓶颈,其大小随序列长度呈线性增长。由于 LLM 的自动递归特性,每生成一个 token 就会加载整个 KV 缓存,从而导致计算核心利用率低而延迟高。虽然已经提出了各种 KV 缓存压缩方法来缓解这一问题,但这些方法都会导致生成质量下降。

来自卡内基梅隆大学和 Meta 的研究团队提出了一种可扩展至长序列生成的分层推测解码系统 TriForce。这种方法通过检索利用原始模型权重和动态稀疏 KV 缓存作为草稿模型,作为层次结构中的中间层,并由更小的模型进一步推测,从而减少其草稿延迟。TriForce 不仅为 Llama2-7B-128K 带来了令人印象深刻的速度提升,在 A100 GPU 上实现了高达 2.31 倍的速度,而且还展示了在处理更长上下文时的可扩展性。在两个 RTX 4090 GPU 上的卸载设置中,TriForce 实现了 0.108s/token 的速度,仅为 A100 上自动回归基线速度的一半,而在优化的卸载系统上则达到了 7.78 倍。 此外,TriForce 在单个 RTX 4090 GPU 上的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。

论文链接:https://arxiv.org/abs/2404.11912

GitHub 地址:https://github.com/Infini-AI-Lab/TriForce

【Google DeepMind 新研究:多样本上下文学习】

目前,大型语言模型(LLMs)最擅长的是 “少样本上下文学习”(ICL)—— 即在推理时从上下文中提供的少数几个示例中学习,而不进行任何权重更新。新扩展的上下文窗口允许用数百或数千个案例来研究 ICL——多样本模式,从少样本到多样本,在各种生成性和判别性任务中观察到显著的性能提升。

然而,虽然多样本 ICL 前景广阔,但可能会受到人类生成示例可用数量的瓶颈制约。

为此,来自 Google DeepMind 的研究团队探索了两种新的设置:强化 ICL 和无监督 ICL。强化 ICL 使用模型生成的思维链理由来代替人类示例;无监督 ICL 则完全取消了提示中的理由,只用特定领域的问题来提示模型。他们发现,强化型和无监督型 ICL 在多轮推理,尤其是在复杂推理任务中都非常有效。

实验证明,与少样本学习不同,多样本学习在覆盖预训练偏差方面是有效的,并可以学习具有数值输入的高维函数。他们的分析还揭示了下一个 token 预测损失作为下游 ICL 性能指标的局限性。

论文链接:https://arxiv.org/abs/2404.11018

【清华、荣耀提出 SparseDM:迈向稀疏高效扩散模型】

扩散模型已被广泛应用于数据生成任务中,然而,其部署耗时长、推理时间长以及对大内存的要求,限制了其在移动设备上的应用。

为了提高扩散模型的部署效率,来自清华大学、荣耀的研究团队提出了一种基于改进的 Straight-Through Estimator 的方法。

具体来说,他们在预训练好的扩散模型的卷积层和线性层中添加稀疏掩码,然后在微调阶段使用设计渐进稀疏性进行模型训练,并开关推理掩码,从而支持在推理过程中根据 FID 和 MACs 要求灵活选择稀疏性。在基于 Transformer 的 SOTA 模型的四个数据集上进行的实验表明,这一方法可以将 MACs 降低 50%,而 FID 平均仅增加 1.5。在其他 MACs 条件下,与其他方法相比,FID 也低于 1∼137。

论文链接:https://arxiv.org/abs/2404.10445

【谷歌推出新型 Transformer 架构:反馈注意力就是工作记忆】

虽然 Transformer 给深度学习带来了革命性的变化,但二次注意力复杂性阻碍了其处理无限长输入的能力。

谷歌研究团队提出了一种新型 Transformer 架构“反馈注意力记忆”(Feedback Attention Memory,FAM),其利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了 Transformer 工作记忆的出现,使其能够处理无限长的序列。TransformerFAM 不需要额外的权重,因此可以与预训练模型无缝集成。

实验表明,TransformerFAM 显著提高了 Transformer 在各种模型大小(1B、8B 和 24B)的长上下文任务中的性能。

论文链接:https://arxiv.org/abs/2404.09173

【高通新研究:提高多模态大型语言模型的推理速度】

多模态大型语言模型(MLLMs)的推理速度很慢,这是因为其大型语言模型骨干存在内存带宽瓶颈,并且会自动递归生成 token。

来自高通公司的研究团队探讨了如何应用推理解码来提高 MLLM(特别是 LLaVA 7B 模型)的推理效率。研究表明,纯语言模型可以作为使用 LLaVA 7B 进行推理解码的良好草稿模型,从而绕过草稿模型中图像 token 及其相关处理组件的需要。在三个不同任务中进行的实验表明,推理解码可实现高达 2.37...