在多模态大语言模型(MLLMs)的迅速发展下,如何解决现实世界中复杂、多变的问题成为了人工智能领域的新挑战。传统的多模态检索增强生成(mRAG)方法在面对动态问题时常常显得力不从心,其静态的检索策略导致模型在检索知识的灵活性和精准度上存在不足。

阿里巴巴通义实验室团队为解决这一问题提供了解决方法OmniSearch,它是一个自适应规划多模态检索智能体,结合动态问题拆解和智能检索规划能力,不仅克服了传统mRAG的局限性,还为复杂问题的解决提供了高效而精准的路径。

打开网易新闻 查看精彩图片

论文标题: Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent 论文链接: https://arxiv.org/abs/2411.02937 代码链接: https://github.com/Alibaba-NLP/OmniSearch ModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false

打开网易新闻 查看精彩图片

一、革新传统检索的三大痛点

传统mRAG方法遵循固定的检索流程,典型的步骤如下:

  1. 输入转化:接收多模态输入(例如图像+文本问题),将图像转化为描述性文本(例如通过image caption模型)。

  2. 单一模态检索:将问题或描述性文本作为检索查询,向知识库发送单一模态检索请求(通常是文本检索)。

  3. 固定生成流程:将检索到的信息与原始问题结合,交由MLLMs生成答案。

OmniSearch旨在解决传统mRAG方法的以下痛点:

  1. 静态检索策略的局限:传统方法采用固定的两步检索流程,无法根据问题和检索内容动态调整检索路径,导致信息获取效率低下。

  2. 检索查询过载:单一检索查询往往包含了多个查询意图,反而会引入大量无关信息,干扰模型的推理过程。

二、OmniSearch:动态规划,精准解决

为克服上述局限,OmniSearch引入了一种动态检索规划框架。该框架的核心在于能够模拟人类解决问题的思维方式,将复杂问题逐步拆解为多个子问题,并根据当前的检索结果和问题情境动态调整下一步的检索策略。这种设计不仅提高了检索效率,也显著增强了模型生成内容的准确性。

2.1 OmniSearch的核心架构

  1. 规划智能体(Planning Agent):负责对原始问题进行逐步拆解,根据每个检索步骤的反馈决定下一步的子问题及检索策略。

  2. 检索器(Retriever):执行实际的检索任务,支持图像检索、文本检索以及跨模态检索。

  3. 子问题求解器(Sub-question Solver):对检索到的信息进行总结和解答,具备高度的可扩展性,可以与不同大小的多模态大语言模型集成。

  4. 迭代推理与检索(Iterative Reasoning and Retrieval):通过递归式的检索与推理流程,逐步接近问题的最终答案。

  5. 多模态特征的交互:有效处理文本、图像等多模态信息,灵活调整检索策略。

  6. 反馈循环机制(Feedback Loop):在每一步检索和推理后,反思当前的检索结果并决定下一步行动,以提高检索的精确度和有效性。

打开网易新闻 查看精彩图片

2.2 Dyn-VQA数据集:填补空白,推动研究

为了更好地评估OmniSearch和其他mRAG方法的性能,我们构建了全新的Dyn-VQA数据集。Dyn-VQA包含1452个动态问题,涵盖了以下三种类型:

  1. 答案快速变化的问题:这类问题的背景知识不断更新,需要模型具备动态的再检索能力。例如,询问某位明星的最新电影票房,答案会随着时间的推移而发生变化。

  2. 多模态知识需求的问题:问题需要同时从多模态信息(如图像、文本等)中获取知识。例如,识别一张图片中的球员,并回答他的球队图标是什么。

  3. 多跳问题:问题需要多个推理步骤,要求模型在检索后进行多步推理。

这些类型的问题相比传统的VQA数据集需要更复杂的检索流程,更考验多模态检索方法对复杂检索的规划能力。

打开网易新闻 查看精彩图片

三、实验结果与性能优势

在一系列基准数据集上的实验中,OmniSearch展现了显著的性能优势。特别是在处理需要多步推理、多模态知识和快速变化答案的问题时,OmniSearch相较于现有的mRAG方法表现更为优异。

在Dyn-VQA数据集上的表现

  1. 答案更新频率:对于答案快速变化的问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。

  2. 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。

  3. 多跳推理问题:OmniSearch通过多次检索和动态规划,能够精确解决需要多步推理的问题,实验结果表明其在这类问题上的表现优于当前最先进的多模态模型,准确率提升了约35%。

打开网易新闻 查看精彩图片

在其他数据集上的表现

  1. 接近人类级别表现:OmniSearch在大多数VQA任务上达到了接近人类水平的表现。例如,在VQAv2和A-OKVQA数据集中,OmniSearch的准确率分别达到了70.34和84.12,显著超越了传统mRAG方法。

  2. 复杂问题处理能力:在更具挑战性的Dyn-VQA数据集上,OmniSearch通过多步检索策略显著提升了模型的表现,达到了50.03的F1-Recall评分,相比基于GPT-4V的传统两步检索方法提升了近14分。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

模块化能力与可扩展性

OmniSearch可以灵活集成不同规模和类型的多模态大语言模型(MLLM)作为子问题求解器。无论是开源模型(如Qwen-VL-Chat)还是闭源模型(如GPT-4V),OmniSearch都能通过动态规划与这些模型协作完成复杂问题的解决。它的模块化设计允许根据任务需求选择最合适的模型,甚至在不同阶段调用不同大小的MLLM,以在性能和计算成本之间实现灵活平衡。下面是OmniSearch和不同模型配合的实验结果。

打开网易新闻 查看精彩图片

四、未来展望

OmniSearch为多模态大语言模型的知识增强提供了新的思路。随着复杂问题的不断涌现,OmniSearch的自适应检索能力将为各类多模态应用场景提供强有力的支持。

llustration From IconScout By IconScout Store

-The End-

打开网易新闻 查看精彩图片

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈