打开网易新闻 查看精彩图片

人大&小红书推出OmniGAIA基准和OmniAtlas智能体。

人类的智能是自然交织的——我们不仅同时用眼睛看、用耳朵听、用语言交流,还能进行复杂的长逻辑链推理,并在遇到难题时熟练使用搜索引擎等外部工具来辅助自己完成任务。

然而,当前爆火的“多模态大模型(MLLM)”大多仍局限于“图文”或“音文”的双模态交互。它们严重缺乏作为“通用AI助手”所必需的全模态统筹、长程推理与工具调用能力。

为了填补这一空白,中国人民大学联合小红书、东南大学、浙江大学和清华大学的研究团队重磅推出了 OmniGAIA——一个专为评估“原生全模态AI智能体”而设计的新基准,并同时开源了配套的基础智能体训练秘籍 OmniAtlas!

该工作不仅揭示了当前开源模型与顶尖闭源模型之间的巨大“智能鸿沟”,更给出了一套让大模型真正学会“看、听、想与用工具”的实战配方。目前代码、数据、模型已全面开源!

打开网易新闻 查看精彩图片

论文链接: https://arxiv.org/pdf/2602.22897

代码&Demo:https://github.com/RUC-NLPIR/OmniGAIA

数据集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

01

Demo

1. 图片+音频任务:计算图片和音频中两个事件发生时间相隔多久?

2. 带音频的视频任务:视频中讲者提到了一个某电影中的桥,请帮我调研其背景。

02

痛点直击:现有的评测为什么不够看

随着 Qwen3-Omni、Gemini-3 等全模态大模型的涌现,模型已经能在单一网络内统一处理文本、视觉和音频。但现有的评测基准(如 OmniBench、WorldSense 等)大多基于极短的音视频,且题型多为重“感知”的多项选择题。

在真实世界中,我们需要 AI 解决的问题是这样的:

“视频里导游指着远处的那座活动桥,解说提到这让他想起了电影《福禄双霸天》。请问这座桥到底叫什么名字?在1979年电影开拍时,这座桥已经建成了多少年?”

打开网易新闻 查看精彩图片

这就要求 AI 不能只会“看图说话”,它必须面对几十分钟的长视频,从中锚定地理位置,主动去搜索引擎查证桥的真实名字和建成年份,最后进行相关计算。

现有的评测测不出这种能力,OmniGAIA因此应运而生!

03

OmniGAIA:全模态智能体的新基准

OmniGAIA 包含360个源自真实世界的高难度任务,覆盖地理、历史、科技等 9 大垂直领域。输入不仅包含时长数十分钟的“视频+音频”,还有复杂的“图片+音频”组合。模型不能靠盲猜,必须多调用外部工具才能得出唯一可验证的开放式最终答案。

它是如何构建出来的?——首创全模态事件图谱驱动法

打开网易新闻 查看精彩图片

为了自动合成逻辑严密且防作弊的高难度QA,团队设计了一套极其精妙的流水线:

1.数据收集从 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中筛选并整理视频(含音频)及“图像+音频”数据源,覆盖 100 多个不同的垂直领域。

2.高价值信息挖掘使用Gemini-3-Flash 提取事件、进行环境分析、音频分析(包含自动语音识别 ASR、说话人身份识别 Speaker ID)以及图像理解(包含光学字符识别 OCR、物体识别、人脸识别)。

3.智能体全模态事件图谱构建DeepSeek-V3.2通过规划后续步骤、利用工具获取新信息,并结合大语言模型 (LLM) 的自我反思(self-reflexion) 与人工审查来验证事实准确性,从而迭代式地扩展初始事件图谱。

4.问答生成与质量审查通过事件模糊化(fuzzification) 生成高难度的多跳(multi-hop) 问答对,随后由 LLM 和人工共同验证其准确性、任务难度以及答案的唯一性。

04

OmniAtlas:原生全模态智能体基座模型

在严苛的测试下,早期的开源模型表现较差。为了提升开源全模态模型的 Agent 能力,团队不仅提出了基准,更给出了一套开源解法与完整的“训练秘籍”——OmniAtlas。

打开网易新闻 查看精彩图片

它遵循工具集成推理范式,包含三大核心杀手锏:

1.主动全模态感知(Active Perception)

面对超长视频或高清大图,传统的“全局降采样”会丢失大量细节。OmniAtlas 赋予了模型“指哪看哪、听哪”的特技!它可以通过内置工具(read_video / read_audio / read_image)精准截取特定时间段的视频或裁剪特定区域的图片,实现高保真的按需感知。

2.高质量轨迹合成与监督微调

团队利用强大的推理模型进行“后见之明引导的树探索”,在已知正确答案的引导下,剪枝掉错误分支,合成出完美的“思考+工具调用”成功轨迹。在监督微调阶段,采用掩码监督(Masked SFT),只对模型生成的“思考和动作”算 Loss,屏蔽掉外部工具返回的冗长噪音,让模型真正学会“如何思考”。

3. OmniDPO细粒度纠错

全模态任务极易“一步错,步步错”。团队首创了OmniDPO,能够精准定位失败轨迹中的第一处错误点(到底是没看清、听漏了,还是搜索关键词用错了?),并生成纠正后的正确前缀,构建正负样本对进行偏好优化,实现真正的“对症下药”!。

05

实验结果:性能鸿沟与成因

1.主实验结果:在OmniGAIA上对比全模态模型的性能

打开网易新闻 查看精彩图片

团队在统一提供外部工具(搜索、浏览器、代码)的严苛环境下评测了各大前沿模型,我们可以发现:

1.闭源王者断崖领先:最强的闭源模型 Gemini-3-Pro 拿下了62.5% 的一次通过率(Pass@1),展现出极其成熟的规划与验证能力。而最强的开源基线 Qwen-3-Omni (30B) 仅有13.3%,差距近乎 4.7 倍!

2.大力出奇迹失效:拥有高达5600亿 (560B) 庞大参数量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!这证明了:在全模态Agent领域,优秀的“智能体工具调用策略”比单纯的参数规模更关键。

3.OmniAtlas疗效显著:经过OmniAtlas 训练配方优化的 Qwen-3-Omni,准确率从 13.3% 暴涨至 20.8% (+7.5)!在较小的 7B 模型上,更是提升了近 4 倍(3.6% ➡️ 13.3%)。

2.细粒度错误分析:AI到底在了哪一步?

打开网易新闻 查看精彩图片

通过对模型失败轨迹的解剖,研究发现:在困难任务中,开源模型有高达 90% 以上的失败源于没有正确使用工具(比如没有调用工具,陷入搜索死循环、查错方向),这直接导致了下游任务完成的全面崩溃。

3.工具调用行为分析

打开网易新闻 查看精彩图片

AI 到底该调用几次工具?散点分布图(Violin Plot)揭示了有趣的现象:

工具冷漠症完全不用工具的模型(集中在 0 次),成功率很低。这证实了仅靠模型脑内的先验知识,根本搞不定复杂的真实环境。

调得多就一定好吗?错!部分失败轨迹调用了 10~20 次以上工具,但全在做低效重复的无用功,无法有效解决不确定性。

从被动到主动:OmniAtlas 的工具调用分布更加主动,有效探索率的大幅提升直接拉动了过关率,但也带来了工具调用冗余的问题,希望后续工作可以更好的平衡性能与效率。

4.原生全模态感知vs外挂感知工具,哪个更好

打开网易新闻 查看精彩图片

我们真的需要原生全模态大模型吗?能不能用纯文本大模型,外挂一个“识图/听音 API”来代替?消融实验给出了答案:

1.对强模型来说,原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具调用仅需 4.4 次。如果把感知拆分成外部工具,不仅成绩下降,API调用成本更是翻倍(增至 9.4 次)。

2.外挂工具打不了硬仗对于较弱的开源模型,外挂感知工具虽然能在简单题上提点分,但在需要复杂跨模态推理的 Hard 难题中,成绩直接崩盘(从 9.0 跌至 3.9)。

结论:外挂工具会切断模态间的内在联系,原生全模态融合,才是拔高AI智能上限的唯一正解!

06

总结与未来展望

看得清、听得懂只是起点,会思考、善用工具、能行动才是迈向通用人工智能(AGI)的试金石。

OmniGAIA 揭开了现有全模态大模型在“长程推理与多轮工具使用”上的缺陷,而OmniAtlas 的全套硬核实验剖析则为开源社区指明了一条极具潜力的演进路线。研究团队指出,通往真正原生全模态 AI 助手的道路上,未来有三大黄金赛道:

1.全模态智能体强化学习(Agentic RL):在真实全模态反馈下直接优化长视野决策策略。

2.全模态MCP生态:为全模态智能体接入更多工具,打造可扩展的MCP工具集。

3.全模态具身智能(Embodied Agents):将拥有“全模态大脑”的智能体引入物理世界,完成真实世界的交互,来打造我们生活中的AI助手。

07

作者信息

打开网易新闻 查看精彩图片

本工作第一作者李晓熙,目前就读于中国人民大学高瓴人工智能学院,博士三年级,研究方向主要包括Agentic AI、Deep Research、大模型推理、强化学习等。在国际顶级会议NeurIPS,ICLR,ACL等发表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小红书参加 RedStar 实习项目,进行Agentic AI和Deep Research领域的研究工作。

打开网易新闻 查看精彩图片

本文的通信作者窦志成,中国人民大学高瓴人工智能学院长聘教授、博士生导师、副院长。主要研究方向为信息检索、大模型、智能体、大模型检索增强、AI搜索、司法智能等。在国际知名学术会议和期刊上发表论文200余篇,带领团队研发涉外法治大模型,开源大模型检索增强工具包FlashRAG、iAgent系列信息智能体(WebThinker、ARPO、DeepAgent等)累计获得GitHub星标1万余枚。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。