OmniGAIA: 全模态AI智能体新基准，最强开源模型仅13分！|ai智能体|大模型|开源模型|模态|调用|轨迹

人大&小红书推出OmniGAIA基准和OmniAtlas智能体。

人类的智能是自然交织的——我们不仅同时用眼睛看、用耳朵听、用语言交流，还能进行复杂的长逻辑链推理，并在遇到难题时熟练使用搜索引擎等外部工具来辅助自己完成任务。

然而，当前爆火的“多模态大模型（MLLM）”大多仍局限于“图文”或“音文”的双模态交互。它们严重缺乏作为“通用AI助手”所必需的全模态统筹、长程推理与工具调用能力。

为了填补这一空白，中国人民大学联合小红书、东南大学、浙江大学和清华大学的研究团队重磅推出了 OmniGAIA——一个专为评估“原生全模态AI智能体”而设计的新基准，并同时开源了配套的基础智能体训练秘籍 OmniAtlas！

该工作不仅揭示了当前开源模型与顶尖闭源模型之间的巨大“智能鸿沟”，更给出了一套让大模型真正学会“看、听、想与用工具”的实战配方。目前代码、数据、模型已全面开源！

论文链接: https://arxiv.org/pdf/2602.22897

代码&Demo:https://github.com/RUC-NLPIR/OmniGAIA

数据集&模型：https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜：https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

Demo

1. 图片+音频任务：计算图片和音频中两个事件发生时间相隔多久？

2. 带音频的视频任务：视频中讲者提到了一个某电影中的桥，请帮我调研其背景。

痛点直击：现有的评测为什么不够看

随着 Qwen3-Omni、Gemini-3 等全模态大模型的涌现，模型已经能在单一网络内统一处理文本、视觉和音频。但现有的评测基准（如 OmniBench、WorldSense 等）大多基于极短的音视频，且题型多为重“感知”的多项选择题。

在真实世界中，我们需要 AI 解决的问题是这样的：

“视频里导游指着远处的那座活动桥，解说提到这让他想起了电影《福禄双霸天》。请问这座桥到底叫什么名字？在1979年电影开拍时，这座桥已经建成了多少年？”

这就要求 AI 不能只会“看图说话”，它必须面对几十分钟的长视频，从中锚定地理位置，主动去搜索引擎查证桥的真实名字和建成年份，最后进行相关计算。

现有的评测测不出这种能力，OmniGAIA因此应运而生！

OmniGAIA：全模态智能体的新基准

OmniGAIA 包含360个源自真实世界的高难度任务，覆盖地理、历史、科技等 9 大垂直领域。输入不仅包含时长数十分钟的“视频+音频”，还有复杂的“图片+音频”组合。模型不能靠盲猜，必须多次调用外部工具才能得出唯一可验证的开放式最终答案。

它是如何构建出来的？——首创“全模态事件图谱”驱动法

为了自动合成逻辑严密且防作弊的高难度QA，团队设计了一套极其精妙的流水线：

1.数据收集：从 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中筛选并整理视频（含音频）及“图像+音频”数据源，覆盖 100 多个不同的垂直领域。

2.高价值信息挖掘：使用Gemini-3-Flash 提取事件、进行环境分析、音频分析（包含自动语音识别 ASR、说话人身份识别 Speaker ID）以及图像理解（包含光学字符识别 OCR、物体识别、人脸识别）。

3.智能体全模态事件图谱构建：DeepSeek-V3.2通过规划后续步骤、利用工具获取新信息，并结合大语言模型 (LLM) 的自我反思(self-reflexion) 与人工审查来验证事实准确性，从而迭代式地扩展初始事件图谱。

4.问答生成与质量审查：通过事件模糊化(fuzzification) 生成高难度的多跳(multi-hop) 问答对，随后由 LLM 和人工共同验证其准确性、任务难度以及答案的唯一性。

OmniAtlas：原生全模态智能体基座模型

在严苛的测试下，早期的开源模型表现较差。为了提升开源全模态模型的 Agent 能力，团队不仅提出了基准，更给出了一套开源解法与完整的“训练秘籍”——OmniAtlas。

它遵循工具集成推理范式，包含三大核心杀手锏：

1.主动全模态感知(Active Perception)

面对超长视频或高清大图，传统的“全局降采样”会丢失大量细节。OmniAtlas 赋予了模型“指哪看哪、听哪”的特技！它可以通过内置工具（read_video / read_audio / read_image）精准截取特定时间段的视频或裁剪特定区域的图片，实现高保真的按需感知。

2.高质量轨迹合成与监督微调

团队利用强大的推理模型进行“后见之明引导的树探索”，在已知正确答案的引导下，剪枝掉错误分支，合成出完美的“思考+工具调用”成功轨迹。在监督微调阶段，采用掩码监督（Masked SFT），只对模型生成的“思考和动作”算 Loss，屏蔽掉外部工具返回的冗长噪音，让模型真正学会“如何思考”。

3. OmniDPO细粒度纠错

全模态任务极易“一步错，步步错”。团队首创了OmniDPO，能够精准定位失败轨迹中的“第一处错误点”（到底是没看清、听漏了，还是搜索关键词用错了？），并生成纠正后的正确前缀，构建正负样本对进行偏好优化，实现真正的“对症下药”！。

实验结果：性能鸿沟与成因

1.主实验结果：在OmniGAIA上对比全模态模型的性能

团队在统一提供外部工具（搜索、浏览器、代码）的严苛环境下评测了各大前沿模型，我们可以发现：

1.闭源王者断崖领先：最强的闭源模型 Gemini-3-Pro 拿下了62.5% 的一次通过率（Pass@1），展现出极其成熟的规划与验证能力。而最强的开源基线 Qwen-3-Omni (30B) 仅有13.3%，差距近乎 4.7 倍！

2.“大力出奇迹”失效：拥有高达5600亿 (560B) 庞大参数量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型！这证明了：在全模态Agent领域，优秀的“智能体工具调用策略”比单纯的参数规模更关键。

3.OmniAtlas疗效显著：经过OmniAtlas 训练配方优化的 Qwen-3-Omni，准确率从 13.3% 暴涨至 20.8% (+7.5)！在较小的 7B 模型上，更是提升了近 4 倍（3.6% ➡️ 13.3%）。

2.细粒度错误分析：AI到底错在了哪一步？

通过对模型失败轨迹的解剖，研究发现：在困难任务中，开源模型有高达 90% 以上的失败源于“没有正确使用工具”（比如没有调用工具，陷入搜索死循环、查错方向），这直接导致了下游任务完成的全面崩溃。

3.工具调用行为分析

AI 到底该调用几次工具？散点分布图（Violin Plot）揭示了有趣的现象：

“工具冷漠症”：完全不用工具的模型（集中在 0 次），成功率很低。这证实了仅靠模型脑内的先验知识，根本搞不定复杂的真实环境。

调得多就一定好吗？错！部分失败轨迹调用了 10~20 次以上工具，但全在做低效重复的无用功，无法有效解决不确定性。

从被动到主动：OmniAtlas 的工具调用分布更加主动，有效探索率的大幅提升直接拉动了过关率，但也带来了工具调用冗余的问题，希望后续工作可以更好的平衡性能与效率。

4.原生全模态感知vs外挂感知工具，哪个更好？

我们真的需要原生全模态大模型吗？能不能用纯文本大模型，外挂一个“识图/听音 API”来代替？消融实验给出了答案：

1.对强模型来说，原生才是王道：Gemini-3-Flash依靠原生感知拿到最高分 51.7，且工具调用仅需 4.4 次。如果把感知拆分成外部工具，不仅成绩下降，API调用成本更是翻倍（增至 9.4 次）。

2.外挂工具打不了“硬仗”：对于较弱的开源模型，外挂感知工具虽然能在简单题上提点分，但在需要复杂跨模态推理的 Hard 难题中，成绩直接崩盘（从 9.0 跌至 3.9）。

结论：外挂工具会切断模态间的内在联系，原生全模态融合，才是拔高AI智能上限的唯一正解！

总结与未来展望

看得清、听得懂只是起点，会思考、善用工具、能行动才是迈向通用人工智能（AGI）的试金石。

OmniGAIA 揭开了现有全模态大模型在“长程推理与多轮工具使用”上的缺陷，而OmniAtlas 的全套硬核实验剖析则为开源社区指明了一条极具潜力的演进路线。研究团队指出，通往真正原生全模态 AI 助手的道路上，未来有三大黄金赛道：

1.全模态智能体强化学习（Agentic RL）：在真实全模态反馈下直接优化长视野决策策略。

2.全模态MCP生态：为全模态智能体接入更多工具，打造可扩展的MCP工具集。

3.全模态具身智能（Embodied Agents）：将拥有“全模态大脑”的智能体引入物理世界，完成真实世界的交互，来打造我们生活中的AI助手。

作者信息

本工作第一作者李晓熙，目前就读于中国人民大学高瓴人工智能学院，博士三年级，研究方向主要包括Agentic AI、Deep Research、大模型推理、强化学习等。在国际顶级会议NeurIPS，ICLR，ACL等发表7篇一作工作，代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起，他在小红书参加 RedStar 实习项目，进行Agentic AI和Deep Research领域的研究工作。

本文的通信作者窦志成，中国人民大学高瓴人工智能学院长聘教授、博士生导师、副院长。主要研究方向为信息检索、大模型、智能体、大模型检索增强、AI搜索、司法智能等。在国际知名学术会议和期刊上发表论文200余篇，带领团队研发涉外法治大模型，开源大模型检索增强工具包FlashRAG、iAgent系列信息智能体（WebThinker、ARPO、DeepAgent等）累计获得GitHub星标1万余枚。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。