Google升级Gemini文件搜索：多模态RAG不用自建向量库了

全栈遛狗员

2026-05-11 12:49 ·北京

Google最近给Gemini API加了个新功能，让开发者做RAG（检索增强生成）省事不少。以前处理带图、带表的PDF文档，AI经常"看不懂"里面的视觉内容，现在这个问题有解了。

核心变化是文件搜索从传统文本检索升级成了多模态检索。底层用的是Gemini Embedding 2，能同时理解图片、PDF里的视觉元素和文字内容。开发者不用自己折腾向量数据库，直接走Google的Embedding管道和文档处理系统，在Gemini API里就能跑完完整的RAG流程。

举个例子：你上传一份带产品图、数据表格和趋势图的PDF，AI回答问题时能同时"看到"这些图里的信息，而不只是读文字描述。这对做企业知识库、客服机器人、文档管理系统的团队比较实用——模型可以基于内部文档做推理，不用额外维护一套独立的检索系统。对本身就有大量图文混排资料的企业来说，部署成本和检索准确度都能提升。

这次更新还加了两个细节功能。一个是自定义元数据过滤，可以给上传的文件打上标签、分类、时间戳之类的属性，搜索时按这些条件过滤，减少无关内容进上下文窗口。另一个是页面级引用，AI生成回答时会标注信息来自哪一页，用户可以点击跳转到具体页面核实，或者读完整文档获取更多信息，而不是笼统地引用整个文件。

目前这个功能已经面向所有Gemini API开发者开放，想试用的可以通过Google AI Studio或Google Cloud平台调用。Google官方在dev.to上发了开发者指南，讲具体怎么接入。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴