Google最近给Gemini API加了个新功能,让开发者做RAG(检索增强生成)省事不少。以前处理带图、带表的PDF文档,AI经常"看不懂"里面的视觉内容,现在这个问题有解了。
核心变化是文件搜索从传统文本检索升级成了多模态检索。底层用的是Gemini Embedding 2,能同时理解图片、PDF里的视觉元素和文字内容。开发者不用自己折腾向量数据库,直接走Google的Embedding管道和文档处理系统,在Gemini API里就能跑完完整的RAG流程。
打开网易新闻 查看精彩图片
举个例子:你上传一份带产品图、数据表格和趋势图的PDF,AI回答问题时能同时"看到"这些图里的信息,而不只是读文字描述。这对做企业知识库、客服机器人、文档管理系统的团队比较实用——模型可以基于内部文档做推理,不用额外维护一套独立的检索系统。对本身就有大量图文混排资料的企业来说,部署成本和检索准确度都能提升。
打开网易新闻 查看精彩图片
这次更新还加了两个细节功能。一个是自定义元数据过滤,可以给上传的文件打上标签、分类、时间戳之类的属性,搜索时按这些条件过滤,减少无关内容进上下文窗口。另一个是页面级引用,AI生成回答时会标注信息来自哪一页,用户可以点击跳转到具体页面核实,或者读完整文档获取更多信息,而不是笼统地引用整个文件。
打开网易新闻 查看精彩图片
目前这个功能已经面向所有Gemini API开发者开放,想试用的可以通过Google AI Studio或Google Cloud平台调用。Google官方在dev.to上发了开发者指南,讲具体怎么接入。
热门跟贴