品玩1月28日讯,据DeepMind官方消息,谷歌DeepMind团队为Gemini 3 Flash模型推出名为智能体视觉的新功能。该功能革新了AI处理图像的传统方式,让模型能够像人类一样,通过主动、多步骤的调查来理解和分析视觉信息,从而减少猜测与错误。
新功能的核心是建立一个思考、行动与观察的闭环。模型会先分析问题并制定计划,然后生成并执行Python代码来主动操作图像,例如放大特定区域或进行标注计算,最后观察处理后的新图像以获得更准确的上下文信息,并给出基于事实的最终答案。
这种主动调查的能力,在多项视觉基准测试中,使模型输出质量提高了5%到10%。例如,一个建筑图纸验证平台利用该功能分析屋顶细节,将准确率提升了5%。在处理视觉数学问题时,模型可通过编写代码绘制精确图表,有效避免了大型语言模型常见的幻觉问题。
谷歌表示,当前的Gemini 3 Flash已能智能决定何时需要放大查看细节,未来的版本将能更自动化地执行此类操作,无需用户明确指示。
打开网易新闻 查看精彩图片
热门跟贴