谷歌DeepMind团队近日发布了Agentic Vision技术,这一创新功能使得AI在处理图像时能模仿人类的思考过程,实现更精细的视觉理解。
打开网易新闻 查看精彩图片
传统的AI模型通常仅进行一次静态扫描,容易遗漏细节,而Agentic Vision通过引入“思考-行动-观察”闭环,让模型能够主动操作图像,并结合视觉推理与代码执行,提高准确性。
实验结果显示,该技术在多数视觉基准测试中的表现提升了5-10%,尤其在建筑图纸验证和视觉数学问题上表现出色。这一突破不仅增强了AI的实际应用价值,也为未来更多智能应用场景打下了基础。
热门跟贴