谷歌发布Agentic Vision，可模仿人类处理图像

IT极客世界

2026-01-28 22:10 ·甘肃

谷歌DeepMind团队近日发布了Agentic Vision技术，这一创新功能使得AI在处理图像时能模仿人类的思考过程，实现更精细的视觉理解。

传统的AI模型通常仅进行一次静态扫描，容易遗漏细节，而Agentic Vision通过引入“思考-行动-观察”闭环，让模型能够主动操作图像，并结合视觉推理与代码执行，提高准确性。
实验结果显示，该技术在多数视觉基准测试中的表现提升了5-10%，尤其在建筑图纸验证和视觉数学问题上表现出色。这一突破不仅增强了AI的实际应用价值，也为未来更多智能应用场景打下了基础。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴