实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了。

卡尔的AI沃茨

2025-08-11 22:31 ·北京 ·前大厂算法工程师

GPT4o和OpenAI o3告别得太突然了，

虽然目前PIus可以临时用回GPT4o，Pro可以临时访问o3，

但按照奥特曼接下来的计划，想把订阅费用从对话次数更换成对话消耗的token，以及GPT5的Router会将分流用户提出的问题，难度够高的问题才会使用GPT5-thinking。

我大胆猜测年底，甚至更早GPT4o和o3还是会永久下线。

所以我想在智谱GLM-4.5V发布的这个时间点，对比一下GPT5和GLM-4.5V的视觉推理性能，一起GeoGuessr（看图定位）、视频定位、前端复刻、GUI Agent等等，大模型好不容易安上的眼睛由我来守护！

这类小case已经难不倒GLM-4.5V了（案例来源@Vinlic）了，还是来看看纸面实力，

GLM-4.5V总参数 106B，激活参数 12B，支持 64K 多模态长上下文，同步在 GitHub 与 Hugging Face 开源。

https://github.com/zai-org/GLM-V

使用方法：在z.ai上可以选择GLM-4.5V对话或者在智谱清言APP/网页版，上传图片，开启“推理模式”。

01｜GeoGuessr（看图定位）

游戏规则很简单啊，在限定的时间，根据像风景街景图，猜出图片所在地的经纬度，看谁猜得更快更准。

提示语也是固定的，GLM-4.5和GPT5-thinking都不能联网，重复跑三次看看效果对比。

这里是哪里？请在得出结论之后用json格式输出：大洲-国家-省份/州-市-地名-纬度-经度，键名为：'continent', 'country', 'state', 'city', 'place_name', 'lat', 'lng'。

GLM-4.5V：

GPT-5-thinking：

很好很好，第一局的结果都是在智利，经纬度非常非常接近。

看看他们的思考方式，GLM4.5偏向于观察图文的整体元素，从地理特征、道路的状况和周围建筑风格以及气候来综合考虑。

而且GLM4.5V还可以做视觉定位，定位出图片里面最有地域特征的建筑物。

GPT-5 thinking继承了o3的图片推理特性，会切割图片各个部分的来推理。

实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了。

智谱还让 GLM-4.5V 参加了图寻游戏的全球积分赛（ tuxun.fun），在加入挑战赛 16 小时后，GLM-4.5V 就击败了 99% 的玩家。在加入积分赛 7 天后，GLM-4.5V 就攀升到第 66 名。

02｜GeoGuessr（视频定位）

再看看GLM-4.5V的视频表现怎么样？

实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了。

目前GLM4.5V读取200M以下的视频的回答速度还是非常快的，

猜出来的地址只距离目的地199km，GPT5-thking输的概率很高啊。

因为GPT5-thinking支持上传视频，但读取不了。我就沿用了第一位跟o3打GeoGuessr游戏的Sam Patterson的同款规则。

所以最终GPT-5 thinking得到的结果比GLM4.5V远了113km，我甚至都有点想把o3和gpt4o带上来玩了。

03｜前端复刻

可以理解视频的好处就是还可以复刻完整的网页，之前我们都是一个个网页实现的，没有交互逻辑，

GPT5-thinking运行效果

GLM-4.5V可以通过一段浏览知乎的视频，分析出网页中所有元素的内容、样式和布局，推测出实现的html、css 和 JavaScript 代码。

更省心的是，它会分析视频帧之间的动态变化，尝试实现网页中的交互逻辑。

实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了。

还不止，还可以对复刻出来的网页进行圈选标记来指定修改要求，GLM-4.5V能进一步修改网页。

实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了。

04｜GUI Agent

这波秒回五个月前的AutoGLM沉思，

能自己打开网页、搜索、获取答案、登陆邮箱、看视频等等等等，基本上，所有能在浏览器里操作的事情，它都可以做。

这次更新的GLM-4.5V很明显可以加强AutoGLM沉思的下个版本，

比方说给GLM-4.5V 传入一张陈列了数十个商品的电商页面，让它识别商品图中的折扣价格与标题中的原价，并且计算出折扣比例。

实测智谱新GLM4.5v，多模态眼睛比GPT5好用多了。

最后的最后，又到了价格环节，

GLM-4.5V的API输入2元/M tokens，输出6元/M tokens。响应速度达到 60-80 tokens/s，

2000万Tokens的资源包也开始发了，

智谱还同步开源了一款桌面助手，可实时截屏、录屏获取屏幕信息，并依托 GLM-4.5V 处理多种视觉推理任务。

写代码、看视频、游戏解答、文档解读等视觉任务都可以hold住。

嗯，还是熟悉的味道，

还是那个靠谱的智谱。

@ 作者 / 卡尔

最后，感谢你看到这里如果喜欢这篇文章，不妨顺手给我们点赞｜在看｜转发｜评论

如果想要第一时间收到推送，不妨给我个星标

更多的内容正在不断填坑中……

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴