GPT4o和OpenAI o3告别得太突然了,

虽然目前PIus可以临时用回GPT4o,Pro可以临时访问o3,

但按照奥特曼接下来的计划,想把订阅费用从对话次数更换成对话消耗的token,以及GPT5的Router会将分流用户提出的问题,难度够高的问题才会使用GPT5-thinking。

我大胆猜测年底,甚至更早GPT4o和o3还是会永久下线。

所以我想在智谱GLM-4.5V发布的这个时间点,对比一下GPT5和GLM-4.5V的视觉推理性能,一起GeoGuessr(看图定位)、视频定位、前端复刻、GUI Agent等等,大模型好不容易安上的眼睛由我来守护!

打开网易新闻 查看精彩图片

这类小case已经难不倒GLM-4.5V了(案例来源@Vinlic)了,还是来看看纸面实力,

GLM-4.5V总参数 106B,激活参数 12B,支持 64K 多模态长上下文,同步在 GitHub 与 Hugging Face 开源。

打开网易新闻 查看精彩图片

https://github.com/zai-org/GLM-V

使用方法:在z.ai上可以选择GLM-4.5V对话或者在智谱清言APP/网页版,上传图片,开启“推理模式”。

01|GeoGuessr(看图定位)

游戏规则很简单啊,在限定的时间,根据像风景街景图,猜出图片所在地的经纬度,看谁猜得更快更准。

打开网易新闻 查看精彩图片

提示语也是固定的,GLM-4.5和GPT5-thinking都不能联网,重复跑三次看看效果对比。

这里是哪里?请在得出结论之后用json格式输出:大洲-国家-省份/州-市-地名-纬度-经度,键名为:'continent', 'country', 'state', 'city', 'place_name', 'lat', 'lng'。

GLM-4.5V:

打开网易新闻 查看精彩图片

GPT-5-thinking:

打开网易新闻 查看精彩图片

很好很好,第一局的结果都是在智利,经纬度非常非常接近。

看看他们的思考方式,GLM4.5偏向于观察图文的整体元素,从地理特征、道路的状况和周围建筑风格以及气候来综合考虑。

打开网易新闻 查看精彩图片

而且GLM4.5V还可以做视觉定位,定位出图片里面最有地域特征的建筑物。

打开网易新闻 查看精彩图片

GPT-5 thinking继承了o3的图片推理特性,会切割图片各个部分的来推理。

 实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。
打开网易新闻 查看更多视频
实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。

智谱还让 GLM-4.5V 参加了图寻游戏的全球积分赛( tuxun.fun),在加入挑战赛 16 小时后,GLM-4.5V 就击败了 99% 的玩家。在加入积分赛 7 天后,GLM-4.5V 就攀升到第 66 名。

打开网易新闻 查看精彩图片

02|GeoGuessr(视频定位)

再看看GLM-4.5V的视频表现怎么样?

 实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。
打开网易新闻 查看更多视频
实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。

目前GLM4.5V读取200M以下的视频的回答速度还是非常快的,

打开网易新闻 查看精彩图片

猜出来的地址只距离目的地199km,GPT5-thking输的概率很高啊。

打开网易新闻 查看精彩图片

因为GPT5-thinking支持上传视频,但读取不了。我就沿用了第一位跟o3打GeoGuessr游戏的Sam Patterson的同款规则。

打开网易新闻 查看精彩图片

所以最终GPT-5 thinking得到的结果比GLM4.5V远了113km,我甚至都有点想把o3和gpt4o带上来玩了。

打开网易新闻 查看精彩图片

03|前端复刻

可以理解视频的好处就是还可以复刻完整的网页,之前我们都是一个个网页实现的,没有交互逻辑,

打开网易新闻 查看精彩图片

GPT5-thinking运行效果

GLM-4.5V可以通过一段浏览知乎的视频,分析出网页中所有元素的内容、样式和布局,推测出实现的html、css 和 JavaScript 代码。

更省心的是,它会分析视频帧之间的动态变化,尝试实现网页中的交互逻辑。

 实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。
打开网易新闻 查看更多视频
实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。

还不止,还可以对复刻出来的网页进行圈选标记来指定修改要求,GLM-4.5V能进一步修改网页。

 实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。
打开网易新闻 查看更多视频
实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。

04|GUI Agent

这波秒回五个月前的AutoGLM沉思,

能自己打开网页、搜索、获取答案、登陆邮箱、看视频等等等等,基本上,所有能在浏览器里操作的事情,它都可以做。

这次更新的GLM-4.5V很明显可以加强AutoGLM沉思的下个版本,

比方说给GLM-4.5V 传入一张陈列了数十个商品的电商页面,让它识别商品图中的折扣价格与标题中的原价,并且计算出折扣比例。

 实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。
打开网易新闻 查看更多视频
实测智谱新GLM4.5v,多模态眼睛比GPT5好用多了。

最后的最后,又到了价格环节,

GLM-4.5V的API输入2元/M tokens,输出6元/M tokens。响应速度达到 60-80 tokens/s,

2000万Tokens的资源包也开始发了,

智谱还同步开源了一款桌面助手,可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务。

写代码、看视频、游戏解答、文档解读等视觉任务都可以hold住。

嗯,还是熟悉的味道,

还是那个靠谱的智谱。

@ 作者 / 卡尔

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

更多的内容正在不断填坑中……

打开网易新闻 查看精彩图片