AGI很远,但贴张图能不能被看懂,很近。

这几天,AI圈最魔幻的一幕发生了。

一个清华教授,没发新模型,没开发布会,就在网上随口问了一句话。

打开网易新闻 查看精彩图片

结果浏览量啪的一下,干到了40万+。

这哥们叫唐杰,智谱的灵魂人物。他问的也简单——

各位!下个版本的GLM,你想要啥?

就这么一句,评论区瞬间炸了。

一、为啥大家这么上头

说实话,刚看到的时候我也愣了。

不就是征集个意见吗?至于吗?

至于。。。

因为这事儿是有"前科"的。

去年GLM-4.6开源那会儿,唐杰也这么问过一回。当时网友们一条条热情支招,结果你猜怎么着——那些需求后来真就一个个在新版本里实现了。

真·有求必应·阿拉丁。

打开网易新闻 查看精彩图片

所以这次他一张口,懂行的人立马就团建去了。有人列愿望清单,有人@智谱员工,还有人直接跪求:

求你了GLM!做一个类似Codex的桌面应用!!

但刷得最多、最齐刷刷的,是同一个字——

视觉。

二、一个"偏科学霸"的痛

要理解这个字背后的分量,得先看看GLM现在有多猛。

两周前,智谱刚开源了GLM-5.2

强到什么程度?在全球百万开发者盲测的Code Arena上,它拿了1595分,可用模型里排全球第一,只输给一个还没对外开放的神话级模型Fable-5。

打开网易新闻 查看精彩图片

百万Token无损上下文、深度逻辑推理、复杂系统工程……样样能打。

但偏偏,它有个致命的缺。

它看不见。

打开网易新闻 查看精彩图片

一个纯文本模型,能吞下整个项目的几十万行代码,却看不懂你随手贴的一张设计稿,更别提截个图让它帮你改界面了。

于是GLM用户集体流下了羡慕的泪水:人家Fable-5是原生多模态,看图、造图、读网页样样行,我咋就只能干瞪眼?

最扎心的是——

这事儿压根不是智谱做不出来。

恰恰相反。早在今年4月,智谱就发过GLM-5V-Turbo,能看懂截图直接吐代码。再往前,那个大名鼎鼎的CogVLM视觉编码器,就是他们做的。唐杰本人写的视觉论文,更是一抓一大把。

所以问题不是"能不能",而是——他没把视觉,放进那个最强的旗舰里。

三、科学家和你,看的不是一个东西

为啥不放?

唐杰自己其实早就给过答案。

在他眼里,多模态当然是未来。但他补了一刀:

当下的多模态,对提升AGI的智能上界,帮助有限。最有效的方式,可能还是分开发展。

你品,你细品。

这就是科学家和普通用户之间,那道微妙的拉扯。

唐杰这种冲在一线的人,盯着的是模型到底聪不聪明这件事——视觉能让模型更好用,但让它更聪明的,是复杂推理那套硬功夫。

可对我们普通人来说,AGI太远了。

我们要的特别朴素:眼下贴张图,你能不能接住?截个屏,你能不能看懂?

一边是科学家望着智能的天花板,觉得视觉只是锦上添花;一边是全世界的开发者,齐刷刷地喊着同一个字。

这事儿,谁也没错。

只是站的地方,不一样。

四、这一次,可能真的躲不过了

不过这回,留给"分开发展"的时间,恐怕不多了。

因为对手们,全都端着多模态杀过来了。

Kimi K2.5早在1月就原生多模态了,Qwen3.5-Omni三月份直接把文本、图像、音频、视频全塞进一个模型,更别提国际上Gemini 3那种文图音视频一把抓的狠角色。

旗舰补视觉,几乎是迫在眉睫。

而唐杰那句"你想要啥",与其说是征集,不如说是一次心照不宣的预告。

GLM-5.3,可能就快端上桌了。

其实我挺喜欢这个场面的。

一个顶尖科学家,愿意放下身段,在公开场合问一句"你们想要啥",然后真的去做。

这背后藏着一个特别朴素的逻辑——

最好的产品,从来不是关起门来拍脑袋想出来的,而是听出来的。

科学家追的是星辰大海,用户要的是脚下的路。

而一个伟大的东西,往往就诞生在这两者的交汇处。

GLM-5.3会不会有视觉,我不知道。

但我知道,当40万人喊着同一个字的时候,有人在认真听。

这就够了。