AGI很远,但贴张图能不能被看懂,很近。
这几天,AI圈最魔幻的一幕发生了。
一个清华教授,没发新模型,没开发布会,就在网上随口问了一句话。
结果浏览量啪的一下,干到了40万+。
这哥们叫唐杰,智谱的灵魂人物。他问的也简单——
各位!下个版本的GLM,你想要啥?
就这么一句,评论区瞬间炸了。
一、为啥大家这么上头
说实话,刚看到的时候我也愣了。
不就是征集个意见吗?至于吗?
至于。。。
因为这事儿是有"前科"的。
去年GLM-4.6开源那会儿,唐杰也这么问过一回。当时网友们一条条热情支招,结果你猜怎么着——那些需求后来真就一个个在新版本里实现了。
真·有求必应·阿拉丁。
所以这次他一张口,懂行的人立马就团建去了。有人列愿望清单,有人@智谱员工,还有人直接跪求:
求你了GLM!做一个类似Codex的桌面应用!!
但刷得最多、最齐刷刷的,是同一个字——
视觉。
二、一个"偏科学霸"的痛
要理解这个字背后的分量,得先看看GLM现在有多猛。
两周前,智谱刚开源了GLM-5.2。
强到什么程度?在全球百万开发者盲测的Code Arena上,它拿了1595分,可用模型里排全球第一,只输给一个还没对外开放的神话级模型Fable-5。
百万Token无损上下文、深度逻辑推理、复杂系统工程……样样能打。
但偏偏,它有个致命的缺。
它看不见。
一个纯文本模型,能吞下整个项目的几十万行代码,却看不懂你随手贴的一张设计稿,更别提截个图让它帮你改界面了。
于是GLM用户集体流下了羡慕的泪水:人家Fable-5是原生多模态,看图、造图、读网页样样行,我咋就只能干瞪眼?
最扎心的是——
这事儿压根不是智谱做不出来。
恰恰相反。早在今年4月,智谱就发过GLM-5V-Turbo,能看懂截图直接吐代码。再往前,那个大名鼎鼎的CogVLM视觉编码器,就是他们做的。唐杰本人写的视觉论文,更是一抓一大把。
所以问题不是"能不能",而是——他没把视觉,放进那个最强的旗舰里。
三、科学家和你,看的不是一个东西
为啥不放?
唐杰自己其实早就给过答案。
在他眼里,多模态当然是未来。但他补了一刀:
当下的多模态,对提升AGI的智能上界,帮助有限。最有效的方式,可能还是分开发展。
你品,你细品。
这就是科学家和普通用户之间,那道微妙的拉扯。
唐杰这种冲在一线的人,盯着的是模型到底聪不聪明这件事——视觉能让模型更好用,但让它更聪明的,是复杂推理那套硬功夫。
可对我们普通人来说,AGI太远了。
我们要的特别朴素:眼下贴张图,你能不能接住?截个屏,你能不能看懂?
一边是科学家望着智能的天花板,觉得视觉只是锦上添花;一边是全世界的开发者,齐刷刷地喊着同一个字。
这事儿,谁也没错。
只是站的地方,不一样。
四、这一次,可能真的躲不过了
不过这回,留给"分开发展"的时间,恐怕不多了。
因为对手们,全都端着多模态杀过来了。
Kimi K2.5早在1月就原生多模态了,Qwen3.5-Omni三月份直接把文本、图像、音频、视频全塞进一个模型,更别提国际上Gemini 3那种文图音视频一把抓的狠角色。
旗舰补视觉,几乎是迫在眉睫。
而唐杰那句"你想要啥",与其说是征集,不如说是一次心照不宣的预告。
GLM-5.3,可能就快端上桌了。
其实我挺喜欢这个场面的。
一个顶尖科学家,愿意放下身段,在公开场合问一句"你们想要啥",然后真的去做。
这背后藏着一个特别朴素的逻辑——
最好的产品,从来不是关起门来拍脑袋想出来的,而是听出来的。
科学家追的是星辰大海,用户要的是脚下的路。
而一个伟大的东西,往往就诞生在这两者的交汇处。
GLM-5.3会不会有视觉,我不知道。
但我知道,当40万人喊着同一个字的时候,有人在认真听。
这就够了。
热门跟贴