GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

前沿科技学习分享圈

2026-07-01 02:41 ·北京 ·前小米产品总监，人工智能领域从业者

AGI很远，但贴张图能不能被看懂，很近。

这几天，AI圈最魔幻的一幕发生了。

一个清华教授，没发新模型，没开发布会，就在网上随口问了一句话。

结果浏览量啪的一下，干到了40万+。

这哥们叫唐杰，智谱的灵魂人物。他问的也简单——

各位！下个版本的GLM，你想要啥？

就这么一句，评论区瞬间炸了。

一、为啥大家这么上头

说实话，刚看到的时候我也愣了。

不就是征集个意见吗？至于吗？

至于。。。

因为这事儿是有"前科"的。

去年GLM-4.6开源那会儿，唐杰也这么问过一回。当时网友们一条条热情支招，结果你猜怎么着——那些需求后来真就一个个在新版本里实现了。

真·有求必应·阿拉丁。

所以这次他一张口，懂行的人立马就团建去了。有人列愿望清单，有人@智谱员工，还有人直接跪求：

求你了GLM！做一个类似Codex的桌面应用！！

但刷得最多、最齐刷刷的，是同一个字——

视觉。

二、一个"偏科学霸"的痛

要理解这个字背后的分量，得先看看GLM现在有多猛。

两周前，智谱刚开源了GLM-5.2。

强到什么程度？在全球百万开发者盲测的Code Arena上，它拿了1595分，可用模型里排全球第一，只输给一个还没对外开放的神话级模型Fable-5。

百万Token无损上下文、深度逻辑推理、复杂系统工程……样样能打。

但偏偏，它有个致命的缺。

它看不见。

一个纯文本模型，能吞下整个项目的几十万行代码，却看不懂你随手贴的一张设计稿，更别提截个图让它帮你改界面了。

于是GLM用户集体流下了羡慕的泪水：人家Fable-5是原生多模态，看图、造图、读网页样样行，我咋就只能干瞪眼？

最扎心的是——

这事儿压根不是智谱做不出来。

恰恰相反。早在今年4月，智谱就发过GLM-5V-Turbo，能看懂截图直接吐代码。再往前，那个大名鼎鼎的CogVLM视觉编码器，就是他们做的。唐杰本人写的视觉论文，更是一抓一大把。

所以问题不是"能不能"，而是——他没把视觉，放进那个最强的旗舰里。

三、科学家和你，看的不是一个东西

为啥不放？

唐杰自己其实早就给过答案。

在他眼里，多模态当然是未来。但他补了一刀：

当下的多模态，对提升AGI的智能上界，帮助有限。最有效的方式，可能还是分开发展。

你品，你细品。

这就是科学家和普通用户之间，那道微妙的拉扯。

唐杰这种冲在一线的人，盯着的是模型到底聪不聪明这件事——视觉能让模型更好用，但让它更聪明的，是复杂推理那套硬功夫。

可对我们普通人来说，AGI太远了。

我们要的特别朴素：眼下贴张图，你能不能接住？截个屏，你能不能看懂？

一边是科学家望着智能的天花板，觉得视觉只是锦上添花；一边是全世界的开发者，齐刷刷地喊着同一个字。

这事儿，谁也没错。

只是站的地方，不一样。

四、这一次，可能真的躲不过了

不过这回，留给"分开发展"的时间，恐怕不多了。

因为对手们，全都端着多模态杀过来了。

Kimi K2.5早在1月就原生多模态了，Qwen3.5-Omni三月份直接把文本、图像、音频、视频全塞进一个模型，更别提国际上Gemini 3那种文图音视频一把抓的狠角色。

旗舰补视觉，几乎是迫在眉睫。

而唐杰那句"你想要啥"，与其说是征集，不如说是一次心照不宣的预告。

GLM-5.3，可能就快端上桌了。

其实我挺喜欢这个场面的。

一个顶尖科学家，愿意放下身段，在公开场合问一句"你们想要啥"，然后真的去做。

这背后藏着一个特别朴素的逻辑——

最好的产品，从来不是关起门来拍脑袋想出来的，而是听出来的。

科学家追的是星辰大海，用户要的是脚下的路。

而一个伟大的东西，往往就诞生在这两者的交汇处。

GLM-5.3会不会有视觉，我不知道。

但我知道，当40万人喊着同一个字的时候，有人在认真听。

这就够了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴