智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o|gpt-4|全家桶|大模型|智谱|模态

机器之心报道

编辑：张倩、杜伟

在与 GPT-4o 的全面较量中，GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。还有 One More Thing：清言上线了视频通话功能，首批面向部分用户开放。

中国的大模型，正在世界舞台上站稳脚跟。

近日，数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开，来自中国的研究团队和科技企业纷纷亮相。其中，在 8 月 29 日举办的大语言模型日（Large Language Model Day）上，智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM，成为中国科技力量的鲜明代表。

与此同时，他还介绍了智谱基础模型的重大升级，即新一代基座大模型 GLM-4-Plus。这是智谱全自研 GLM 大模型的最新版本，在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。

此外，他们还发布了文生图模型 CogView-3-Plus 和图像 / 视频理解模型 GLM-4V-Plus。前者具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能，后者具备卓越的图像理解能力和基于时间感知的视频理解能力，上线开放平台后将成为国内首个通用视频理解模型 API。

在视频生成方面，比 CogVideoX 2B 更大的 5B 版本也正式开源，其性能进一步增强，是当前开源视频生成模型中的最佳选择。

这些模型共同构成了智谱自主原创的全栈大模型谱系，推动智谱全面对标国际先进水平，巩固中国在全球大模型领域的领先地位。

第一手实测

通用知识、视觉理解、图像生成体验升级

我们首先对刚刚发布的 GLM-4-Plus 的通用知识掌握程度、逻辑推理等相关能力来了一波测验。

先看官方给出的指标。从结果来看，在与 OpenAI 最强旗舰模型 GPT-4o 的全面较量中，GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。

对于逻辑推理任务，先让它尝试解答最近一段时间让大模型犯糊涂的「数字比较」问题。从结果看，GLM-4-Plus 很懂小数位比较的逻辑思路。

给 GLM-4-Plus 上上难度，看它能不能搞定经典的「瓶子装水」问题。显然它可以一步步厘清破解思路，并给出准确答案。

GLM-4-Plus 对 AI 圈名人 Ilya Sutskever 的最新近况也了如指掌，说明背后的搜索功能做得也不错。

接下来，我们测试了 GLM-4V-Plus 的图像理解能力。

给出一张有关英伟达的漫画，GLM-4V-Plus 能 get 到这是用淘金热比喻当下的 AI 热，指出英伟达是铲子卖家，其他 AI 公司是铲子买家，和漫画寓意相符。

接下来，我们又给了它一张包含多个人物的梗图。结果发现，GLM-4V-Plus 不仅能够描述出人物的穿搭、表情以及照片里模糊的背景，还能看出几个人之间的关系以及表情的成因，效果出乎意料。

GLM-4V-Plus 在「实战」中不仅可以理解网页内容，将它们转换为 html 代码，而且能够对复杂的视频内容进行透彻的理解与分析，并做到与人类之间类似的沟通。

我们也让 GLM-4V-Plus 生成了机器之心官网截图的 html 代码。它基本对设计稿进行了分区规划，排版方式用了比较现代的 flex，支持一定的响应式，具有一定的基于当前代码继续补充细节的可行性。

从代码功能来看，它能够正确识别模块的内容大概是什么（比如是 Logo、是 Banner 还是新闻），并且语义化给出 class 命名（如新闻板块命名为.news）。

眼见为实，GLM-4V-Plus 强不强，下面这个视频示例也会给我们答案。我们喂给模型一段 11 秒时长的篮球比赛现场视频：

视频链接：https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w

然后分别从视频总结、推理、时间问答等几个角度考验 GLM-4V-Plus。

Q1: 这个穿绿色衣服的球员在整个视频都做了什么？
A1: 在整个视频中，穿绿色衣服的球员在场上运球，然后跳起将球投入篮筐。
Q2: 这个视频的精彩时刻是什么？发生在第几秒？
A2: 这个视频的精彩时刻发生在第 4 秒，当时穿绿色衣服的球员跳起并将球投入篮筐。

可以看到，GLM-4V-Plus 显然准确地 get 到了视频传达的内容，并进行了全面的总结。不仅如此，它还能根据「看到」的某些显著特征（如球员的服装）来展开进一步合理的推理判断；并针对具体时间节点的内容进行概括总结，在某种程度上可以说具备了时间感知能力。

我们测试了当前大火的《黑神话・悟空》片段，GLM-4V-Plus 也能按照时间顺序描述清楚，而且描述语言文学性高，与视频片段高度适配。

一个穿着传统中国盔甲的动画孙悟空，站在多云的天空下，散发出决心和战斗的准备。随着时间的推移，他的装束被详细展示，包括金色的盔甲、红色的流苏和类似羽毛的头饰，背景是雾蒙蒙的。他的表情从严肃的决心变为沉思，暗示着内省。场景转换到一个雾蒙蒙的山区地形，在那里，一个穿着华丽盔甲的战士面对着一个巨大的、有鳞片的生物，预示着一场史诗般的对抗。随着战士和生物之间的紧张关系升级，最终在多云的天空下，一场戏剧性的对峙达到高潮。

最后，从 CogView-3-Plus 生成的一系列图像示例中，我们体验到了文生图能力的显著提升。

比如在下面这张图中，我们看到 CogView-3-Plus 可以非常准确地生成单词，这在很多文生图应用中都是高频翻车区。

在下面这张图中，CogView-3-Plus 不仅准确还原了马斯克的面部特征，还创意性地给马加上了类似电路的纹理，非常富有想象力。

CogView-3-Plus 对于古诗词的理解有些出乎意料，不仅画出了所有的元素，还还原了诗词中的意境。

人物的生成则非常逼真，而且细节丰富、氛围感强。

可以说，智谱「超大杯」模型系列的实际体验效果，「兑现了」性能指标上的全面提升。

One More Thing

智谱版「Her」正式上线

除了以上基础模型的进展，智谱旗下 C 端产品 —— 生成式 AI 助手智谱清言也迎来了重磅升级。

我们知道，在 GPT-4o 出现后，大家都在猜测，下一个 Killer APP 的交互方式会是什么样子。很多人看好语音，但毋庸置疑，语音 + 视频会更加方便，所以顶级大模型厂商都在想方设法给自己的大模型安上「眼睛」，让大模型不仅会写、会听、会说，还会看。

在国内，智谱是首个把这项综合功能做成 C 端产品并开放给部分用户的公司。这部分用户只要下载最新版本的智谱清言，然后打开视频通话窗口，就可以和它视频通话。

这个视频通话跨越了文本、音频和视频模态，并具备实时推理的能力。随着该功能的加入，清言 APP 成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。

从官方 demo 来看，这个功能可以用在陪伴、教学、办公、生活等多种场景。

为了验证效果，机器之心在第一时间进行了尝试。

首先，我们尝试了一道小学数学题。在看到题目后，清言似乎自动代入了一个小学老师的角色，语速放慢且富有耐心。而且，它不是直接给出结果，而是用苏格拉底启发式教学法，引导提问者一步一步算出答案。这不就是家长想要的「作业辅导」搭子吗？

视频链接：https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w

接下来，我们尝试了一下工作场景 —— 让清言帮忙解读一篇英文报道。可以看出，它不仅能把新闻概括出来，还能自行扩展新闻背后的信息，可以考虑拿来当工作搭子了。

视频链接：https://mp.weixin.qq.com/s/4INZ0SxwRV79zPwj6p0G7w

目前，该功能也开放了外部申请。现在到智谱清言 APP 或登录 PC 端，就能站内申请内测。智谱表示会持续迭代并逐步放开规模，尽快让全员都可以使用。

此外，智谱还透露，这其实只是一个 beta 版本，清言的视频通话功能近期还会迎来大的版本迭代。看来，智谱有意将 C 端大模型卷到会写、会听、会说还会看的 Next Level，在行业内掀起新一轮竞赛。

密集的迭代背后

智谱有着充足的技术弹药

在众多大模型公司中，智谱是非常有辨识度的一家。这一方面是因为，智谱的模型早早就做到了接近 GPT-4 的水平；另一方面则是因为，没有哪家国产大模型公司像智谱的技术动作这样密集。

比如 2024 开年以来，智谱这家公司就一直「没消停过」。

比如，在模型方面，智谱在 1 月份就迭代出了新一代基座大模型 GLM-4。该模型整体性能成为当时最接近 GPT-4 的国产大模型。如今，GLM-4 再度进化，时间间隔也不过半年多。

在战火纷飞的小模型战场，智谱也没闲着，推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中，GLM-4V-9B 还是多模态的，通过加入 Vision Transformer，该模型仅以 9B 的参数量就实现了比肩 GPT-4V 的能力。但和后者不同的是，这个模型是开源的。

而在产品方面，智谱也是在 1 月份就推出了对标 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中，GLM-4-All Tools 实现了根据用户意图自动理解、规划复杂指令，自由调用文生图、代码解释器、网页浏览、Function Call 等多项工具来完成复杂任务，这意味着 GLM 系列模型的全家桶能力实现工业化。GLMs 则实现了个性化智能体定制，帮助没有编程基础的用户实现大模型的便捷开发。

在清言这款 C 端产品上，智谱也是更新不断，其中动静最大的要数最近发布的视频生成功能「清影」。只要你有好的创意（几个字到几百个字），再加上一点点耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度视频。而且，和 OpenAI 迟迟没有上线的 Sora 不同，清影同源的视频生成模型 ——CogVideoX 也是开源的，而且一路从 2B 开源到 5B（未来可能更大），这在国内外开发者群体中都引发了不小的轰动。