量大管饱!

两周前,智谱才发布了Auto沉思,一个能自己上网干活、多轮搜索、输出万字研究报告的 Agent。

而它背后的这一整套完整的模型链,今天全开源了!无限制使用,实在有太多值得讲的了,

  • 支持高自主工具调用+自我验证的 GLM-Z1-Rumination 沉思模型

  • 价格是 Deepseek R1 1/30 的推理模型 GLM-Z1-Air

  • 速度是 DeepSeek R1 八倍的 GLM-Z1-AirX 推理模型

  • 首个 API 免费的推理模型 GLM-Z1-Flash

还有GLM-4、GLM-4-Flash两个基础模型,覆盖3大平台,体验感拉满。

我们就按照推理、沉思、基础模型三大分类来讲,Here we go!

01|推理模型

按照性价比、速度、普适性,智谱一口气上线了三个推理模型:

GLM-Z1-Air、GLM-Z1-AirX、GLM-Z1-Flash

z.ai这个新网页端里可以体验速度最快的GLM-Z1-AirX,

先来写一个经典贪吃蛇测测效果:

帮我生成一个经典的贪吃蛇游戏

提示语很简单,不给额外信息,让模型自己脑补。

 比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)
打开网易新闻 查看更多视频
比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)

Z1-AirX

 比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)
打开网易新闻 查看更多视频
比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)

R1

AirX 一轮直出成功运行,R1 直出的贪吃蛇会因为初始化位置设置在(0,0)导致一开始会 Game Over,在第二轮对话的时间修复了自身碰撞检测逻辑。

横向对比了一下两个模型的效果,AirX 有更好的引导提示,一局结束后可以用空格重启游戏,并且除了得分外,还做了实时长度统计,最后就是蛇的速度比较合理,R1做出来的蛇移动太快,基本上吃不到5个苹果就 GG了。

除了z.ai,我们在bigmodel.Cn里照样可以体验模型,更重要的是可以获取 API Key。

Z1-Air的调用价格是 R1 的1/30,Z1-Flash 更离谱,直接免费调用。

我第一时间就觉得这一刻的到来是为了AI翻译而生,日常受限调用额度,都是普通模型翻译不好再切换到推理模型。

现在不需要了,

直接人手一个!

 比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)
打开网易新闻 查看更多视频
比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)

这里我用到的划词软件是 Bob,跟沉浸式翻译一样都原生支持 GLM 的服务,只需要在 bigmodel 获取模型名字和 api key之后,就可以直接上手了。

GLM-Z1-Air、GLM-Z1-AirX 的大小都是32B,性能媲美671B参数的满血版R1,有较强的数理推理能力。Z1-Air 每百万tokens是0.5元、高速版 AirX 是5元。

同系列还有一个更小的宝藏模型GLM-Z1-9B-0414,在数学、代码、科学、通用问答领域上超过了蒸馏R1出来的DeepSeek-R1-Distill-Qwen-7B/14B

02|沉思模型

与一般推理模型不同,沉思模型GLM-Z1-Rumination通过更多步骤的深度思考来解开放性的复杂 问题。直接上一个例子来看就很清晰了:

我需要一个从4月15日至23日,从北京出发的7天日本行程,预算为2500-5000美元,这是我和我未婚妻的旅行。我们喜欢历史遗迹、隐藏的宝藏和日本文化(剑道、茶道、禅修)。我们想看奈良的鹿,并步行探索城市。我计划在这趟旅行中求婚,需要推荐一个特别的地点。请提供一个详细的行程和一个简单的HTML旅行手册,包含地图、景点描述、必备的日语短语和旅行提示,以便我们在旅途中参考。

这个问题从 Manus 开始到现在已经算是一个经典难题了,是一个跨时间、预算、地点、位置的行程规划。

 比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)
打开网易新闻 查看更多视频
比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)

从GLM-Z1-Rumination思考过程出发,它的整体结构是自主提出 问题->搜索信息->构建分析->完成任务,前后搜索了14次,收集了140个网页,最终输出了一篇5000字左右的旅游攻略。

最后还将整个旅途中要去的地点做成了HTML旅行手册,比起一般的AI搜索,思考20s,给出千字概述,沉思会反复琢磨,每次先思考个5-20s,然后去搜索验证自己的想法后,继续执行计划。

这个行为可太像我写论文的时候了。

03|基础模型

最后来测测看基础模型,

目前我对基础模型的要求是写单个文件的编码能力,够强才可以跟推理模型形成链路。编写多个文件的复杂需求上推理,我可以先做别的,等上十几分钟。但面对需求比较确定的单文件来说,我还是更喜欢直观的来回对话。

这次智谱上线的基座模型提供两个版本:GLM-4-Air-250414GLM-4-Flash-250414,部分 Benchmark 指标已接近甚至超越 GPT-4o、DeepSeek-V3-0324(671B)等更大模型的水平。其中GLM-4-Flash-250414也是完全 Free。

所以我用它来写了一个模拟小球运动的程序:

编写一个 Python 脚本,直观地模拟五个不同颜色的球在多个嵌套的旋转六边形中动态弹跳。每个六边形都以不同的速度旋转,创造出好看的图案。除了最外层的六边形外,所有嵌套的六边形都必须有一个随机选择的缺壁,这样球才能在内外六边形之间无缝通过。小球最初从最内侧的六边形开始。通过结合重力、摩擦力和角动量来实现逼真的物理效果,确保小球与旋转墙壁之间的互动自然而令人信服。提供可调节的重力强度、摩擦力大小、旋转速度和六边形尺寸参数,以便于实验模拟的动态效果。特别注意小球与旋转墙之间的碰撞,以确保准确性和真实性。使其最小化

刚好隔壁 GPT4.1 也能用了,干脆来横向对比一下效果:

 比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)
打开网易新闻 查看更多视频
比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)

再来看基础模型 GLM-4-32B 跑出来的效果:

 比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)
打开网易新闻 查看更多视频
比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)

物理规律做的还可以,效果是高于 GPT-4.1-nano 的。

顺带一提,OpenAI在刚刚发布的 GPT4.1 系列模型中评测其函数能力时采用了ComplexFuncBench,这是由智谱团队提出的专用于评估大模型复杂函数调用能力的测试基准。目前GPT4.1得分目前不足 70。

我特意去看了一下,

ComplexFuncBench 主要评测的是大模型在 128K 长上下文下进行多步带约束的函数调用的能力,更贴合真实场景,能有效引导智能体的开发。

最后来做一个可视化网页,纪念一下这次更新,

 比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)
打开网易新闻 查看更多视频
比R1快8倍,思考深度还翻倍 - 智谱开源了整套六个大模型(附三大平台,支持推理/沉思/基础模型)

跟之前的 case 比起来,GLM-4-32B 还追加了在线图标,用 mermaid 画出了完整的模型训练流程,还手搓了个移动端机器学习平台和函数绘图板,也是主打一个量大管饱,测case测到停不下来。

智谱还在C!

我以为的开源年一个月一次开源,

实际的开源年是一个月开源六个模型。。。

当我们还在讨论"开源是否影响商业化"时,

智谱给出了版本正答:

开源不是终点,而是新的起点。

这恰好与今日另一则重磅消息对照上了,

智谱正式启动A股首次公开募股流程,成为首家启动IPO的大模型创业公司。

我们正在见证历史,

每一个开源模型都是通往AGI的铺路石,

而智谱证明了,

大模型的未来,

从来都不是独行者的游戏,

而是开源生态的星辰大海。

@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论更多的内容正在不断填坑中……