打开网易新闻 查看精彩图片

哈喽,大家好,今天小墨这篇评论,主要来分析智谱GLM-4.6V开源爆火,性能惊艳却藏小遗憾。

AI圈刚炸了个大消息,智谱毫无预兆地把重磅多模态大模型GLM-4.6V系列开源了。这波操作直接让不少开发者连夜蹲守下载,毕竟能免费用到接近顶尖水准的模型,放在以前想都不敢想。

更让人意外的是,连去年就火过一把的AutoGLM智能体也同步开源。这款被业内视为“全球首个具备手机操作能力的AI Agent”的工具,功能类似刚发布技术预览版的豆包手机助手,这下普通用户也能上手体验了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这次智谱一次性放出两个版本的GLM-4.6V模型,针对性做得很明确。基础版GLM-4.6V(106B-A12B)主打云端和高性能集群场景,轻量版GLM-4.6V-Flash(9B)则适合本地部署,满足低延迟应用需求。

最关键的是价格诚意,GLM-4.6V系列比上一代GLM-4.5V降价50%,API调用输入仅1元/百万tokens,输出3元/百万tokens。轻量版更直接全面免费,这对个人开发者和小团队来说,简直是降维福利。

打开网易新闻 查看精彩图片

值得一提的是,AutoGLM的开源也填补了手机端AI Agent的开源空白。每日经济新闻12月1日报道,字节跳动刚发布豆包手机助手技术预览版,主要和手机厂商合作推进。

打开网易新闻 查看精彩图片

而AutoGLM作为更早出现的同类工具,如今开源后,开发者或许能基于它做出更多个性化的手机助手功能。

打开网易新闻 查看精彩图片

9B版本的GLM-4.6V-Flash在34项测试中,有22项分数超过了Qwen3-VL-8B。106B参数12B激活的基础版更厉害,表现和参数量是它两倍的Qwen3-VL-235B不相上下。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在视频理解方面表现也很稳定,上传一段6分48秒的视频制作技巧分享视频,几秒钟内就能解析出视频思路、叙事技巧和镜头运用方式,还能给出成为摄影博主的建议。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

比如测试网页复刻功能时,让它把X平台登录页面的图标X改为Z,模型却误生成了向上箭头的形状。

打开网易新闻 查看精彩图片

不过好在常规功能都很稳定,像识图购物比价功能,输入“搜索iPhone 17 Pro Max各平台价格”,就能自动生成包含商品链接的比价表格,点击就能跳转购买。

有电商从业者尝试用它搜索《疯狂动物城2》中尼克狐的同款眼镜,模型通过图像搜索功能,很快就找出了同款眼镜的实拍图,精准度还是值得肯定的。