GLM-4.6V 开源｜支持识图、推理、工具调用

赛博禅心

2025-12-08 21:26 ·北京

长话短说
GLM-4.6V 系列，128k 上下文，今天开源
支持识图、推理、工具调用
能处理 150 页文档或 1 小时视频

GLM-4.6V 开源｜支持识图、推理、工具调用

两个版本：

• GLM-4.6V（106B-A12B）
• GLM-4.6V-Flash（9B）

当然，也支持 API 调用，并且降价 50%
输入1 元、输出3元（每百万 token）

以及，这次的更新里，有个东西要划重点
GLM-4.6V，支持了 Function Call

之前，GLM 的视觉模型，并不支持工具调用

评测数据

简单来说，就是

• 9B 版本，整体超过 Qwen3-VL-8B
• 106B-A12B 版本，比肩 2 倍参数量的 Qwen3-VL-235B

benchmark 对比场景展示

遗下内容，均来自官方 demo

图文混排：输入论文或主题，输出带配图的内容，模型自己调搜索找图，自己做视觉审核过滤

GLM-4.6V 开源｜支持识图、推理、工具调用

识图购物：上传街拍图，模型调 image_search，清洗多平台数据，输出导购表格

GLM-4.6V 开源｜支持识图、推理、工具调用

前端复刻：上传设计稿，生成 HTML/CSS/JS，支持在截图上圈选区域发指令改代码

GLM-4.6V 开源｜支持识图、推理、工具调用

视频理解：一次输入 4 家上市公司财报，跨文档抽取指标生成对比表

GLM-4.6V 开源｜支持识图、推理、工具调用

开源信息

模型支持 SGLang、vLLM、transformers、xLLM（Ascend NPU），并已于 GitHub、HuggingFace 和魔搭进行开源

GitHub
https://github.com/zai-org/GLM-V

Hugging Face
https://huggingface.co/collections/zai-org/glm-46v

魔搭
https://modelscope.cn/collections/GLM-46V-37fabc27818446

在线体验的话，也可以
z.ai 选 GLM-4.6V 模型，或者智谱清言 APP

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴