大模型能干的活,小模型现在也能干了——而且是在你的笔记本上。

工具调用是Agent系统的核心能力:选准函数、填对参数、把结果串进多步流程。GPT-4、Claude这些 frontier 模型确实擅长,但成本、延迟和硬件门槛让很多企业望而却步。好消息是,一批开源小模型已经追上来了。它们参数紧凑、权重开放,工具调用却是第一梯队水平。

打开网易新闻 查看精彩图片

下面这5款模型,全部支持结构化工具调用,Hugging Face 可直接下载。

1. SmolLM3-3B
发布于2025年7月8日,Hugging Face 自家出品。30亿参数,解码器架构,用了分组查询注意力(GQA)和无位置编码(NoPE)。预训练数据11.2T token,涵盖网页、代码、数学和推理,中间还插了1400亿token的推理专项训练。对齐阶段用的是 Hugging Face 自研的 Anchored Preference Optimization(APO)。

工具调用接口给了两套:xml_tools 走 JSON/XML 格式,python_tools 走 Python 函数风格。RAG 系统、边缘设备、低显存机器都能跑,权重、数据集、训练代码全开源。

2. Qwen3-4B-Instruct-2507
阿里通义千问团队8月6日更新的版本。40亿总参数(嵌入层占3.6B),36层 transformer,GQA 配置为32个查询头配8个键值头。这个"非思考模式" variant 针对快反场景优化——直接给答案,不输出思维链。

相比基础版,指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用都有显著提升,多语言长尾知识覆盖也加强了。

3. Llama-3.2-3B-Instruct
Meta 2024年9月发布,Llama 3.2 系列里的轻量款。30亿参数,专为边缘设备和移动端优化,工具调用通过内置的 "tools" 角色和结构化 JSON 格式实现。

训练数据截至2023年12月,上下文窗口12.8万 token。虽然体积只有大模型的零头,但函数调用精度足够支撑多步 Agent 流程,本地部署和 API 微调都很成熟。

4. Phi-4-mini-instruct
微软2025年2月推出,38亿参数。训练数据里合成数据占比极高——网页和代码质量过滤后,用多轮提示链生成教科书级合成数据,数学和编程还专门做了针对性合成。

工具调用走标准的聊天补全接口,function calling 格式与 OpenAI 兼容。亮点是 STEM 任务表现:数学竞赛和代码生成经常越级打怪,比肩参数大几倍的模型。

5. Gemma-3-4B-IT
谷歌2025年3月发布,40亿参数,Gemma 3 系列的指令微调版。支持140多种语言,上下文窗口12.8万 token,视觉编码器让它能同时处理图文。

工具调用通过 "tools" 字段实现,JSON 格式输出函数名和参数。谷歌放出了从预训练到后训练的全流程技术报告,复现门槛相对较低。

选哪一款?显存卡死选 SmolLM3-3B 或 Llama-3.2-3B,要中文能力优先 Qwen3,STEM 任务看 Phi-4-mini,多模态需求考虑 Gemma-3。它们共同的底线是:不用租 A100,单卡甚至 CPU 就能让 Agent 跑起来。