5款小模型搞定工具调用：不用数据中心也能跑|上下文|代码|工具|编程|调用

大模型能干的活，小模型现在也能干了——而且是在你的笔记本上。

工具调用是Agent系统的核心能力：选准函数、填对参数、把结果串进多步流程。GPT-4、Claude这些 frontier 模型确实擅长，但成本、延迟和硬件门槛让很多企业望而却步。好消息是，一批开源小模型已经追上来了。它们参数紧凑、权重开放，工具调用却是第一梯队水平。

下面这5款模型，全部支持结构化工具调用，Hugging Face 可直接下载。

1. SmolLM3-3B
发布于2025年7月8日，Hugging Face 自家出品。30亿参数，解码器架构，用了分组查询注意力（GQA）和无位置编码（NoPE）。预训练数据11.2T token，涵盖网页、代码、数学和推理，中间还插了1400亿token的推理专项训练。对齐阶段用的是 Hugging Face 自研的 Anchored Preference Optimization（APO）。

工具调用接口给了两套：xml_tools 走 JSON/XML 格式，python_tools 走 Python 函数风格。RAG 系统、边缘设备、低显存机器都能跑，权重、数据集、训练代码全开源。

2. Qwen3-4B-Instruct-2507
阿里通义千问团队8月6日更新的版本。40亿总参数（嵌入层占3.6B），36层 transformer，GQA 配置为32个查询头配8个键值头。这个"非思考模式" variant 针对快反场景优化——直接给答案，不输出思维链。

相比基础版，指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用都有显著提升，多语言长尾知识覆盖也加强了。

3. Llama-3.2-3B-Instruct
Meta 2024年9月发布，Llama 3.2 系列里的轻量款。30亿参数，专为边缘设备和移动端优化，工具调用通过内置的 "tools" 角色和结构化 JSON 格式实现。

训练数据截至2023年12月，上下文窗口12.8万 token。虽然体积只有大模型的零头，但函数调用精度足够支撑多步 Agent 流程，本地部署和 API 微调都很成熟。

4. Phi-4-mini-instruct
微软2025年2月推出，38亿参数。训练数据里合成数据占比极高——网页和代码质量过滤后，用多轮提示链生成教科书级合成数据，数学和编程还专门做了针对性合成。

工具调用走标准的聊天补全接口，function calling 格式与 OpenAI 兼容。亮点是 STEM 任务表现：数学竞赛和代码生成经常越级打怪，比肩参数大几倍的模型。

5. Gemma-3-4B-IT
谷歌2025年3月发布，40亿参数，Gemma 3 系列的指令微调版。支持140多种语言，上下文窗口12.8万 token，视觉编码器让它能同时处理图文。

工具调用通过 "tools" 字段实现，JSON 格式输出函数名和参数。谷歌放出了从预训练到后训练的全流程技术报告，复现门槛相对较低。

选哪一款？显存卡死选 SmolLM3-3B 或 Llama-3.2-3B，要中文能力优先 Qwen3，STEM 任务看 Phi-4-mini，多模态需求考虑 Gemma-3。它们共同的底线是：不用租 A100，单卡甚至 CPU 就能让 Agent 跑起来。