OpenAI 开源对决 Qwen3！深度评测Token输出速度，谁才是开源新王？

刀哥聊AI

2025-08-07 12:03 ·北京

金丝大环刀，解剖AI的工程难题。

大模型在推理时产生的每个 token（词或子词）所需的时间越短，模型的输出速度就越快。

快速的 token 生成直接决定了响应延迟（毫秒级）和吞吐量（每秒可生成多少 token）。

实现高速输出的关键在于硬件（高算力 GPU/TPU、低延迟网络）、模型优化（量化、稀疏、Mixture‑of‑Experts）和高效推理框架（TensorRT、vLLM 等）以及缓存与动态批处理等调度技术。

我们来测试下同等硬件下，GPT-OSS 20b 和120b 对比Qwen3 32b的输出速度

深度测试

问题起源于一个截图，说GPT-OSS 20b输出速度达到惊人的6000 token/s

环境：截图中说的groq平台 https://groq.com/

测试问题

1 如何写个agent去实现coding，利用ddd思想的相关mcp tools和function call

2 比做AI workflow更可靠吗？优势和劣势是什么？

gpt-oss 20b

qwen3 32b

gpt-oss 120b

多测试一个问题给 gpt-oss

写一篇1万字的长篇小说，讲一个传统后端程序员，在2025年受到AI冲击，经历长达3年的转型期，终于成为AI程序员的故事

我调整了推理等级，选low的时候也没有什么太大提升

结论

gpt-oss 20b 比qwen3 32b 快4倍，大约1200 tokens/s，速度非常快，甚至gpt-oss 120b也比qwen快。但没有达到 6000 tokens/s的速度。

GPT‑OSS 的强劲源自：

1 海量、干净的预训练语料，产生丰富的知识表征；

2 规模化、混合精度+并行训练，十亿级参数；

3 高效实现 + 优化，结果就是Token 速度快、内存节省；

在聊天机器人、实时搜索、智能客服等交互式场景，用户只需要几百毫秒甚至更少的等待时间即可得到答案，极大提升用户满意度。

在批量数据处理、日志分析等后端任务时，系统同样能在相同算力下完成更多工作，显著降低成本和能耗。

token 速度快＝低延迟、高吞吐，对提升产品体验、提升业务效率、降低运营成本以及实现实时安全审查都具有重要意义。GPT-OSS确实未来可期！

回复【GPT】，一起评测研究GPT-OSS。下一篇我详细讲一讲 AI工作流为什么会比智能体工作流落后，给大家一些转型和学习的思路。

我是刀哥，大厂架构师，出海创业者，深入研究AI工具和AI编程。关注我，了解更多AI知识！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴