金丝大环刀,解剖AI的工程难题。

大模型在推理时产生的每个 token(词或子词)所需的时间越短,模型的 输出速度 就越快。

快速的 token 生成直接决定了 响应延迟(毫秒级)和 吞吐量(每秒可生成多少 token)。

实现高速输出的关键在于硬件(高算力 GPU/TPU、低延迟网络)、模型优化(量化、稀疏、Mixture‑of‑Experts)和高效推理框架(TensorRT、vLLM 等)以及缓存与动态批处理等调度技术。

我们来测试下同等硬件下,GPT-OSS 20b 和120b 对比Qwen3 32b的输出速度

深度测试

问题起源于一个截图,说GPT-OSS 20b输出速度达到惊人的6000 token/s

环境:截图中说的groq平台 https://groq.com/

测试问题

1 如何写个agent去实现coding,利用ddd思想的相关mcp tools和function call

2 比做AI workflow更可靠吗?优势和劣势是什么?

gpt-oss 20b

qwen3 32b

gpt-oss 120b

多测试一个问题给 gpt-oss

写一篇1万字的长篇小说,讲一个传统后端程序员,在2025年受到AI冲击,经历长达3年的转型期,终于成为AI程序员的故事

我调整了推理等级,选low的时候也没有什么太大提升

结论

gpt-oss 20b 比qwen3 32b 快4倍,大约1200 tokens/s,速度非常快,甚至gpt-oss 120b也比qwen快。但没有达到 6000 tokens/s的速度。

GPT‑OSS 的强劲源自:

1 海量、干净的预训练语料, 产生 丰富的知识表征;

2 规模化、混合精度+并行训练,十亿级参数;

3 高效实现 + 优化 ,结果就是Token 速度快、内存节省;

在聊天机器人、实时搜索、智能客服等交互式场景,用户只需要几百毫秒甚至更少的等待时间即可得到答案,极大提升用户满意度。

在批量数据处理、日志分析等后端任务时,系统同样能在相同算力下完成更多工作,显著降低成本和能耗。

token 速度快=低延迟、高吞吐,对提升产品体验、提升业务效率、降低运营成本以及实现实时安全审查都具有重要意义。GPT-OSS确实未来可期!

回复【GPT】,一起评测研究GPT-OSS。下一篇我详细讲一讲 AI工作流为什么会比 智能体工作流落后,给大家一些转型和学习的思路。

我是刀哥,大厂架构师,出海创业者,深入研究AI工具和AI编程。关注我,了解更多AI知识!