打开网易新闻 查看精彩图片

一、最关键差异:Dense vs MoE(本质原因) ✅ Qwen3.6-27B

  • Dense(稠密模型)
  • 每个 token → 27B 参数全部参与计算
⚠️ Qwen3.6-35B-A3B
  • MoE(混合专家模型)
  • 总参数 35B,但每次只激活 ≈3B 参数 ([Progressive Robot][1])

这意味着:

模型

总参数

实际参与计算

27B

27B

27B(全用)

35B MoE

35B

≈3B(只用一小部分)

结论:

35B“看起来更大”,但每次思考其实更“小”
二、为什么27B反而更强? 1️⃣ Dense模型“思考更完整”
  • Dense:所有参数一起推理 → 信息整合更稳定
  • MoE:只调用部分专家 → 容易信息割裂 / 不一致

特别在这些任务上差距明显:

  • Agent任务
  • 长链推理
  • 多步骤coding

实测结果也印证:

  • Agentic:59.3 vs 51.5
  • Coding:70.6 vs 66.9
  • Overall:72 vs 70 ([BenchLM][2])

27B 全面领先

打开网易新闻 查看精彩图片

2️⃣ MoE有“路由损耗”(关键但容易被忽略)

MoE流程是:

输入 → 路由器 → 选专家 → 专家计算

问题在于:

  • 路由可能选错专家
  • 专家之间信息不共享
  • 不同token走不同路径 → 一致性下降

这就是为什么:

MoE理论上更强,但实际效果常打折
3️⃣ 27B这一代训练做得更激进

官方直接说了:

27B 在 coding benchmark 上甚至超过上一代 397B 模型 ([Qwen][3])

说明两件事:

  • 训练数据 / RL / agent能力 大幅优化
  • 已经进入“小模型打大模型”阶段
4️⃣ Benchmark本身偏向“稳定推理能力”

很多榜单(比如 SWE-bench、TerminalBench)考的是:

  • 连续决策能力
  • 逻辑一致性
  • 工程执行能力

这些恰恰是 Dense 的强项

而 MoE 更擅长:

  • 多样性
  • 覆盖知识面
  • 成本效率

但这些在 benchmark 里不加分

三、一个很直观的类比

你可以这样理解:

27B(Dense)

一个专家团队一起开会,每个人都参与决策
35B(MoE)
每次只叫 2–3 个专家来,其他人不参与

结果:

  • Dense:稳定、严谨
  • MoE:有时聪明,有时跑偏
四、什么时候35B反而更有价值?

虽然分数低,但它不是“差”,而是定位不同

✔ 35B更适合:

  • 上下文(262K+) ([Progressive Robot][1])
  • Agent系统(多轮调用
  • 成本敏感部署(≈3B推理成本)
  • 需要“速度+规模”的场景
五、总结一句话

27B赢在“每次都全力思考”,35B输在“每次只动用部分大脑”