实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%|qwen|编程|跑酷游戏

智东西4月23日报道，昨晚，阿里通义千问团队宣布开源Qwen3.6-27B——一款270亿参数的稠密多模态模型，支持思考与非思考模式。

与阿里上一代开源模型Qwen3.5-397B-A17B相比，Qwen3.6-27B以1/15的参数规模，在SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0以及SkillsBench上实现了反超，其编程能力提升明显，同时还具备较强的文本和多模态推理能力。

与相似尺寸的Gemma 4-31B模型对比，Qwen3.6-27B在大部分维度上，展现出较大领先优势。

随着Qwen3.6-27B的发布，阿里称Qwen3.6系列已完整发布，包括开源模型Qwen3.6-35B-A3B和闭源模型Qwen3.6-Plus、Qwen3.6-Max-Preview。

阿里云百炼平台上，现在已经可以看到Qwen3.6-27B的价格，每百万Token输入价格3元，输出价格18元。由于Qwen3.6-27B是稠密模型，价格并不便宜。

Qwen3.6-27B现已上线Qwen Studio，并以开源权重形式发布于Hugging Face和ModelScope，阿里云百炼API即将上线，届时将支持preserve_thinking功能以适配智能体任务。该模型也可接入OpenClaw、Claude Code、Qwen Code等主流第三方编程助手。

体验地址：
https://chat.qwen.ai/

开源地址：
https://huggingface.co/Qwen/Qwen3.6-27B
https://modelscope.cn/models/Qwen/Qwen3.6-27B

一、编程能力：界面美观、功能完备，复杂需求一次到位

官方对比了Qwen3.6-27B和Qwen3.5-397B-A17B，在编程基准上，Qwen3.6-27B在多方面领先：SWE-bench Verified（77.2 vs. 76.2）、SWE-bench Pro（53.5 vs. 50.9）、Terminal-Bench 2.0（59.3 vs. 52.5）以及SkillsBench（48.2 vs. 30.0）。在推理任务上，Qwen3.6-27B 在GPQA Diamond上取得了87.8的成绩，略次于Qwen3.5-397B-A17B的88.4。

为直观验证Qwen3.6-27B编程能力，智东西进行了如下的几个测试。

首先，我们先让它做了一个跑酷小游戏，测试其编程和前端能力，要求满足角色动作、关卡要素、道具系统、UI设计等多维度约束。

它用时四分钟左右，写完了1200多行代码。从实测结果来看，游戏设计与前端实现上，Qwen3.6-27B基本还原了提示词中列举的全部核心要素：玩家的跳跃、二段跳等均已实现，添加了无人机、针刺等障碍物，能量电池、金币、磁铁等均可拾取。美术风格符合设定，UI层完整展示了血量、分数、速度、距离等指标，游戏可玩性强。

但细节层面仍存在一些小问题，针刺悬浮在天上有点怪；吃到电池后，没有能量条显示；撞到箱子，就自动过去了，没有扣除血量。

另外，我们还让Qwen3.6-27B制作了个人记账应用，考察的是模型应用开发能力和对闭环设计的理解，包括统计逻辑怎么算、数据怎么持久化、异常输入怎么拦截，比写一个静态页面要复杂得多。

在应用开发上，Qwen3.6-27B的表现相对稳健。生成的应用完整实现了记录的增删改查、按月份筛选、总收入/总支出/结余的统计以及近7天收支趋势图表，刷新页面后数据没有丢失，说明localStorage持久化已正确实现。

唯一的小Bug是刷新页面后，7日收支柱状图一度不显示，再记一笔账后恢复，属于“初始渲染时机”问题。模型在异步状态初始化的顺序上，没处理到位。从界面上看，这个记账应用视觉设计较为简约，是一套偏实用向的标准控件组合。业务逻辑维度上，它把一个日常工具该有的数据流、统计逻辑与异常处理都串起来了，对于应用开发全流程的理解比较清晰。

之后，我们还让它做了个新闻网站前端设计，看起来还是有模有样的。