打开网易新闻 查看精彩图片

全球最强编程模型,中国造。

作者丨吴海明

编辑丨梁丙鉴 马晓宁

你可以从同事.skill 的爆火中看到两种截然不同的时代情绪,其一固然是对 Markdown 文件“大变活人”这一魔幻现实的试探,而反面则是如今对模型能力的评价,已经离不开工作级任务的场景。

“AI 能不能替代程序员”的老生常谈之下,今天的真问题是,国产大模型能在多大程度上接管开发工作流。

这背后是一个被反复验证的痛点:当 AI Agent 被放进真实项目,它并没有想象中那么“能扛活”。它能开始任务,但执行过程反复中断,多轮对话后上下文丢失,结果前后不一致。面对非标准需求时,工具调用也频频失误。你一觉醒来,发现流程早已卡死,标准结局总是如此。

问题的根源不在 Agent 的外壳,而在底层大模型本身还缺乏稳定可靠的“执行力”和“决策力”。

4月7日,阿里云通义千问 Qwen3.6-Plus 正式上线,在 Terminal-Bench 2.0 编程测试中超越了 Claude Opus 4.5,拿下全球编程模型榜首。

但我们决定换一种更接近真实场景的方式测一次,不用单点的 Benchmark,而是用两套真实复杂任务,覆盖“决策”与“执行”两条能力轴,全面评估 Qwen 3.6-Plus 的智能体能力上限。

01

核心实测——“双线”考核:

复杂决策 × Agentic Coding

现实中高价值的工作级任务,往往是多因素、多步骤、有约束、有风险,和“一步到位”的 ChatBot 对模型有着完全不同的能力需求。因此,大模型从“聊天工具”变成真正的智能体,复杂决策能力是一个分水岭。

在本次测评中,我们选择智能体决策与智能体编程两个高难度、高价值场景,构建了双线考核体系,检验模型在真实复杂任务中的自主规划、动态决策与工程落地能力:

case1 教育改革试点方案设计:复杂规划与现实决策

我们采用具备主动执行能力的代表性智能体框架 OpenClaw 进行测试,在教育改革背景下要求模型设计贴近真实场景的复杂规划任务,从而系统评估模型在目标理解、任务拆解、路径规划、方案细化与执行决策等全流程环节中的表现。

这不是一道作文题,我们设计的任务难度远超常规:

代码块

某市教育局计划在 6 个月内,为 20 所公立中学试点部署一套“AI 学习助手”系统,帮助学生进行课后答疑、个性化练习和学习反馈。

已知条件如下:

- 总预算上限为 800 万元人民币

- 试点学校中,城区学校 8 所,县镇学校 12 所,数字化基础差异明显

- 部分教师担心 AI 会增加备课和管理负担

- 家长对于学生数据隐私、沉迷使用、以及答案依赖问题存在顾虑

- 教育局要求项目不能明显扩大不同地区、不同家庭背景学生之间的教育差距

- 项目必须在下学期开始前完成首轮部署,且不能额外长期新增大量编制

- 若试点效果良好,未来 2 年内将考虑扩大到全市 200 所学校

请你作为项目顾问,完成一份试点实施方案。你的回答至少需要包括:

1. 问题定义

2. 目标与约束拆解

3. 6 个月试点方案

4. 公平性与风险控制

5. 评估体系

6. 是否扩大到 200 所学校的决策标准

额外要求:

- 明确说明关键假设

- 至少提出 2 个备选方案,并解释推荐理由

- 体现短期可落地性与长期可扩展性的平衡

- 尽量给出可执行机制,而不是只讲原则

补充条件:试点开始 2 个月后,媒体报道某校学生过度依赖 AI 完成作业,引发家长争议;同时另有 3 所县镇学校反馈网络与终端条件不足,实际使用率远低于城区学校。请在原方案基础上动态调整你的策略。

任务要求模型输出:问题定义、目标约束拆解、6个月试点方案、公平性风险控制、评估体系、是否扩大的决策标准,以及要求至少2个备选方案并说明推荐理由。

这考验的不是文字生成能力,而是真正的“任务拆解与组织执行”能力。一般模型很容易输出一堆空洞的规划方案,且极难把控资源分配与具体任务拆解,看看 OpenClaw 在 Qwen3.6-Plus 模型下是怎么完成工作的:

1.复杂问题结构化拆解

把模糊需求快速转化为问题定义、目标分层、约束清单、预算分配、时间线、评估体系等完整框架,逻辑严密、层级清晰,全程无口号空话,体现专业级复杂决策与任务拆解水平。

2.多约束下精准资源平衡

在 800 万预算、6 个月周期、城乡差异、教师负担、公平底线、无新增编制等多重强约束下,给出可执行、可量化、可评审的落地方案,预算一分不差、资源向县镇倾斜,兼顾效率与公平。

3.动态风险应急与迭代决策

面对试点第 2 个月舆情危机 + 县镇设备网络不足双突发事件,模型快速给出应急响应、功能调整、预算内部调剂、部署重排,做到不超预算、不延期、闭环解决,展现真实智能体动态决策能力。

4.全周期规划与规模化扩展思维

Qwen3.6-Plus 不仅完成了 6 个月试点设计,还同步给出试点规模扩展至 200 所学校的 Go/No-Go 硬标准、三阶段扩展路径、成本优化机制,从架构、制度、人员、数据全方面预留接口,短期可落地、长期可扩展,思维闭环且专业。

可以看到,Qwen3.6-Plus 在本次政府级复杂决策任务中,交付了完成度极高的方案,这背后是高水平的目标理解、全链路规划、动态风险应对、多约束平衡能力,正是我们对智能体在面对复杂决策时所期待的。

打开网易新闻 查看精彩图片

case2 AI TODO Board 全流程开发:Coding 能力考核

如果说 case1 是考察复杂场景的决策能力,那么 case2 则侧重于 Qwen3.6-Plus 在 Coding 任务中的工程闭环水平。

我们采用开源智能编程工具 OpenCode 进行测试,重点考察模型是否具备从需求理解到完整项目交付的全链路工程实现能力。评估内容不仅包括最终项目是否可运行、功能是否完整有效、代码结构是否清晰合理,还覆盖模型在编程全流程中的关键能力,任务拆解、实现路径规划、阶段性决策、测试与调试、问题定位与修复,以及基于反馈持续迭代并收敛到可用结果的能力。


# Coding Evaluation Task

你是一个高级软件工程 Agent,请完成一个可运行的 **TODO** 项目,并体现完整闭环能力:需求理解、任务拆解、实现规划、编码、测试、修复、交付。

任务:开发一个 **AI TODO Board**,让用户通过自然语言创建 TODO,在看板中管理状态,并通过 AI 风格能力自动拆解子任务、识别优先级、提示风险和下一步动作。

技术要求:Next.js 15+ 或 React + Vite,TypeScript,Tailwind CSS,可使用 shadcn/ui 或 Radix UI,测试使用 Vitest / Jest + Testing Library,可使用 mock 数据,不要求真实后端。

功能要求:实现三列 TODO 看板 Todo、Doing、Done;每个 TODO 卡片至少包含标题、描述、优先级、截止时间、标签、子任务摘要、完成进度;支持状态流转,可拖拽,如不使用拖拽需提供合理替代交互。提供自然语言输入框,例如“明天下午前完成招聘首页改版,包含 Hero、岗位列表、FAQ,优先级高”,系统需自动提取标题、解析时间、推断优先级、生成 3–5 个子任务,并允许用户在提交前编辑。右侧提供 AI Assistant 面板,支持 TODO 拆解建议、风险提示、下一步建议、逾期提醒。需要支持搜索、按优先级筛选、仅看逾期、快速标记完成、空状态、加载态、错误态。

UI / UX 要求:暗色模式优先,现代、精致、未来感 SaaS 风格,有明显层级、留白、卡片质感和细微动效,桌面端完整可用,移动端基本可用,不能是脚手架默认后台风格。

你必须输出:1. 需求理解,2. 实现计划,3. 项目结构,4. 核心代码,5. 测试代码,6. 修复过程,7. 运行说明,8. 权衡与不足。

必须测试:自然语言解析函数、创建 TODO 流程、TODO 状态切换逻辑、筛选逻辑。

实现后继续修复并说明过程:移动端横向溢出,输入“明天”时时间解析不稳定,Done 列 TODO 很多时滚动体验差,筛选后状态切换导致列表显示异常;你需要说明如何定位问题、如何修改、如何验证修复成功。

你还将收到一张参考 UI 截图,请分析其布局、层级、配色、间距、组件关系,并高保真复刻该页面,说明哪些部分完全复刻,哪些部分做工程化折中,然后基于截图继续修改代码直到尽量接近。

不要只写思路,必须给出可运行代码、测试代码、修复后的最终实现。

这不是一个能靠蛮干硬生生“写”出来的任务。

开发一个 AI TODO Board,需实现三列看板(Todo、Doing、Done),支持自然语言创建 TODO 并自动提取标题、时间、优先级、子任务,还要提供 AI Assistant 面板进行拆解建议和风险提示,支持搜索、筛选,输出完整实现计划、项目结构、核心代码、测试代码、修复过程说明。

传统大模型在这种场景下,即使表面上能完成交付,也往往难以实际运行。但是 Qwen3.6-Plus 表现得像是一位非常老道的架构工程师和 UI 设计师。

1.全流程闭环开发,任务规划与实时进展可视化

项目启动阶段,Qwen3.6-Plus 首先进行了需求拆解,精准把握 AI TODO Board 开发的核心技术,还制定了包含 16 个步骤的清晰实现计划。从项目初始化、依赖安装,到核心功能开发、测试编写,再到问题修复,这套方案可以直接交给工业级软件工程团队去执行,而且每一步均以可视化进度条实时呈现进展。

开发过程中,模型严格遵循软件工程规范,像专业的开发团队一样,依次完成了从任务拆解到测试交付的全链路环节,不仅实现了测试用例全部通过,还针对移动端横向溢出、时间解析不稳定、滚动体验差等核心问题进行系统性修复,确保项目从原型到成品的平稳落地。

值得注意的是,在开发服务器启动、本地部署等环节 Qwen3.6-Plus 均一次成功,交付效率远超常规开发流程。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

2.代码迭代与精准返修,工程化能力拉满

在代码实现阶段,Qwen3.6-Plus 展现出扎实的技术功底与严谨的代码迭代逻辑。针对项目核心模块,模型完成了从组件设计到状态管理的全栈开发:

▪ 基于 Radix UI 与 shadcn/ui 搭建现代化 UI 组件库,打造沉浸式暗色 SaaS 风格界面;

▪ 开发自然语言解析器,实现中英文时间、优先级智能提取与子任务自动生成;

▪ 利用 Zustand 完成 TODO 状态管理,支持拖拽流转、搜索筛选、逾期提醒等全功能;

返修是软件工程不可避免的环节,能否精准定位问题所在进行针对性修改,再完成验证的闭环,是模型在工作级任务中会面对的真实考验。在 AI TODO Board 的开发中,Qwen3.6-Plus 也有着不俗的表现。

移动端横向溢出问题,通过调整容器宽度与布局属性解决,优化时间解析逻辑,统一使用 UTC 时间处理避免解析偏差,替换滚动组件提升 Done 列大数量场景的滚动体验,重构筛选逻辑消除状态切换后的显示异常……

每一次修复均配套新增测试用例验证,确保问题彻底解决且不引入新 bug。这些过程都是由模型自主完成,我看到的,只有开发日志里一行行清晰可追溯的记录。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.高保真 UI 复刻与功能全覆盖,交付质量达标

原生多模态能力使得 Qwen3.6-Plus 能严格参考 UI 截图完成高保真复刻,在布局层级、配色风格、组件交互上高度还原设计要求。

在功能层面,交付成果也完全覆盖需求。应用支持自然语言输入,可自动提取标题、解析时间,然后生成 3-5 个子任务且支持编辑;AI 助手面板提供拆解建议、风险提示等能力;搜索、优先级筛选、逾期查看等实用功能也逐一实现。最终交付的项目,可直接本地部署运行,界面与功能均达到预期交付标准。

打开网易新闻 查看精彩图片

4.极致测试与问题闭环,质量把控体系完善

测试环节是模型交付的核心亮点之一。Qwen3.6-Plus 针对核心模块编写了全覆盖测试用例,包括 23 个自然语言解析测试、14 个状态管理与流程测试,全面验证自然语言解析、TODO 创建、状态切换、筛选逻辑等核心功能的稳定性。

在修复环节,模型针对每一个暴露的问题均完成了 “定位 - 修改 - 验证” 的全流程,新增边缘测试用例确保修复效果的稳定性,最终实现项目零核心 bug、测试全通过的高质量交付状态。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

当然,测试案例也暴露了 Qwen 3.6-Plus 不稳定的一面。在实测中我们观察到了明显短板:

▪ 首字延迟(TTFT):免费预览版首字出现时间有时高达11秒,在需要快速反馈的场景下会破坏开发者心流

偶发性输出循环(Looping):在极高复杂度任务中,模型有时会陷入重复输出同一段内容的循环

API频率限制较严格:Rate Limit 在高频Agent自动化任务中容易触发,可能中断长流程执行

安全边界能力不足:在安全相关任务(权限管理、加密实现)上成功率仅为43.3%,不建议在涉及高安全级别的自动化流程中单独使用

但两项测试完成后,一个感受仍然很清晰,Qwen 3.6-Plus 好像一支完整的团队,在任务规划、代码迭代和问题精准修复上,表现出了工业级软件工程的交付水准。

02

Agentic Coding 的工程高地

Qwen 3.6-Plus 的特别之处在于,双线并行的格局首次在国产模型中出现。过往国产模型往往只在某一维度上突出,能写代码但决策弱,能规划但执行崩,但工业级 Agentic Coding 需要的恰恰是二者兼具。Qwen 3.6-Plus 做到了这一点,在编程智能体和复杂流程决策两条战线上同时逼近第一梯队:

▪ Terminal-Bench 2.0:61.6分,超越Claude Opus 4.5(59.3),在shell操作、文件管理、进程控制等硬核终端任务上,它是目前最强的模型之一;

▪ Claw-Eval:58.7分,极接近Claude Opus 4.5(59.6),在真实世界多步Agent任务中进入第一梯队;

▪ Claw-Eval:58.7分,极接近Claude Opus 4.5(59.6),在真实世界多步Agent任务中进入第一梯队;

▪ SWE-bench Verified:78.8%,处理大多数企业级Bug修复和代码重构已绰绰有余;

▪ 成本:输入¥2/M,输出¥12/M,约为Claude的1/10;

打开网易新闻 查看精彩图片

这意味着什么?

在 Terminal 操控和工具调用上的领先,使 Qwen 3.6-Plus 成为了当前最适合丢进 OpenClaw 这类 Agent 框架中“跑起来”的国产模型。不是辅助写代码,它真的能做到像你的 AI 开发搭档那样,驱动产品长出来。在 Coding 赛道已经成为一片红海的今天,Qwen 3.6-Plus 再一次让软件开发的门槛降了一截。

从被调用的工具到执行任务的参与者,当模型角色的这一转型越发成为各大厂商的共识,我们看到阿里做出了自己的选择。Qwen 3.6-Plus 的战略定位并非全能型选手,更像是专攻 Agentic Coding 这一垂直场景的作品。背后的原因不难理解,当基础模型的能力趋于同质化,能否在真实工程环境中自主完成任务已经成为了最重要的竞争高地。

03

模型层,走向参数效率之争

更值得注意之处在于,Qwen 3.6-Plus 在参数效率上表现出了显著的优势。横向对比,GLM-5、Kimi-K2.5 等模型的参数量均是其 2-3 倍。

用更少的参数实现更好的性能,这在大模型此前普遍以参数规模换智能水平的背景下,可以被视为一种全新的范式转移。

比起小模型的“妥协”,一个越来越无法忽视的视角是,大模型的商业化正在重新定义 AI 性能的标准。模型训练、推理一向以重投入的面目示人,也顺理成章地成为了大模型商业化的瓶颈,而更高的参数效率会让模型厂商在上述领域拥有宝贵的竞争力。

Benchmark 仍有意义,但今天单位成本下的有效智能更能说明问题。在当前的技术脉络中,参数效率,已经成为了模型规模化落地的钥匙。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。