大家好,我是冷逸。

最近阿里千问的节奏,已经不能用“高强度更新”来形容了,更像是“腹泻式发布”。

想问下阿里的小伙伴,你们是不是把整个Qwen团队都蒸馏成了同事.skill啊,不然怎么做到一天发一个模型的?

你看这节奏:

  • 3月30日,发布全模态模型Qwen3.5-Omni,直接拿下215项SOTA;

  • 4月1日,发布图像模型Wan2.7-Image,据我身边不少朋友实测,超长文字渲染能力离谱地强;

  • 4月2日,发布基座大模型Qwen3.6-Plus,比3.5又拉开了一截;

  • 4月3日,又掏出Wan2.7-Video,一句话就能P视频。

打开网易新闻 查看精彩图片

真的,如果我有5个冷逸.skill,我一定把这些模型全都测一遍

可惜,目前我还没完成自我炼化,只有一个真人冷逸。所以今天,我们重点测一下Qwen3.6-Plus

先快速认识一下这个模型:

  • 100M上下文窗口

  • 重点强化Agentic Coding

  • 原生多模态(支持文本/图片/视频输入)

  • 原生联网+Function Calling,可调用外部工具,适配龙虾

  • API价格:输入¥2/百万tokens,输出¥12/百万tokens,不到Claude的1/18

  • 兼容OpenAI和Anthropic协议,Claude Code、Codex和OpenClaw都能用

打开网易新闻 查看精彩图片

顺带一提,这张信息图,也是Qwen3.6-Plus直接生成的。

打开网易新闻 查看精彩图片

一手实测

这次,我主要测了3大场景6个Case,交叉使用Claude Code、OpenClaw、cherry studio、chat.qwen.ai来综合评估这个模型。

1)视觉编程

先来个简单的。

我给了Qwen3.6-Plus一张学生书包图片,让它生成商品网页。

Prompt:请为这款学生书包设计一个精致的图文发布网页,目标人群是6-15岁的中小学生。

打开网易新闻 查看精彩图片

出来的页面还挺像那么回事。

打开网易新闻 查看精彩图片

整体主色调是奶油白 + 暖灰,和书包本身的米白色呼应。视觉风格是典型的日系极简风(Minimalist & Clean)。

既保留了学生用品的亲和力,又不会显得廉价。

能看出,这个模型对视觉内容的理解还是比较在线的。

于是我决定给它加点难度。我喂了一整个文件夹模特照片,让它生成一个摄影师作品网站。

Prompt:我是拍模特广告的摄影师,我的工作室叫「小逸摄影」,文件夹 D:\Vibe Coding\Qwen3.6-plus\模特图片 放了一些模特图片,给我生成一个高级审美、大师水准的摄影师作品网站,用上文件夹里的图片并配上精美的讲解。

成品出来的时候,我第一反应是:有点惊艳。

整体是深色主题+金色点缀+优雅字体,整个气质看起来像那种电影节摄影展网站。

而且细节也没偷懒:

  • 点击图片灯箱放大

  • 页面滚动渐显动画

  • 响应式设计(手机/平板自适应)

但真正让我意外的,是它的文案能力,我挑几张给大家看下。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

真的,这种一看就很高级,很舒服。

很多模型做网页有个通病:「UI很好看,但文案像实习生写的。

但Qwen3.6-Plus这次,从Logo到Slogan,以及小字解释,它写的文案,我几乎挑不出什么毛病。

Vibe Coding真正进入生产场景,多模态能力是刚需。目前全球既擅长Coding又具备视觉理解能力的模型,其实没几家。

从我的实测来看,Qwen3.6-Plus在视觉编程这一块,是合格的。

2)视觉理解&推理

接着,我测了一个稍微变态一点的题。

一张成都地铁线路图。

打开网易新闻 查看精彩图片

问题是:我在二仙桥,如果7号线瘫痪,我去火车南站一共有多少条路线?最少的换乘路线是哪条?

这题其实挺难的,模型思考了128秒才回答我。

打开网易新闻 查看精彩图片

我原本以为它会翻车,结果却答对了。

打开网易新闻 查看精彩图片

接着我又测了一道题,把Qwen3.6-Plus的视觉benchmark表现发过去,问它Qwen3.6究竟强在哪里。

打开网易新闻 查看精彩图片

答案:

打开网易新闻 查看精彩图片

现在,再回过头来看这张benchmark,一下子就懂了。

这说明什么?

说明这个模型已经不只是看图识物、OCR文字识别,而是能结合视觉理解、路径推理、信息定位,来完成复杂任务。

当模型不再停留在“看懂图片”,而是开始图表解析、UI理解、文档理解、细粒度定位……那它就已经不是一个“视觉模型”,而是开始向多模态智能体进化

而Qwen3.6-Plus,正是阿里发布的第二款原生多模态基座模型。

3)Agentic任务

最后,我重点测了一件事情:Agentic能力+长程任务

第一个case,是我前几天给大家介绍过的自动写公众号神器。

我的需求是:

给我做一个“沃垠AI写作神器”的全功能网站,直接打开html主页就能运行。


功能要求:
1、有三个核心功能:正文生成、标题摘要生成(先生成正文后,再根据正文来生成标题和摘要)、封面生成。正文、标题摘要接同一个模型,图片接另外一个模型。
2、主界面有一个输入会话框,给到示例模板“帮我写一篇公众号文章,主题是xx,字数xx,内容要点有:1.xx,2.xx……”,用户输入内容主题和写作要求后,开始调用大模型进行写作。
3、输入会话框设计有“联网”功能,支持用户手动打开和关闭联网功能。
4、输入会话框还设计有风格1、风格2等可选的写作风格模板。目前只有一个“风格1:科技媒体评论”,风格控制Prompt见本地文件“风格1:科技媒体评论.txt”。
5、写作和生图均支持用户自行调用大模型。调用接口设计成可视化窗口,用户只需要输入模型url、模型key和模型名字,就可以使用。
5、先写正文,写完正文后,再批量出一批标题和摘要,供用户选择。
6、最后,再根据本文的核心内容提炼2-3个关键内容点,并生成封面图片的文生图prompt,统一尺寸比例2.35:1,用户选定某个prompt后,调用生图模型一键生成封面图片。
7、正文和标题摘要,都设计有复制按钮,支持用户一键复制文本。封面图片,设计有下载按钮,支持用户下载到本地。

新版「沃垠AI写作神器」,不需要做本地配置,直接打开HTML,然后接入API就能用。

它可以自由加载你训练的写作风格(结构化的提示词),只需要点“写作风格”旁的+号,它会自动解析文件内容(文件名统一为“风格xxx.txt”),并添加到下拉列表。后面,我们只需要点一下就能使用。

打开网易新闻 查看精彩图片

需要新版本的朋友,直接后台回复【写作】,就能领走这个HTML。

这次开发,我只迭代了5个版本,整个过程半小时搞定,直接交付2000+行可运行代码。

比我上次的开发效率,至少提升了两倍。

接着,我又用搜索+office+skills任务测了一轮Qwen3.6-Plus

需求是,联网调研张雪机车的发展轨迹,生成5000字Word报告,然后调用skills把报告做成知识网站。

Prompt:联网搜索、调研张雪机车的发展轨迹,尽量从权威信源获取信息。首先,给我创建一份5000字的word调研报告。然后,调用Knowledge Site Creator Skills给这份报告创建一个知识学习网站,页面高级审美。

期间,模型调用了web search、python-docx、Claude skills等工具。我数了一下,工具调用超过50次。

先看word报告。

打开网易新闻 查看精彩图片

信息完整度还是不错的。老实说,我一直想系统了解张雪机车,这份报告对我来说挺有价值。

然后再看它生成的知识网站。

我第一眼看到的时候,直接一句「卧槽」。

这UI和内容质量,都比我预期高很多。

整体跑下来,我的结论很简单:Qwen3.6-Plus的Agentic能力,明显被低估了。

当一个模型同时拥有:

  • 100M上下文

  • 原生多模态

  • 强工具调用能力

那它在Agentic Coding和Agentic Work领域,都是非常有想象空间的。

打开网易新闻 查看精彩图片

整体体验下来,我觉得Qwen3.6-Plus在文本推理、视觉理解、代码能力、长程任务和Agentic能力上都还挺强的。

难怪它能够在多个benchmark上拉开Qwen3.5一大截。

打开网易新闻 查看精彩图片

而这个价格却不到Claude的1/18。

这就有点像什么?

就好像一个演员,明明是小李子的演技,却拿着李洪绸的片酬,然后天天坐在片场看隔壁李现的表演。

更离谱的是,这个李洪绸,还时不时把自己的作品免费上传B站。

这对吗?

说实话,我不知道。

但我在他们官方文章里看到一句话:在未来不久,我们还将开源更小规模的模型版本,以此重申我们对技术普惠与社区驱动创新的坚定承诺。

看完后,我就觉得:源神牛逼