大家好,我是冷逸。
今天除夕夜,咱们继续肝呀。
谁叫阿里又整了大活呢,刚刚他们开源了全新一代模型千问3.5(Qwen3.5-Plus),性能媲美Gemini 3 Pro、GPT-5.2等顶级闭源模型,登顶全球最强开源大模型。
这次,千问3.5带来了全新的架构,用上了他们自研的门控技术(在去年斩获了NeurIPS最佳论文)。所以仅用397B参数(激活参数17B)就超过了万亿参数的Qwen3-Max,而且解码吞吐量暴增19倍。
当然,作为打工人,最关心的还是价格。千问3.5,上下文提升至1M,每百万Token输入只有0.8元,不到GPT 5.2的1/15、Gemini 3 Pro的1/18。
而且,它也是目前国内少有的,支持视觉理解的原生多模态模型。
因为它是在视觉和文本Token的混合数据上进行预训练的,让张开“眼睛”的千问3.5学会了更密集的世界知识和推理逻辑。
目前,在千问APP中已经可以免费体验。阿里云百炼,也上线了千问3.5的API服务。
一手实测
模型上线后,第一时间给大家带来了实测效果。
1)推理:AI智力题
先来第一道,最近火出圈的「洗车难题」。
我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?
千问3.5答对了,而且还知道我在调侃它,“除非你打算把车拆了扛过去,或者叫拖车(那也太夸张了),否则只能把车开过去才能洗哦!”
有点意思,这个逻辑推理能力我似乎只在Gemini 3 Pro上见过。没想到,也有国产模型这么聪明了。
再来一个问题。
如何理解“但丁真不会说中国话,但丁真会说中国话“?
这个问题,涉及中文分词的语言理解。我在最近几款新模型中都测过,只有GLM-5回答准确。
现在,千问3.5也能答对了。分词结构拆得非常准确。
而且,它还给我做了详细的语言学科普,做了一些类举。
不得不说,这逻辑推理能力,啊。
真的,我感觉就好像在测Gemini 3 Pro一样。千问3.5的基模能力属实有点强了。
2)3D:逆向魔方
逆向魔方这个Case,我测过很多模型。
提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.
中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。目前能跑出来的,只有Gemini 3 Pro、Claude Opus 4.6、GLM-5、M2.5、Seed 2.0,以及今天的千问3.5。
但千问3.5有一点不一样的是,它的UI看起来就很高级、养眼。
3)前端:信息图
既然审美在线,那我们就来测一下它写前端的能力。
先来一个文生代码Case。老规矩,上我们的信息图,一图了解千问3.5。
整个前端设计非常好看,美在“克制”与“冲击力”的平衡。没有花哨的动画或杂乱的元素,而是通过严谨的网格、高对比度的色彩、巨大的排版,成功传递千问3.5的信息。
这句话,也不是我说的,而是我截图给千问3.5,让它来评的。
嗯,属实AI工作流闭环了。
用它设计的产品页面,也是超级炫酷。
我把完整的Prompt放在这里了。
提示词:
# Role
你是一位世界顶级的UI/UX设计师及前端开发专家,擅长制作Apple/OPPO发布会级别的产品落地页。你的特长是将枯燥的文本转化为具有强视觉冲击力的“杂志风格(Magazine Layout)”数据可视化网页。
# Task
请阅读我提供的【原始内容】,提炼核心卖点和数据,编写一个单页面的 HTML 文件。
# 原始内容
"""
{我们的新款牙刷电机转速很快,达到了每分钟42000次。电池也很耐用,充一次电能用60天。而且很静音,只有45分贝。防水等级是IPX7。}
"""
# Design Requirements (Strictly Follow)
请严格遵循以下设计规范,复刻类似“ColorOS”或高端科技产品的暗色系宣传页风格:
1. **视觉框架 (Layout & Theme):**
- **主题:** 极简暗黑模式 (Deep Dark Theme)。背景使用纯黑 () 或 极深灰 ()。
- **布局:** 采用 Bento Grid(便当盒/网格卡片)布局。将不同的卖点封装在独立的圆角卡片中。
- **质感:** 卡片背景使用深灰 (e.g., ),带有极细微的边框 (Border) 和 柔和的辉光 (Glow),营造悬浮感和科技感。
2. **字体排印 (Typography - CRITICAL):**
- **层级对比:** 必须制造极端的字体大小对比。
- **核心数据:** 使用超大号字体(如 `text-6xl` 到 `text-9xl`)展示数字(例如 "100万次", "72h")。数字应当是页面的视觉锚点。
- **标题:** 中文标题使用大号粗体 (Bold/Black),字重饱满。
- **装饰文本:** 英文说明或次要信息使用极小号字体 (text-xs, tracking-widest),全大写,作为装饰元素,形成疏密对比。
3. **色彩体系 (Color System):**
- **高亮色:** 选取一种高饱和度的霓虹色作为主色(如:赛博绿 、电光蓝 或 活力橙)。
- **渐变用法:** 仅在图标背景、进度条或文字高亮处使用“单色透明度渐变”(例如从 Green-500 到 Transparent),保持画面纯净,禁止使用杂乱的多色渐变。
4. **视觉元素 (Visual Elements):**
- **图标:** 使用 FontAwesome 或 SVG 绘制简洁的“勾线风格(Line Art)”图标。不要使用 Emoji。
- **装饰:** 在卡片背景中加入低透明度的科技线条、网格或波形图作为底纹。
5. **技术栈 (Tech Stack):**
- 使用单个 HTML 文件。
- 必须引入 **Tailwind CSS** (通过 CDN)。
- 必须引入 **FontAwesome** (通过 CDN) 用于图标。
- 布局必须是响应式的 (Mobile First),但在 PC 端呈现最佳的杂志排版效果。
# Content Processing Strategy
- 不要照搬原文。请先分析内容,提炼出 3-5 个“核心数字”或“关键短语”。
- 将每个关键点转化为一个可视化的数据卡片。
- 主标题要有震撼力。# Output
直接输出完整的 HTML 代码,不需要解释。
4)前端:视觉理解
这个模型具备极强的视觉理解能力,而且是原生就具备。
接那下来,我们实测一个图生代码的Case。
提示词:理解这张图的原理,然后设计一个《流浪地球3》主题的行星发动机的演示网页。
它先拆解了这个“径向分布式聚变推进系统”的运行原理。
然后,设计了一个演示网页。
启动引擎,就可以模拟能量从中心产生、流经管道,最后点亮外环的全过程。
5)网页复刻
阿里在海外有一个MuleRun Agent,可以用一句话搓Agent,搓出来的Agent可以分享,可以赚钱。这个产品一直在悄悄的火。
我截了张界面给千问3.5,什么需求都没有写,就一句话:
请参考该图设计一个名为“Woyin Agent”的Web应用。
它直接把MuleRun网站给复刻出来了。
哈哈,Woyin Agent,有点意思。
布局、色彩、UI组件都挺还原的,直接给我整了一个Woyin Agent Web应用。
6)写作
除了推理、Coding,它的写作能力也很惊艳。
以前写稿怕逻辑不通,现在千问3.5的指令遵循得分76.5刷新纪录。你说啥它懂啥,拒绝“人工智障”。✍️
支持201种语言,跨境文案一键生成,小语种编码效率提升 60%,出海党狂喜!
最绝的是逻辑推理,写深度分析不再胡言乱语,MMLU-Pro得分87.8,硬刚GPT-5.2不落下风。
无论是写代码还是写文章,它都游刃有余。
加上原生多模态,丢张图就能写解说,丢个2小时视频直接出摘要。它还能自主操作电脑整理素材,写稿前搜集资料都不用动手了,Agent能力让写作流程全自动化。
不用问,上面这句话是千问3.5写的。
包括,今天文章的标题,也是千问3.5帮我取的。
实测下来,千问3.5是我认为真·Gemini 3 Pro级别的国产模型。
逻辑推理、世界知识、视觉理解和Coding能力,都完全媲美Gemini 3 Pro,这不是对标,而是对齐。
激活参数仅17B,总参数397B。与上一代万亿参数的旗舰模型Qwen3-Max相比,部署成本直降60%,推理速度飙升8倍。
当大家还在内卷“跑分”时,千问3.5已经将竞争带到了下一个问题:谁的模型更好用、更实用、更多人用得起。
除夕夜,“源神”来袭。
这份新年礼物,当得起“炸场”二字。