打开网易新闻 查看精彩图片

自 AI 概念火热之后,要说每年过年最热闹的地方在哪里?知危觉得答案得是各个大厂的 AI 实验室和各个媒体编辑部了。

昨晚刚过完年,马年的第一天,AI 界的 “ 源神 ” Qwen3.5( 千问 3.5 )就突然发布,虽说之前已经有 Qwen3.5 的信息传出,心里已经做好了预期准备,但是仔细看了看这次的新模型特性,还是得感叹一句,不愧是源神啊!

作为开源界的扛把子,这次新发的 Qwen3.5-Plus 不仅在推理、编程、Agent 智能体等全方位基准评估中均表现优异,还在视觉理解能力的权威评测中斩获数项性能最佳,性能媲美 Gemini3-Pro 等一线闭源模型。

如果说性能提升是预期内的,那这次更新最令人吃惊的是其同等参数下的性能表现提升十分惊人。之前万亿参数的 Qwen3-max,在如今,被只有 4000 亿参数的 Qwen3.5-Plus 所超越。只用不到一半的参数,就能带来更强的性能,直接的影响就是大众在算力上的花费更低了。同等性能,Qwen3.5-Plus每百万 token 现在最低只要 8 毛钱。这比以性价比著称的 DeepSeek 还要便宜数倍。在杭州,一公斤白菜也就卖这价。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

一般来说,大语言模型界向来奉行 Scaling Law,即谁的参数大,谁的性能就可能更好,那么这次的千问 3.5 怎么就反其道而行之,参数变小了,性能反而提升了呢?

这就不得不提到千问大模型团队在语言模型架构上的不断精进。

我们思考一下过去几年 AI 界的情况,正是因为大家太过于遵守 Scaling Law,导致那些做模型的没怎么赚到钱。反而是老黄这个卖显卡的,市值一飞冲天,一度登顶全球市值第一。

参数暴涨带来的直接影响就是:我能训练得起,但是用不起了。这在应用落地上可不是啥好消息。所以,千问 3.5 就换了个思路,既然现在参数的边际效应逐渐递减,那么我们就想办法提升每个参数的性价比。

总的来说,千问 3.5 之所以能缩小参数,主要是这几方面的技术突破,涉及到技术方面的事情稍微有点枯燥,咱们就尽量短着点说。

首先是混合注意力机制。这个大家应该都听烂了,不管是训练还是推理,注意力机制所占据的计算量都是最大的,原因就是它需要让每个词和每个词之间都做( 点积 )计算,来算出词与词之间的关联度。所以,这种算法就有个大问题,当文本量越来越长之后,每多一个词,需要的计算量都是递增的,比如只有十个词的时候,你多一个词可能只要多算 10 次,但是当达到 10 万上下文时,你再加一个词,就得多算十万次了,这也是为什么语言模型这么难解决上下文长度的原因。而混合注意力机制,就是在标准注意力机制的基础上,引入了一种 “ 按需计算 ” 的动态策略,能根据语义的重要程度进行 “ 差异化处理 ”,如果我发现某个词不重要,比如 “ 我养了一只狗 ” 里面的 “ 只 ”,你把 “ 只 ” 说成 “ 条 ”、“ 个 ” 大家也能看懂,那我就不去和每个前文做计算,只计算它身边的少部分词,而重要的词,比如这句话里的 “ 狗 ”,你换成其它的 “ 猫 ”、“ 猪 ” 就完全变意思了,这就会去做全局计算,这样就能让效率和精度同时提升。

第二点就是比传统混合专家( MOE )更极致的稀疏架构,MOE 架构在 DeepSeek V3 那会就火过一阵,简单理解一下,这就好像把庞大的参数量,按照知识分类,分成不同的专家,这样就能通过减少激活的参数,加快推理速度。而千问 3.5 通过更加极致的专家分类,让整个 397B 参数的模型,最小只需要激活 17B,这计算量就一下减少了 20 多倍。

剩下的还有原生多 Token 预测,通过多同时生成几个词,加快推理的速度,以及 25 年刚拿了最佳论文奖的用于精确控制输出结果的门控机制之类的技术,这四项技术相辅相成,当它们同时作用于一个模型时,带来的效率跃迁是颠覆性的。想想,每次推理仅激活 17B,却可以实现与 GPT-5.2、Gemini-3-pro 同级的性能表现。与上一代超万亿 的Qwen3-Max 相比,Qwen3.5-Plus 还以 4000 亿参数实现了性能上的超越,部署显存占用更是降低 60% 。同时,推理吞吐量最高提升至 19 倍,推理效率大幅提升

打开网易新闻 查看精彩图片

总之,千问3.5通过这些技术突破,让模型尽量减少无用的计算,这样不仅能使用小参数获得更好的性能,还能大大减少部署模型对硬件的苛刻要求。

这些技术非常前沿,但对普通人来说,想要感知技术那实在是太难了。

那巧了不是,这次的千问 3.5 还有个非常 “ 好用 ” 的更新,除了这些架构上的新技术,这次的千问 3.5 在自身能力上,也是展现了团队对于未来趋势的判断,那就是“ 原生多模态 ”

和一般的语言模型通过文字标签来理解图片不同,原生多模态,是能直接看懂图像、视频、音频的。它们之间的差别犹如盲人摸象,一个只能看到局部,而原生多模态,则是能完完整整的绕着大象看。

之所以说它 “ 好用 ”,是因为有了原生多模态,你就不只能通过文字和 AI 聊天,你还能通过图像,更准确的让 AI 知道你的意思。

说得多不如上手一试,我们在第一时间拿到千问3.5的使用资格后也是快速的上手试了试,一上手我就给新模型来了个下马威,直接给它来一个洗车难题。

打开网易新闻 查看精彩图片

结果,回答还没出,这跳 Token 的速度就把我震惊到了。

打开网易新闻 查看精彩图片

这思考链 chua~chua~ 的,一行接一行的蹦出来,不愧是加持了四项架构黑科技的千问 3.5,而且,它不仅回答得快,这答的也好,在思考完毕后,简单直接的给出它最终的答案 ——开车过去

你看,这第一题就把其它某些模型给比下去了,这给了我极大的信心,秉承测不死就往死里测的精神,接下来的测试会直接上一个台阶。

首先,测试一下编程能力,我让千问 3.5 直接帮我写一个贪吃蛇的小游戏,问题一提出来,千问 3.5 就开始对任务进行快速拆解。

打开网易新闻 查看精彩图片

等思路捋清之后,这代码和之前一样,写得飞快,超长的上下文也是一次就让整个代码输出完成。

打开网易新闻 查看精彩图片

等它结束后,拿千问 3.5 给的代码去测试,果不其然,一次性成功,中间我没有给过任何的其它提示,代码编写出来的贪吃蛇游戏完整度也非常的高,这个任务从功能上来说,处理得非常完美。

打开网易新闻 查看精彩图片

但只有功能还不够,于是我又给它提出要求,让它做好看点,加上特效试试。

打开网易新闻 查看精彩图片

程序太长,这里就不展示所有代码,对于果,夸奖的话我不想多说,大家直接看动图。

打开网易新闻 查看精彩图片

之后我又测试了让它去做一个创新类的游戏,我告诉它,做一个坦克大战,但是肉鸽版!

打开网易新闻 查看精彩图片

千问 3.5 依旧是先思考思路,拆分任务。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

然后chua~chua~的用超长的token,把代码一口气写出来。

打开网易新闻 查看精彩图片

这是它完成的第一版游戏,可以说相当完善,而且非常好玩,坦克不仅有等级,而且每升一级都能选一个威能提升,要知道,这些都是我只说了一句话让它做到的。

打开网易新闻 查看精彩图片

而这,是我让它改进视觉后的效果。。。

打开网易新闻 查看精彩图片

中间我也仅仅只是说了八个字:让这个游戏好看点。

打开网易新闻 查看精彩图片

到这里,编程已经没什么好挑剔的了,但是,让它仅仅是编程可没用到任何多模态的能力,所以第二项,就是要试试它对图像的理解到底有多深!

首先,我让它根据这个图片来帮我找找茬。

打开网易新闻 查看精彩图片

在它短暂的思考过后,直接给出了 6 处不同的结论,其中有一处女孩的泳衣颜色居然还在思考后,自己给否定掉了,这真的有点像人在对比图像,然后再思考是不是了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不过最后从答案上来看,它还是有两处错误的,一个是男人的头发,一个是那女孩的蝴蝶结没找到,但是大家要注意,我给的是一张图片而不是两张,它并不能直接去对比两幅图的像素,它是需要理解这个图是分上下的,然后理解上下还有很多相似的图像,然后再从相似的图像中找到不对的画面,这对于一个语言模型来说,这个结果已经够惊人了。

打开网易新闻 查看精彩图片

之后我又给了它一张图片,这次它不仅能知道图片里是什么,甚至还能理解反光,最离谱的是,它居然从细节信息中,读出了这张图片可能是 AI 生成的,而事实也确实如此,只能说它的图片识别能力,至少在识别 AI 上,已经超越大部分人类了!

打开网易新闻 查看精彩图片

图像,编码似乎都不能难到它,接下来,我得给它一个终极考验,让它看视频。看视频和图片的难度可是天差地别,图片只有一张,视频可是一连串的,而且视频还有分镜、角度等因素,千问 3.5 想要读懂视频,必须对每个镜头都能理解到位才行。

首先来个简单的,我让它看看这个视频中,这个帅气的男人打球技术如何。

结果让我吃惊,它先从整体概况给出答案,然后再分析技术细节分析了战术策略,还知道最后扣篮了。甚至还给出了面对这种对手要怎么改进,这完全就像一个篮球教练在看着你的动作一步步的给你分析,最后给你指导。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

看它完成的这么棒,我只能继续加大力度,这次我给它来了个画中画!这是一个小猫在追电脑屏幕里的元素的视频,千问 3.5 要理解它,首先得分辨屏幕和现实。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

结果只能说完全难不倒它!!

它不仅知道小猫在屏幕前,它甚至还知道里面的游戏名字叫什么,然后分析画面,为什么小猫会抓屏幕。可以说它完全知道怎么回事。

视频完全拿捏,那如果让千问 3.5 去根据视频要求来编程呢?

我录制了一段访问某品牌网站的视频。

打开网易新闻 查看精彩图片

我告诉它,让它先看视频,分析一下视频的内容是什么,然后,直接让它根据视频内容,编写出类似的网页。

中间只是提醒它一次,把没有的图片,用色块表示。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

它的编程速度是这样的。

打开网易新闻 查看精彩图片

而这,就是它给的结果。

打开网易新闻 查看精彩图片

不能说一模一样吧,也至少能说从功能上,几乎没有差别。

随后我又测试了一些其它的视频画面。

比如奇怪的摇滚猫。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

到现在我其实已经对它的能力折服了,不过最后,我还得再测试一下工作场景,所以我给了它一段动画软件的视频。让它告诉我这里的是什么内容。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

结果也在意料之中,经过之前的洗礼,我已经见怪不怪了,千问 3.5 很好的看出了这是什么软件,视频在做什么内容,也基本把画面中所有的文字都读懂了,可以说,它完全的理解了这个视频。

那么,这次的测试到这里就结束了,不知道大家意识到没有,在前文的多模态那部分,我就提到了一点,多模态的部分代表着千问他们对未来趋势的判断。

所以这就有个问题。

抛开价格战的喧嚣,为什么,阿里要死磕 “ 以小胜大 ” 和 “ 原生多模态 ”?

答案很可能就是:智能体。

前段时间,一直改名一直火的 AI Agent OpenClaw,相信关注 AI 行业的人应该都知道。它是一个通过大语言模型自动帮你办公的助手,只需要告诉它你要干什么,它直接就能在后台操作电脑把你想做的事情做完,而要实现它,那么多模态的能力是必不可少的, 它必须得从画面中理解现在的电脑在干什么,然后才能指导自己去做。

但这就导致了非常重要的痛点难题:一个是如果我考虑隐私想自己部署,能力强的模型我用不起,能力弱的又没有用,而如果直接调用API,假如任务卡住的话,干一个活,一晚上几百美元就没了。。。

在国内,吐槽它太耗 Token 的人也不少。

而千问 3.5 可能是这些问题目前的最优解,既开源,API 也便宜,想自己搭也行,给了大家自由的空间。

在 AI 亟需应用落地的时代,盲目的追求“大”语言模型可能越来越不是一个明智的选择,而像千问 3.5 这样,不仅针对真实的需求做出对应的改进,而且还坚持开源,说实话,就算是我想找茬,我也找不出要说它不好的点在哪。

可能唯一要吐槽的点就在于,这么好的模型,为什么我今年才用到!