两周前千问宣布30亿请客,当时还有人觉得这又是一个大厂撒钱拉新的老故事,热闹完就散了。
昨天吴嘉披露的数据证明很多人低估了这件事的烈度:首日1500万单,是预估的15倍。6天41亿次"千问帮我",1.2亿笔订单,近半来自县城,DAU也翻了几倍。因为用户参与远超预期,阿里的投入也远超30亿。
就在除夕当天,阿里开源大模型千问Qwen3.5-Plus,实现底层模型架构革新。

一、
过去几年大模型的主旋律是堆参数、堆数据、堆算力。Transformer自2017年以来,所有人都在同一个框架里做优化:更好的训练数据、更聪明的RLHF、更长的上下文窗口,核心架构几乎没变过。Mamba、RWKV等挑战者发了几百篇论文,但行业共识很残酷:要替代Transformer得在多个规模上(从十亿到千亿级)连续证明自己,绝大多数创新卡在了第一关。
实验室里跑得漂亮,一放大就崩。所以过去两年,真正进入生产环境的架构创新屈指可数。

二、
Qwen3.5这次更新做了四件硬事:
第一,改了注意力机制。以前每层都做全量计算,文本越长越卡。现在75%的层用线性注意力,25%保留标准注意力。该精读的精读,该略读的略读;
第二,MoE做到极致。397B参数,每次只用17B,不到5%的算力调动全部知识;
第三,提升推理速度。原生多Token预测,32K上下文吞吐量提升8.6倍,256K直接拉满19倍;
第四,更大规模的预训练跑稳了。小模型跑通不算数,大规模训练不崩才是真本事。
结果是API价格降到了每百万Token 0.8元,同等性能的Gemini 3 Pro是它的18倍。

三、
原生多模态。
行业里号称多模态的模型一大把,但大部分是拼装货:先训好语言模型,再外挂一个视觉模块,中间靠适配层勉强对齐。就像给一个盲人戴上翻译眼镜,他能知道面前有什么,但看到的和想到的之间总隔着一层翻译。更麻烦的是,很多模型视觉能力越强,语言能力反而降智。
Qwen3.5的做法是从第一天就让模型同时学看和学说。文本和图像在同一个参数空间里融合,没有中间商。更难得的是,加入视觉数据后训练速度几乎没受影响,和纯文本训练持平。结果是以不到40%的参数量在多项视觉评测中拿到最佳,大模型真正张开了眼睛。

四、
回看阿里这个春节档:一手是千问App用远超30亿的请客让几千万人学会"有事找AI",另一手是Qwen3.5用架构革新把效率天花板抬高一个量级——当几千万人同时涌进来喊"千问帮我",你需要一个既跑得快又足够便宜的模型在后面接着。
Attention或许还是需要的,但All You Need的时代,正在结束。

打开网易新闻 查看精彩图片