2026年刚开始,一个叫OpenClaw的开源项目就火了起来,它在GitHub上星星数涨到了20万,海外的开发者都抢着下载里面的Agent技能包,一天就有几千次下载,国内有个叫“水产市场”的平台也跟着热闹起来,三天内被下载了3300次,不过这个平台其实只是个工具货架,把GitHub上的东西打包放上去,用户点一下就能用,不用自己重新写代码。

打开网易新闻 查看精彩图片

就在大家关注OpenClaw的时候,一个没怎么宣传的模型悄悄爬上全球调用榜第三位,它叫Step 3.5 Flash,由阶跃星辰推出,从2月26日开始,它单日排名只落后于GPT-4o和Claude 3.5,关键的是,这个模型既没有进入OpenClaw首页推荐,也没有找其他机构合作推广,全靠开发者自己去试用、使用并转发。

打开网易新闻 查看精彩图片

这件事有点反常,一般新模型发布后,团队都会大力推广,发新闻稿、做直播、找大V合作,但阶跃没有这么做,有人去Reddit的r/LocalLLaMA社区提问,他们直接派了11个人,包括CEO、CTO和首席科学家,当场开了一个问答会,有人问到工具调用总崩溃的问题,还有人揪着无限循环漏洞不放,他们没有回避,CTO朱亦博当场承认,早期只测试了数学和编程部分,工具链确实没顾得上,是经验不够造成的。

打开网易新闻 查看精彩图片

最让人意外的是他们的参数设计,现在主流大模型动不动就超过230B,4-bit量化后显存轻松突破128GB,普通机器根本承受不住,要么降低到3-bit牺牲精度,要么依赖硬盘交换数据,速度慢得就像卡碟,阶跃偏偏不这么做,他们把模型控制在196B左右,采用MoE结构,刚好处在“4-bit加上256K上下文等于128GB内存”的临界点,他们这样做的原因在于,CTO自己买了一台128GB的Mac Pro,首席科学家配备了128GB的AMD工作站,每天都在上面运行模型,就是为了验证一个事实:本地能够运行,才是真正可用的。

海外用户留言说,这是唯一能在笔记本上跑满256K上下文的模型,这不是吹的,是真的能用,以前的模型再强,你下载回来发现显存不够,只能删掉重来,现在这个模型插上就能跑,连调试时间都省了一小时。

打开网易新闻 查看精彩图片

AI的发展带来了变化,过去聊天机器人每秒处理20-30个token就够用,用户看到文字逐字出现,多等一会儿也没关系,现在的需求转向Agent模式,用户把任务直接交给它,比如问“文件处理好了吗”,如果响应慢了就会被放弃,速度不再是加分项,而是关键因素,阶跃公司也明确区分:L1负责对话,L2进行推理,L3执行任务,这三个阶段不能混淆,用对话模型硬撑Agent的工作,只会浪费计算资源在无效操作上。

他们承认自己存在缺陷,比如知识遗忘问题,公开解释是因为对齐训练中加了太多约束,模型被限制在一个小知识圈里出不来,还贴出了修复计划,准备用强化学习训练来控制推理长度减少死循环,更有趣的是,有开发者看完直接留言说帮他们写llama.cpp的自动解析器来解决工具调用卡顿的问题,这种事情以前很少发生。

这其实反映了思路的不同,美国公司习惯堆算力,觉得越大越好,而阶跃的做法正相反,在算力有限的情况下,优先考虑能不能在主流开发设备上运行,这让人想起华为做芯片的思路,不盲目追求制程,而是先保证能用、能存活下来,真正的门槛可能不在数据或算力,而是你愿不愿意为了用户,自己先掏钱买一台128G内存的电脑试试。

有人问这个模型是不是特别神奇,其实它没有那么神秘,就是设计得比较实在,参数数量刚刚好,部署起来不算复杂也不简单,遇到问题会及时处理不拖延,开发者做这个模型的初衷,从来都不是追求最强大的性能,而是希望它能真正派上用场。