国产模型跑在128G内存上，OpenAI没料到这波反击，用脚投票选了它|上下文|内存|编程|调用|阶跃

2026年刚开始，一个叫OpenClaw的开源项目就火了起来，它在GitHub上星星数涨到了20万，海外的开发者都抢着下载里面的Agent技能包，一天就有几千次下载，国内有个叫“水产市场”的平台也跟着热闹起来，三天内被下载了3300次，不过这个平台其实只是个工具货架，把GitHub上的东西打包放上去，用户点一下就能用，不用自己重新写代码。

就在大家关注OpenClaw的时候，一个没怎么宣传的模型悄悄爬上全球调用榜第三位，它叫Step 3.5 Flash，由阶跃星辰推出，从2月26日开始，它单日排名只落后于GPT-4o和Claude 3.5，关键的是，这个模型既没有进入OpenClaw首页推荐，也没有找其他机构合作推广，全靠开发者自己去试用、使用并转发。

这件事有点反常，一般新模型发布后，团队都会大力推广，发新闻稿、做直播、找大V合作，但阶跃没有这么做，有人去Reddit的r/LocalLLaMA社区提问，他们直接派了11个人，包括CEO、CTO和首席科学家，当场开了一个问答会，有人问到工具调用总崩溃的问题，还有人揪着无限循环漏洞不放，他们没有回避，CTO朱亦博当场承认，早期只测试了数学和编程部分，工具链确实没顾得上，是经验不够造成的。

最让人意外的是他们的参数设计，现在主流大模型动不动就超过230B，4-bit量化后显存轻松突破128GB，普通机器根本承受不住，要么降低到3-bit牺牲精度，要么依赖硬盘交换数据，速度慢得就像卡碟，阶跃偏偏不这么做，他们把模型控制在196B左右，采用MoE结构，刚好处在“4-bit加上256K上下文等于128GB内存”的临界点，他们这样做的原因在于，CTO自己买了一台128GB的Mac Pro，首席科学家配备了128GB的AMD工作站，每天都在上面运行模型，就是为了验证一个事实：本地能够运行，才是真正可用的。

海外用户留言说，这是唯一能在笔记本上跑满256K上下文的模型，这不是吹的，是真的能用，以前的模型再强，你下载回来发现显存不够，只能删掉重来，现在这个模型插上就能跑，连调试时间都省了一小时。

AI的发展带来了变化，过去聊天机器人每秒处理20-30个token就够用，用户看到文字逐字出现，多等一会儿也没关系，现在的需求转向Agent模式，用户把任务直接交给它，比如问“文件处理好了吗”，如果响应慢了就会被放弃，速度不再是加分项，而是关键因素，阶跃公司也明确区分：L1负责对话，L2进行推理，L3执行任务，这三个阶段不能混淆，用对话模型硬撑Agent的工作，只会浪费计算资源在无效操作上。

他们承认自己存在缺陷，比如知识遗忘问题，公开解释是因为对齐训练中加了太多约束，模型被限制在一个小知识圈里出不来，还贴出了修复计划，准备用强化学习训练来控制推理长度减少死循环，更有趣的是，有开发者看完直接留言说帮他们写llama.cpp的自动解析器来解决工具调用卡顿的问题，这种事情以前很少发生。

这其实反映了思路的不同，美国公司习惯堆算力，觉得越大越好，而阶跃的做法正相反，在算力有限的情况下，优先考虑能不能在主流开发设备上运行，这让人想起华为做芯片的思路，不盲目追求制程，而是先保证能用、能存活下来，真正的门槛可能不在数据或算力，而是你愿不愿意为了用户，自己先掏钱买一台128G内存的电脑试试。

有人问这个模型是不是特别神奇，其实它没有那么神秘，就是设计得比较实在，参数数量刚刚好，部署起来不算复杂也不简单，遇到问题会及时处理不拖延，开发者做这个模型的初衷，从来都不是追求最强大的性能，而是希望它能真正派上用场。