一位开发者因为Claude用量限制太烦,决定测试两个热门替代方案。结果:一个真香,一个还没跑完就把他封了。
为什么非得找替代?
Claude的用量限制正在变成薛定谔的猫。档位在变,额度消耗速度在变,唯一不变的是你对"还能用多久"的焦虑。
对于靠它写代码吃饭的人来说,这种不确定性很消耗人。作者的原话是:"that uncertainty gets annoying fast"——烦得很快。
所以MiniMax M2.7和Z.ai的GLM-5.1进入视野。这两个名字在开发者社区被频繁提及,卖点都是便宜、能直接替换Claude Code的工作流。
作者把两个模型都接进了Pi harness(一个AI编程工具框架),用同一套测试任务横向对比。为了有参照,还拿Claude Opus 4.6当基准线——注意是4.6,因为测试时4.7还没发布。
另外,作者在本地ThinkStation PGX工作站上也跑了Qwen3-Coder-Next,用Context7做文档检索,模拟真实本地开发场景。
测试规则很硬:每个模型只给一次机会,同样的提示词,不追问不修正,看第一版输出什么样。每轮大概三分钟。
测什么:一个会"露馅"的真实任务
作者没跑标准benchmark,而是设计了一个开发者日常会遇到的活儿:写一个Python命令行工具,叫logsift。
功能要求很具体:
• 读取带时间戳前缀的日志文件
• 三个子命令:tail、grep、stats
• 支持--since参数做时间窗口过滤
• stats命令输出ASCII柱状图
• 完整可安装包:pyproject.toml、README、pytest测试
• 只用标准库
这任务妙在"刚刚好"。不是LeetCode那种算法题,而是真实工程:要规划多文件结构、处理异常输入、写有用的测试、还要画出能看的图表。到处都是可以偷懒的地方,也到处都是能展现实力的细节。
评分维度也很实在:是否符合规格、代码质量、测试是否诚实、图表能不能正常渲染。
MiniMax M2.7:穷人的Claude
结果先说好的。MiniMax M2.7的表现让作者愿意把它列为"价格敏感时的日常选择"。
输出很干净:152行核心代码,137行实打实的测试代码。ASCII图表按24小时桶比例渲染, malformed lines(格式错误的行)被干净地跳过。
关键是测试"诚实"——很多模型会生成看似有测试文件、实际测了个寂寞的代码。MiniMax的测试是真的在验证应用行为。
作者的原话是:"Not Opus-well, but well enough"——没到Opus水平,但够用了。对于预算有限的开发者,这个评价已经很高。
GLM-5.1:还没开始就结束了
另一个故事就离谱了。Z.ai的GLM-5.1在测试过程中直接把作者账号封了,零预警。
原文没提具体触发原因,也没说封禁是否可申诉。但从上下文推断,作者甚至没来得及拿到完整的测试结果。
这种体验对于"Claude平替"的定位是致命的。开发者找替代方案,核心诉求之一就是稳定性——包括服务本身的稳定性。用量限制烦人,但至少你知道边界在哪。突然封号等于边界不存在,风险完全不可控。
作者没给GLM-5.1打分,因为没机会。这种"未完成"本身就是一种评分。
本地模型的参照价值
Qwen3-Coder-Next作为本地参照也跑了同样的任务。作者给它配了Context7做文档检索,这是本地模型的典型用法——弥补没有云端工具链的短板。
原文没展开Qwen的具体表现数据,但把它放进测试设计本身就有信息量:在作者看来,本地部署已经是开发者工具箱里的常规选项,值得和云端模型同台竞技。
三个关键发现
1. 价格敏感场景有解了
MiniMax M2.7证明了Claude的替代方案不是伪命题。对于非关键路径的日常编码,它的输出质量足以支撑生产力。152行干净代码+137行有效测试,这个代码结构本身就说明模型理解了工程规范。
2. "平替"的隐性成本被低估了
GLM-5.1的封号事件暴露了一个行业通病:低价策略背后的运营成熟度。模型能力只是入场券,账号体系、风控逻辑、申诉通道这些"基础设施"同样决定产品可用性。对于依赖AI工具完成工作的开发者,一次无理由封号造成的损失可能远超省下的订阅费。
3. 单次测试方法论的价值
作者坚持"一次过、不修正"的测试规则,这刻意模拟了真实工作流:你不会对每个需求都和模型来回拉扯十轮。第一版输出的质量,决定了你是"稍微改改就能用"还是"不如自己重写"。
这个设计让测试结果的方差更有意义——它惩罚了那些需要大量人工后处理的"伪可用"模型。
给开发者的实用判断
如果你现在被Claude的用量限制困扰,MiniMax M2.7值得一个试用期。它的代码结构、测试覆盖、边缘处理都达到了"能放心交给它"的门槛。但建议保留Claude账号处理关键任务,形成分层策略。
至于GLM-5.1,在封号机制透明化之前,风险收益比很难看。省下的钱可能一次性赔进去。
本地模型如Qwen3-Coder-Next的定位更微妙:它不是云端的直接替代,而是特定场景(数据敏感、网络受限、成本极致优化)的补充。Context7这类检索增强工具的普及,正在缩小本地和云端的体验差距。
这件事为什么重要
Claude的用量焦虑不是个案,是整个AI coding工具行业的缩影。模型能力在涨,但算力成本没有同步下降,厂商只能在"限制用户"和"烧钱补贴"之间走钢丝。
这个测试揭示了一个转折点:当开发者开始系统性地寻找替代方案,说明头部产品的定价/配额策略已经触及用户忍耐阈值。MiniMax和GLM-5.1被频繁提及,本身就是市场信号。
但替代方案的竞争维度也在升级。早期比的是模型能力,现在比的是综合能力:输出质量、服务稳定性、账号安全、生态兼容。GLM-5.1的封号事件说明,有些选手还没准备好打下半场。
对于25-40岁的科技从业者,这个测试的价值在于提供了可复现的决策框架:设计一个贴近真实工作的测试任务,坚持单次输出评估,关注代码结构而非表面功能。这套方法可以迁移到任何新模型的评估。
最终数据:MiniMax输出152行代码+137行测试,GLM-5.1输出0行(账号被封),测试任务完成率50%。这就是当前"Claude平替"市场的真实画像——一半可用,一半不可预测。
热门跟贴