我的AI编程工具栈最近被迫换血。原本用Claude Opus当主力编排器,配合OpenCode和OhMyOpenagent里的Sisyphus,但Anthropic的token价格一个月前突然暴涨,加上那堆乱七八糟的 drama,不得不找退路。
Sisyphus基本是硬编码优化Opus的,好在OpenRouter支持灵活切换。我花了两个月挨个试,看哪些模型能无缝顶替。顺便也测了本地部署方案——3月生日买了张RTX 5060ti 16GB,想搞个轻量副手处理代码生成、快速迭代这类低优先级任务。这部分下次再写。
打开网易新闻 查看精彩图片
先说筛选条件:128k以上上下文、带programming标签、支持工具调用,按最新/最热排序轮着刷。试下来发现模型明显分档:OpenAI/Anthropic/Google的"AAA"级又贵又重,但领先3-5个月;中间档是砸钱追赶的大厂;剩下的是各种野路子。
直接给结论,我的前三:
第一名:x-ai/grok-4.20-beta
Runner-Up档里最强的替代方案。编排能力、工具调用、任务委托、钩子系统都稳;训练数据新鲜,完成度跟踪靠谱。还能玩分角色策略,让不同子代理各干各的。
并列黑马:minimax/minimax-m2.7
长上下文、token性价比、集成度三项全优,没有明显收敛问题。原话是"更愉快的惊喜之一"——这评价在我这很少见。
价值黑马:poolside/laguna-m.1
完全免费,表现远超预期,"这玩意儿从哪冒出来的"。长上下文和高级功能一般,但token成本和集成度能打。白嫖党首选。
测试截止到5月14日,纯主观体验。你的场景可能不同,但这三至少值得放进候选清单。
热门跟贴