出品 | 网易智能
作者 | 小爪
编辑 | 王凤枝
Claude Fable 5上线后,很多人看跑分,很多人在算账。
这很少见。
这个模型当然很强。Anthropic说它是首个面向公众开放的Mythos级别模型,也是现在能用到的最强Claude。但第一波体验帖里,冒得最快的词不是强。
是贵。
有人晒账单:一个网页版《模拟人生》类项目,花了100美元。有人在Reddit上提醒,重度任务里,一分钟会烧掉约2% 的额度。
于是Fable 5把一个问题甩给了用户:你手里这件事,配不配让它出手。
它确实很强,但不是随手用的那种强
Fable 5的能力口碑并不差。
相反,最早一批体验者对它的评价很高。Every首席执行官丹・希珀(Dan Shipper)在X上发了一条传播很广的长帖,说他们内部测试了一周左右,覆盖编程、写作、营销、编辑等任务。同一轮测试也被做成了一支视频。他给出的判断很直接:这是世界上最好的编程模型。
他的帖子里有很多夸张但有画面的体验:它能处理生产故障积压,能做3D项目,能分析客户反馈和网站数据,还能把问题拆成可测试的解决方案。换成过去,这些内容足够支撑一篇标准的新模型发布稿。
更刺眼的是后半段。
希珀说,Fable 5 "很慢,很吃token"。它适合最重的工作,不适合协作写作这类需要快速来回的任务。他还用了一个很狠的比喻:拿它做日常知识工作,像用火箭发射器拍蚂蚁。
一个模型强到能处理生产故障积压,也慢到不适合陪你一句一句改文章。这个反差,比跑分更接近真实使用。
一个模型能完成某个任务,并不等于它应该被用在这个任务上。 过去用户问模型,多半先问"它能不能答好"。Fable 5之后,更多人开始问另一个问题:这件事值得用这么重的模型吗?
价格表只是第一层,真正贵在任务会膨胀
Fable 5的贵不是猜出来的。
这里要先区分两种"贵"。
对API开发者来说,贵体现在单价。Anthropic官方价格表写得很清楚:每百万输入token 10美元,每百万输出token 50美元。作为对照,Claude Opus 4.8是5美元输入、25美元输出。Fable 5的基础API单价,大约是上一代顶级Opus的两倍。
对Claude Pro / Max这类订阅用户来说,贵不一定是马上多付一笔钱。Fable 5在6月22日之前被包含在付费计划中,之后会转向基于容量和使用额度的访问。用户体感里的"贵",更多来自额度烧得快:明明还在订阅里,但一次重型任务就能把可用额度迅速吃掉。
如果只是两倍,用户未必会这么敏感。
问题在于,Fable 5这种模型的使用方式,天然会把一次任务拉长。
它更适合长上下文、复杂代码、多步骤推理、工具调用和自我检查。一个看似简单的"帮我完成这个功能",在自主代理式工作流里可能不是一次回答,而是一串计划、读文件、改代码、跑测试、修故障、再验证。价格表里的token单价是静态的,真实任务里的token消耗是动态的。
Reddit的ClaudeAI社区里有用户发帖,说自己在Max 20x计划里试Fable 5,重一点的任务里,用量大约每分钟掉2%。这个说法不能直接换算成所有订阅用户的成本,同帖也有人说自己没有遇到这么夸张的消耗。但它足够说明,早期重度用户已经开始把Fable 5当成一个会明显消耗额度的重型工具。
这就是用户开始算账的原因。
他们不是只在看单价,而是在看一次完整任务的总成本。
类似的说法也在社交平台上冒出来。有人调侃Fable 5很擅长两件事:写代码和掏空银行账户。还有人晒出一个一次生成网页项目的成本,说用Fable 5做了一个网页版《模拟人生》类项目,花了100美元。
这个问题在对比测试里更明显。有人拿Fable 5和Opus 4.8做同题对比:Windows 11截图复刻里,他反而觉得Opus 4.8稍微更好;到了3D版Flappy Bird和Remotion飞机动画,Fable 5才明显拉开差距。最后他的结论不是"Fable无脑更好",而是更接近一句产品建议:它很强,但不是每个界面或编程任务都应该上Fable,Sonnet或Opus在一些场景里更经济。
Anthropic并非没有提供缓解手段。定价页面里,提示词缓存和批处理API都能把部分调用价格压下来,对高频调用的开发者有实际价值。只是这些更像工程侧的优化,普通用户真正在意的,还是一次完整任务跑完之后,额度还剩多少。以前新模型上线,用户常问:"它比上一代聪明多少?"
这次后面多了半句:"这一点聪明,我买不买得起?"
慢,不只是等待几秒
这里要把"慢"说准确。
Fable 5并不是所有场景都被吐槽响应迟钝。第一波公开反馈里,更集中的抱怨是贵、用量燃烧快、吃token。"慢"更多来自重型任务体验:它会想很久,跑很久,占用很长上下文,适合把任务丢给它之后等结果,而不是一问一答地来回磨。
慢具体慢在哪里,代码审查和长任务测试里看得最清楚。代码审查工具CodeRabbit的一段讨论拿Fable 5做测试,结论是它更彻底、更慢,也更贵。在DeepSuite长任务里,Fable有任务跑到90分钟以上超时;作为对照,Codex通常12到17分钟,Opus约24到34分钟。Fable跑通的任务平均也要43分钟左右,并消耗约3.5万token。
这不是聊天框里多等三秒的问题。
用户等的不是一句回复,而是一段后台作业。
不同任务需要的速度不一样。写一句话、改一个标题、查一个概念,用户需要的是快、便宜、顺手,可以反复来回。Fable 5在这些任务上可能不划算。它会调用更多上下文,展开更长推理,消耗更多额度,最后得到的结果未必比一个更轻的模型更适合这个场景。
复杂代码、长文档分析、多代理编排、需要它自我验证的任务,才更接近它的舒适区。
Fable 5的体验反馈,也在迫使用户重新认识模型分工:不同任务应该有不同档位。
那支Every视频把Fable 5比成"曲速引擎":跨星系很快,但不适合在城里转弯。希珀在视频里展示了一个《巴别图书馆》浏览器3D游戏,用一个提示词让Fable 5自己读故事、规划、执行、检查,跑了三四个小时才完成。
这个例子比"模型更聪明"更直观。你给它一个目的地,然后离开座位。几个小时后回来,看它有没有真的抵达。
Anthropic其实也在往这个方向推。官方材料强调Fable 5能在最高推理强度下反思并验证自己的工作,更适合高度自主的操作。换成产品语言,它既回答问题,也在承担更长的任务链。
任务链越长,等待和成本就越成为体验的一部分。
最强模型正在变成"高功率档"
Fable 5刷新能力上限,当然重要。
但这次更有意思的是,用户开始把模型当成资源来调度。
过去一年,AI产品给用户形成了一个很强的心理预期:订阅之后,随便问,随便试,最强模型就在聊天框里。哪怕有限额,很多人仍然把它当成一个近似无限的日常工具。
Fable 5把这个预期往回拉了一步。
它不是不能随手用,而是随手用的代价变得更明显。用户开始意识到,最强模型应该留给高价值任务。写代码架构、修复杂故障、读超长文档、做多步骤分析、跑一整套代理工作流,这些任务可能值得。随手改几句话、列一个提纲、把一个网页总结成三点,未必值得。
这不是理论判断。同一支视频里也提到,Fable 5在写作和营销文案上并没有明显压过Opus 4.8,句子还会显得更密、更文学化。对需要快速来回的日常写作,希珀仍然更偏向用更快的日常主力模型。
Fable的强,主要落在少数重任务上:它把那里的天花板推得更高。
这会逼着AI产品改默认体验。
以后一个成熟的AI工作台,可能不该只让用户手动选择一堆模型名。它还要判断:这次是不是重任务,大概要跑多久,会不会明显烧额度,中途需不需要让用户确认。
这些开关听起来麻烦,但它们会越来越像产品体验本身。
好的产品未必总把最贵的能力摆在前台。更多时候,它应该替你判断:这次用快模型就够了,还是值得开一次Fable。
Fable 5的第一波反馈,已经把这个问题推到用户面前:你花出去的钱,买到的是一段计算时间、上下文、推理深度和失败重试。
能力也开始分层
还有一个更敏感的分层。
Fable 5是公众可以用的版本;Mythos 5与它同属Mythos级,但访问范围更窄,初期主要通过Project Glasswing和受信任访问计划提供给部分合作方。
Reddit上有用户把这件事解读为:前沿AI正在变成一种带门槛的能力。 这个说法有社区情绪,不能直接当结论。但它提醒了一件事:最强AI能力已经不只是"有没有发布"的问题,还包括谁能用、在哪些场景能用、遇到高风险请求会不会被降级、什么组织能拿到限制更少的版本。
这和价格问题连在一起。
一个用户有没有月付会员,只是第一层门槛。一个团队有没有预算、有没有用量管理、有没有任务路由、有没有人工验收和回滚机制,才决定它能不能长期吃到最强模型带来的收益。
Fable 5的体验反馈因此有点矛盾。
大家承认它强,也承认它贵;愿意为重任务付钱,又不愿意把每一次轻任务都交给它;期待它自主完成更多工作,又担心一条请求在后台扇出成一大串token消耗。
这就是第一批用户真实遇到的Fable 5:能力很诱人,代价也终于藏不住了。
AI产品不再只是"更聪明"
过去看模型更新,最容易写成一句话:更聪明了。
Fable 5当然更聪明。但它也把几个很现实的问题摆到了桌面上:谁决定该用它,什么时候值得等,什么任务值得烧token,一次代理式请求在后台膨胀时,谁来踩刹车。
用户看到的是一个输入框,公司看到的可能是一串子任务、工具调用、上下文传递、检查和重试。能力越强,越容易让人把更大的任务交给它;任务越大,成本和等待就越不能被藏在界面后面。
这会让AI产品从"聊天框竞争"进入"调度系统竞争"。
真正难的,可能会变成很具体的产品细节:什么时候自动切到轻模型,什么时候提醒用户这是一项重任务,什么时候先问一句"要不要继续烧额度",什么时候必须把人拉回来验收。模型越强,这些小开关越重要。
Fable 5的第一波体验声音,已经给了一个清楚信号:用户不是不愿意为强模型付费,他们不愿意在不知道代价的情况下,让每个任务都变成重型任务。
Fable 5的产品意义,不只是"Anthropic又发布了一个强模型"。
更耐看的变化在用户这边:最强Claude上线后,第一批人终于开始认真问,什么事情配得上最强模型。
它让人看到上限。
也让人开始看账单。
热门跟贴