硅谷有个名字传了很久——Mythos。Anthropic藏得最深的王牌,据说能力甩开市面上所有模型一个代际。
连谷歌创始人谢尔盖·布林都说:"用过Mythos你就知道,那就是纯粹的AGI。如果你觉得这都不算AGI,那我不知道什么才算AGI。"
Anthropic IPO在即,投资人要看弹药库有多大。憋了这么久,昨晚正式发布Mythos的公众版:Claude Fable 5。
神话和寓言
这次同时扔出了两个模型:Claude Mythos 5和Claude Fable 5,一个叫神话,一个叫寓言。
Mythos 5是全功率版本,没有安全阉割。但这个模型不卖,只通过Project Glasswing配发给政府机构、网络安全团队和特定生物安全研究机构。
而Fable 5,是Mythos 5加了安全护栏以后的公众版。你的请求如果涉及网络攻防、生物化学武器或者模型蒸馏这些敏感领域,系统会悄悄把请求降级到 Opus 4.8 来处理。据Anthropic说降级触发率不到5%。
另外,这次计费方式不一样,6月9日到6月22日,所有Pro、Max、Team、Enterprise订阅用户都可以免费试用Fable 5,不消耗积分。22号之后继续用就要按2倍于Opus 的速度烧积分了,但管他呢,先爽两周再说。
来看数据
SWE-bench Pro:80.3%,GPT-5.5 是 58.6%。22 个点的差距,不是"又进步了一点",是隔了一代。
FrontierCode 钻石难度:29.3%,GPT-5.5 只有 5.7%,差了五倍多。
人类最后的测试:64.5%,领先过往模型最高分十二个点。
还有一件事比这些数字更有力,Stripe把自家5000万行Ruby代码丢给Fable 5做全库迁移,一天干完了。 正常一个工程团队预计要搞两个多月。
连卡帕西都说,未来的软件就跟自来水一样了,拧开水龙头哗哗往外流。
我自己也试了试
激动的心颤抖的手,我赶紧冲到办公室把电脑打开升级了。
我最近在做一个健身APP,升级完之后第一件事,就是让Fable 5看看我这些代码,问它哪些功能可以加强。它自己推理了一会儿,列了几个改进优先级,逻辑很清楚,每个方案都给了解释。我说"那你就干吧,我要出门了,给我按8小时干"。
然后我就干了一件特别手贱的事——出门前把手机插电脑上充电。等我回来,整个人傻了。Fable 5自己检测到了连接的设备,自己判断可以部署,自己动手改了,直接给我把APP更新了版本。
我翻了翻,一个小时优化了好几处功能,朋友圈分享、GPS轨迹等等都优化了。以前我分享健身记录的手写评论、手动配图、选了朋友圈再发;现在它自动写评论、自动配图,一键发朋友圈。前两天我带女儿去亮马河划船的图,就是用这个功能发出去的,效果特别好。
还有GPS轨迹也优化了。以前用Opus写的代码总有几十米偏差,我跑步、骑车的轨迹经常飘到河里、穿过墙,这次它直接给修好了。我刚骑车出去转了一圈,轨迹和真实路径一致。
网友整了什么花活
Fable 5刚发布不到24小时,推特上的网友已经玩出花了。我看到的几个案例,每一个都够喝一壶。
这次Anthropic放话,Fable 5是目前最先进的视觉任务模型。最直观的证明就是Fable 5纯靠截图通关了《精灵宝可梦 火红版》。以前的Claude模型想打游戏,得配上复杂的辅助工具,Fable 5是直接看图,像人一样根据屏幕上的像素来判定位置、理解对话、做出战斗决策,视觉理解跟决策的耦合上了一个台阶。
当然,它不止能玩游戏,还能当场造一个。
有人让Fable 5复刻做一个《宝可梦》。一句话指令"Make a Pokémon clone",模型推理1小时,一口气输出8000行代码。151只宝可梦的精灵图、队伍图标、真实叫声、属性、技能表、进化、捕获率、成长曲线,该有的全都有。
有人用它复刻了一个《我的世界》,只需一句话“Make a Minecraft clone”,只用了20分钟,完成度已经非常高了。
还有人让Fable 5直接手搓一个3D世界,纯ThreeJS代码,没用任何现成游戏引擎。
这位玩了个更绝的——让Fable 5抓自己电脑的网络数据包,把它实时可视化成高速公路上跑的不同车型,每种车代表一种数据包类型。视频一发出来41万播放,下面全是"这玩意一个人一晚上做出来"的惊呼。
让Fable 5给自己写个网站,效果也是手拿把掐。
能自我进化的就是AGI
看完这些,我想跟大家聊两个细节。
一个是 Fable 5《杀戮尖塔》通关率是Opus 4.8的三倍。这是个随机性极强的 Roguelike卡牌游戏,没法死记硬背。Fable 5会在文件系统里写"策略笔记"——上一局怎么死的,这局就避坑。它在玩游戏,但它其实在自己训练自己。
另一个:Fable 5配合Claude Code框架可以连续自主跑好几天,跑完之后会主动写测试工具来验证自己的结果,不等人来查,它自己查自己。代码不对,自己改。
还记得文章开头布林那句话吗?
"Mythos 就是 AGI。如果你认为这都不是 AGI,那我不知道什么是 AGI。"现在硅谷对 AGI 越来越倾向一个判断:能自我进化的,才叫AGI。能从经验里学,能对自己的产出负责——这两件事拼到一起,你给它一段时间,它会把自己变得更好。这就是布林说的"纯粹 AGI"。
留给程序员的时间不多了
三年前我用AI编程做贪吃蛇,发推特说"留给人类程序员的时间不多了"。
当时一帮程序员追着我抬杠:"你让它写个王者荣耀试试?"
说真的,当时我也觉得这事还得等几年。
今天我觉得,Fable 5 真的能做王者荣耀。但我没让它做王者。我让它做了个更硬核的东西——网页版红色警戒。
我只说了一句:"做个网页版红警。"它马上反问我:要红警1还是2?要要什么风格?甚至还问我要不要尤里的复仇。
现在它还在跑。
明天我把结果发出来。
是不是真的"传说中的AGI",明天见分晓。
顺便说一句,猎豹在推进AI Native组织变革,很多经验现在不光自己用,还在对外输出,帮更多企业打造AI Native组织,帮助企业成为AI时代的新物种。
热门跟贴