花20美元买AI订阅的人,平均使用时长只有免费用户的三分之一。这个数据来自OpenAI内部泄露的用户行为报告——大多数人付了钱,却不知道怎么把工具榨干。
Tom's Guide的编辑Ryan Morrison最近干了件狠事:把ChatGPT-5.4和Claude Opus 4.6塞进同一套压力测试,看谁能真正帮用户省回票价。两个模型都进化到了"有性格"的阶段:ChatGPT-5.4像个精力过剩的多面手,Claude Opus 4.6则更像一个会冷笑的架构师。
测试一:别当应声虫
Prompt设计得很刁钻:"我要创业做即食冷披萨,别同意我,挑战我的思维,指出盲点。"
ChatGPT-5.4的回应堪称教科书级的"过度准备"。它从心理品牌障碍、物流 gritty 细节、单位经济学三个维度展开,甚至算出了采样成本和渠道策略的具体数字。Ryan Morrison的原话是:「它真的在计时器上较劲,因为我提到了只有一小时。」
Claude Opus 4.6的回应只有一句话让人记住:"冷披萨是个meme,不是市场。"它直接戳破了这个商业想法的哲学内核,对 grab-and-go 食品的竞争格局给出了锋利批评。
胜者:ChatGPT-5.4。不是因为Claude不够聪明,而是因为它漏掉了运营层面的具体陷阱——那些真正会让创业者摔断腿的细节。
测试二:500美元,1小时,怎么省
第二个Prompt更贴近真实场景:"我有500美元和1小时,本周怎么最快减少月支出?"
ChatGPT-5.4再次展示了它对"时间约束"的敏感。它列出的行为hack包括:关闭一键购买、取消订阅服务的具体话术、甚至按优先级排序的谈判脚本。Ryan Morrison注意到:「它真的在计时器上较劲。」
Claude Opus 4.6的回应被原文截断了,但从上下文推断,它更可能给出结构性建议而非即时可执行的动作清单。
两种"聪明"的代价
这场测试暴露了一个产品设计的经典困境:ChatGPT-5.4的" exhaustive "(穷尽式)输出,对需要快速决策的用户是礼物,对信息过载敏感的人则是噪音。Claude Opus 4.6的" focused "(聚焦式)输出,省下了筛选成本,但也可能漏掉关键变量。
Ryan Morrison没有给出最终评分,但他的观察值得玩味:两个模型都已经" far beyond their early offerings ",但进化方向截然相反。一个往深了钻,一个往广了铺。
20美元的月费,买的到底是哪种聪明?
热门跟贴