打开网易新闻 查看精彩图片

去年夏天,OpenAI被传正在研发一个"万能验证器",能让强化学习在所有领域生效。一年过去,没动静。与此同时,主导OpenAI强化学习战略的Jerry Tworek离职,留下一句"深度学习研究到头了"。

这两件事搁一起看,有点意思。

同一套模型,两个平行世界

同一套模型,两个平行世界

Andrej Karpathy最近把AI圈的分裂摆到了台面上。他说现在有两拨人,各说各话,根本聊不到一块去。

第一拨人用过免费版ChatGPT,或者那个语音模式,被各种低级错误和幻觉劝退。Karpathy直言,这些"过时模型"反映不了现在的真实水平。

第二拨人在用最新模型——OpenAI的GPT-5.4 Thinking(思考模式)、Claude Opus 4.6,配合Codex或Claude Code这类工具做专业开发。Karpathy说,这半年进展巨大,模型现在能独立重构整个代码库,自己找安全漏洞。

最魔幻的是:这两件事同时发生。

OpenAI那个免费、几乎被"放养"的高级语音模式,会在抖音神曲这类问题上翻车;但同一公司最贵的Codex模型,能花1小时有条理地重构整个代码库,或者找到并利用系统漏洞。

Karpathy的原话是:"这两拨人基本上是在互相错过。"

为什么代码行,聊天不行?

为什么代码行,聊天不行?

答案藏在"能不能验证"里。

代码和数学有个特点:对错分明。跑一遍测试,编译通过就是通过,漏洞找到就是找到。这种领域特别适合强化学习——模型尝试→得到明确反馈→调整策略。Karpathy管这叫"可验证奖励的强化学习"(Reinforcement Learning with Verifiable Rewards)。

但写作、咨询、日常闲聊这些"模糊领域"呢?没有干净的标准来优化。你觉得这段文案好,我觉得一般,谁对?

Karpathy在更早一篇关于"软件2.0"的文章里写过核心逻辑:重要的不是你能不能描述任务,而是你能不能验证结果。只有拿到自动化反馈——通过/失败,或者清晰的奖励信号——系统才能被高效训练。

"一项任务或工作越可验证,就越适合在新编程范式下自动化。"

这解释了为什么AI在LeetCode(力扣,程序员刷题平台)上杀疯了,却在"帮我写个朋友圈文案"这种需求上让人抓狂。不是模型变笨了,是后者根本没有训练信号。

通用智能的悖论

通用智能的悖论

这就引出一个悬而未决的问题:通用智能到底能不能从语言模型里长出来?还是我们只能把模型调教成特定领域的专家?

打开网易新闻 查看精彩图片

Karpathy没有直接回答,但他指出了一个结构性困境。OpenAI去年夏天传出的"万能验证器",理论上能解决这个困境——给所有领域都装上自动判卷机。但一年过去,没出货。

更微妙的是人事变动。Jerry Tworek是OpenAI强化学习战略的核心人物,他的离职和那句"深度学习研究到头了",被不少人解读为信号。当然,也可能是个人选择,但时间点耐人寻味。

技术路线上的分歧也在显现。Anthropic的Claude系列在"有用性"和"无害性"之间反复横跳,本质上也是在处理"没有标准答案"时的训练难题。OpenAI的o系列模型(o1、o3)试图用"思考链"(Chain-of-Thought)模拟验证过程,让模型自己检查自己——但这终究是近似,不是真正的外部验证。

一个残酷的事实是:我们训练AI的方式,决定了AI能做什么。

强化学习需要奖励信号,而奖励信号需要验证器。代码有单元测试,数学有证明检查器,围棋有胜负。但"高情商回复""创意文案""战略建议"呢?人类评委太贵、太慢、太不一致。

产品经理的视角:功能边界即产品边界

产品经理的视角:功能边界即产品边界

换个角度想,这其实是好事。

如果你在做AI产品,"可验证性"就是你的护城河。RPA(机器人流程自动化)厂商为什么活得滋润?因为他们的场景明确:发票识别、数据录入、流程跳转,每一步都有对错。客服质检、代码审查、安全扫描,这些赛道正在被AI快速吃掉。

但别指望同一个模型既能写代码又能当人生导师。Karpathy的观察提醒我们:能力边界不是技术问题,是训练结构问题。

用户不会理解"强化学习信号密度"这种概念,他们只会觉得"这AI时而神仙时而智障"。产品设计的挑战在于,把"可验证"的能力包装成可靠功能,把"不可验证"的能力降级为辅助建议,而不是假装它能做决策。

一些团队已经在这么做了。Cursor(AI代码编辑器)把代码生成和终端执行打通,让模型自己看报错、自己改——这就是在构建"验证闭环"。Perplexity(AI搜索)坚持给每条信息标来源,让用户自己验,也是一种务实策略。

反过来,那些试图让AI"什么都管"的产品,往往在模糊地带栽跟头。医疗诊断、法律咨询、心理咨询,不是模型不够大,是没人敢签字负责。

回到那个夏天

回到那个夏天

去年夏天的"万能验证器"传闻,像是一个技术乌托邦的缩影:只要找到那个元规则,AI就能自我进化,打通所有领域。

一年后的今天,我们看到的反而是领域分化加剧。代码工具越来越强,通用聊天机器人却在原地踏步。OpenAI把资源押注在Codex这类专业工具上,语音模式确实有点像Karpathy说的"被孤儿化"了。

这不是矛盾,是选择。

Karpathy的洞察在于,他指出了"进步"本身的相对性。对程序员来说,AI正在经历最好的时代;对普通用户来说,免费ChatGPT和两年前差别不大。两个群体都在基于真实体验下判断,只是他们用的根本不是同一个产品。

那个"万能验证器"还会来吗?OpenAI没说话。Jerry Tworek的离职是句号还是逗号,也没人知道。

唯一确定的是,下次有人跟你说"AI已经无所不能"或者"AI就是噱头"的时候,先问他一句:你用的是哪个模型,做什么用?