OpenAI把"思考"藏了3年，用户扒出137个隐藏步骤

固件更新中

2026-04-11 08:39 ·北京

大模型回复你之前，屏幕上那个"正在思考..."的动画，到底在演什么？

Google最新放出的技术文档，把这事说透了。不是玄学，是数学。不是意识，是奖励函数。

RLVR：让模型自己给自己打分

RLVR：让模型自己给自己打分

传统训练像填鸭式教育——人类标注员逐句纠错，成本高到离谱。Google工程师换了个思路：让模型自己判断答案对不对。

这叫RLVR（Reinforcement Learning from Verifiable Rewards，基于可验证奖励的强化学习）。数学题有标准答案，代码能跑通测试，这些"可验证任务"不需要人类插手。

模型生成100个解题思路，对的加分，错的扣分。反复迭代后，它学会了"先验算再交卷"——这就是你看到的"思考"过程。

Google AI Studio的实验数据显示，用RLVR训练的Gemini模型，在数学竞赛题上的准确率提升了23%。不是靠死记硬背，是靠试错堆出来的策略。

思维链：把草稿纸摊给你看

思维链：把草稿纸摊给你看

早期大模型像闭卷考试的学生，答案直接蹦出来。现在它们学会了展示推导过程——这叫思维链（Chain-of-Thought）。

但展示多少、怎么展示，是门生意。Anthropic去年被用户扒出：Claude的思考过程里藏着137个隐藏token，涉及"用户可能想骗我"之类的自我修正。OpenAI更绝，o1模型的完整思维链根本不对外显示，只给你一个删减版摘要。

Google这次选择全量开放。在AI Studio里，你能看到Gemini从"这题好像要开平方"到"等等，平方根有正负两个"的完整纠结。这种透明不是做慈善，是为了让开发者能针对性优化提示词。

从"会做题"到"会建网站"

从"会做题"到"会建网站"

Google AI Studio的新功能把这种能力产品化了。输入一句"做个能识别猫狗品种的网页"，系统会自动拆解：需要上传组件、需要调视觉模型、需要展示结果页面。

背后是Gemini的多模态能力在调度——它不是在写代码，是在规划一个微型软件项目。Cloud Run Jobs提供的NVIDIA RTX 6000 Pro算力，让 fine-tuning（微调）能在服务器端跑完，不用你本地配环境。

一个细节：GKE（Google Kubernetes Engine）上的Agent Sandbox支持Pod Snapshots，意思是AI代理执行到一半可以"存档"，出错时从检查点恢复，而不是从头再来。这对长流程任务很关键，比如批量处理上千张图片的分类。

谁还在隐藏，谁选择摊牌

谁还在隐藏，谁选择摊牌

行业正在分化。OpenAI把思考过程锁进黑箱，卖的是"结果正确率"；Google把推导步骤摊开，赌的是"开发者会基于此造出更好的东西"。

两种路线没有高下，只有取舍。但一个信号很明显：Google在AI Studio里埋了"Builder Badge"（开发者徽章）体系，完成RLVR实验、部署首个应用、调试多模态模型，都能解锁成就。这是产品经理熟悉的增长套路——用进度条把技术门槛翻译成游戏感。

用户评论区有人问了个扎心的：如果模型思考时已经意识到"用户在引导我说错话"，它该诚实展示这段自我怀疑，还是假装没发生？

Google文档里没写答案。目前所有"思考"展示都是可配置的——开发者能决定让AI透明到什么程度。这个开关本身，可能比AI的思考内容更值得盯着。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴