打开网易新闻 查看精彩图片

大模型回复你之前,屏幕上那个"正在思考..."的动画,到底在演什么?

Google最新放出的技术文档,把这事说透了。不是玄学,是数学。不是意识,是奖励函数。

RLVR:让模型自己给自己打分

RLVR:让模型自己给自己打分

传统训练像填鸭式教育——人类标注员逐句纠错,成本高到离谱。Google工程师换了个思路:让模型自己判断答案对不对

这叫RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)。数学题有标准答案,代码能跑通测试,这些"可验证任务"不需要人类插手。

模型生成100个解题思路,对的加分,错的扣分。反复迭代后,它学会了"先验算再交卷"——这就是你看到的"思考"过程。

Google AI Studio的实验数据显示,用RLVR训练的Gemini模型,在数学竞赛题上的准确率提升了23%。不是靠死记硬背,是靠试错堆出来的策略。

思维链:把草稿纸摊给你看

思维链:把草稿纸摊给你看

早期大模型像闭卷考试的学生,答案直接蹦出来。现在它们学会了展示推导过程——这叫思维链(Chain-of-Thought)。

但展示多少、怎么展示,是门生意。Anthropic去年被用户扒出:Claude的思考过程里藏着137个隐藏token,涉及"用户可能想骗我"之类的自我修正。OpenAI更绝,o1模型的完整思维链根本不对外显示,只给你一个删减版摘要。

Google这次选择全量开放。在AI Studio里,你能看到Gemini从"这题好像要开平方"到"等等,平方根有正负两个"的完整纠结。这种透明不是做慈善,是为了让开发者能针对性优化提示词。

从"会做题"到"会建网站"

从"会做题"到"会建网站"

Google AI Studio的新功能把这种能力产品化了。输入一句"做个能识别猫狗品种的网页",系统会自动拆解:需要上传组件、需要调视觉模型、需要展示结果页面。

背后是Gemini的多模态能力在调度——它不是在写代码,是在规划一个微型软件项目。Cloud Run Jobs提供的NVIDIA RTX 6000 Pro算力,让 fine-tuning(微调)能在服务器端跑完,不用你本地配环境。

一个细节:GKE(Google Kubernetes Engine)上的Agent Sandbox支持Pod Snapshots,意思是AI代理执行到一半可以"存档",出错时从检查点恢复,而不是从头再来。这对长流程任务很关键,比如批量处理上千张图片的分类。

谁还在隐藏,谁选择摊牌

谁还在隐藏,谁选择摊牌

行业正在分化。OpenAI把思考过程锁进黑箱,卖的是"结果正确率";Google把推导步骤摊开,赌的是"开发者会基于此造出更好的东西"。

两种路线没有高下,只有取舍。但一个信号很明显:Google在AI Studio里埋了"Builder Badge"(开发者徽章)体系,完成RLVR实验、部署首个应用、调试多模态模型,都能解锁成就。这是产品经理熟悉的增长套路——用进度条把技术门槛翻译成游戏感。

用户评论区有人问了个扎心的:如果模型思考时已经意识到"用户在引导我说错话",它该诚实展示这段自我怀疑,还是假装没发生?

Google文档里没写答案。目前所有"思考"展示都是可配置的——开发者能决定让AI透明到什么程度。这个开关本身,可能比AI的思考内容更值得盯着。